このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220430となっている論文です。

PDF登録状況(公開日: 20220430)

TitleAuthorsAbstract論文公表日・翻訳日
# 混合量子ゲートによるロバストな非相関誤差

Robustly decorrelating errors with mixed quantum gates ( http://arxiv.org/abs/2001.02779v2 )

ライセンス: Link先を確認
Anthony M. Polloreno, Kevin C. Young(参考訳) 量子演算におけるコヒーレントエラーはユビキタスである。 制御フィールドにおける急激な環境結合やエラーから生じるであろうと、そのようなエラーは急速に蓄積し、平均ゲート忠実度よりも量子回路の性能を著しく低下させる可能性がある。 Hastings [1] と Campbell [2] が最近示したように、量子ゲートの決定論的実装をランダムな実装のアンサンブルに置き換えることで、オンはコヒーレントな誤りを劇的に抑制できる。 私たちの研究は、量子最適制御問題としてHastingsとCampbellの結果を再構成することから始まります。 次に,混合量子ゲートの性能,実装性,ロバスト性を改善するために設計された凸プログラム群について考察する。 最後に、これらの混合量子ゲートを超伝導量子ビット上に実装し、コヒーレント誤差の著しい低減と一致するランダム化ベンチマーク結果について議論する。 [1] M. B. Hastings, Quantum Information & Computation 17, 488 (2017)。 [2] E. Campbell, Physical Review A 95, 042306 (2017)。

Coherent errors in quantum operations are ubiquitous. Whether arising from spurious environmental couplings or errors in control fields, such errors can accumulate rapidly and degrade the performance of a quantum circuit significantly more than an average gate fidelity may indicate. As Hastings [1] and Campbell [2] have recently shown, by replacing the deterministic implementation of a quantum gate with a randomized ensemble of implementations, on can dramatically suppress coherent errors. Our work begins by reformulating the results of Hastings and Campbell as a quantum optimal control problem. We then discuss a family of convex programs designed to improve the performance, implementability, and robustness of the resulting mixed quantum gates. Finally, we implement these mixed quantum gates on a superconducting qubit and discuss randomized benchmarking results consistent with a marked reduction in the coherent error. [1] M. B. Hastings, Quantum Information & Computation 17, 488 (2017). [2] E. Campbell, Physical Review A 95, 042306 (2017).
翻訳日:2023-01-13 12:49:03 公開日:2022-04-30
# 学習時代の自律システムにおける知覚とナビゲーション--調査から

Perception and Navigation in Autonomous Systems in the Era of Learning: A Survey ( http://arxiv.org/abs/2001.02319v4 )

ライセンス: Link先を確認
Yang Tang, Chaoqiang Zhao, Jianrui Wang, Chongzhen Zhang, Qiyu Sun, Weixing Zheng, Wenli Du, Feng Qian, Juergen Kurths(参考訳) 自律システムは、自身の状態を推測し、周囲を理解し、自律的なナビゲーションを実行するという特徴を持っている。 ディープラーニングや強化学習といった学習システムの応用により、自律システムの視覚ベースの自己状態推定、環境認識とナビゲーション能力は効率的に対処され、自律的な視覚知覚とナビゲーションに関して多くの新しい学習ベースのアルゴリズムが浮上した。 本稿では,エゴモーション知覚,環境認識,自律システムにおけるナビゲーションにおける学習に基づく単眼的アプローチの応用に焦点をあてる。 まず,従来の視覚的同時ローカライゼーションとマッピング(vSLAM)ソリューションの欠点を概説し,深層学習技術の統合の必要性を示す。 次に,深層学習に基づく単眼深度推定,単眼運動予測,画像強調,物体検出,意味セグメンテーション,従来のvslamフレームワークとの組合せなど,深層学習に基づく視覚ベースの環境知覚と理解手法について検討する。 そこで我々は,主に強化学習や深層強化学習を含む学習システムに基づく視覚ナビゲーションに焦点を当てた。 最後に,コンピュータ科学とロボティクスの時代の学習システムについて,いくつかの課題と将来的な方向性について考察し,考察を行った。

Autonomous systems possess the features of inferring their own state, understanding their surroundings, and performing autonomous navigation. With the applications of learning systems, like deep learning and reinforcement learning, the visual-based self-state estimation, environment perception and navigation capabilities of autonomous systems have been efficiently addressed, and many new learning-based algorithms have surfaced with respect to autonomous visual perception and navigation. In this review, we focus on the applications of learning-based monocular approaches in ego-motion perception, environment perception and navigation in autonomous systems, which is different from previous reviews that discussed traditional methods. First, we delineate the shortcomings of existing classical visual simultaneous localization and mapping (vSLAM) solutions, which demonstrate the necessity to integrate deep learning techniques. Second, we review the visual-based environmental perception and understanding methods based on deep learning, including deep learning-based monocular depth estimation, monocular ego-motion prediction, image enhancement, object detection, semantic segmentation, and their combinations with traditional vSLAM frameworks. Then, we focus on the visual navigation based on learning systems, mainly including reinforcement learning and deep reinforcement learning. Finally, we examine several challenges and promising directions discussed and concluded in related research of learning systems in the era of computer science and robotics.
翻訳日:2023-01-13 12:42:53 公開日:2022-04-30
# プレイリスト生成における治療課題の方法と応用の比較

A Comparison of Methods for Treatment Assignment with an Application to Playlist Generation ( http://arxiv.org/abs/2004.11532v5 )

ライセンス: Link先を確認
Carlos Fern\'andez-Lor\'ia, Foster Provost, Jesse Anderton, Benjamin Carterette, Praveen Chandar(参考訳) 本研究は,多くの応用において発生し,経済学者,計算機科学者,社会科学者から注目されている,個々の治療課題の体系的比較を示す。 論文で提案されている様々な手法を3つの一般的なアルゴリズム(メタルイヤー)に分類した: 結果を予測する学習モデル(oリーナー)、因果効果を予測する学習モデル(eリーナー)、最適な治療課題を予測するための学習モデル(aリーナー)。 我々は,(1)一般性のレベルと(2)データからモデルを学ぶために使用する目的関数を比較し,これらの特徴がモデリングや意思決定に持つ意味について考察する。 特に, 結果や因果効果の予測を最適化することは, 治療課題の最適化と同等ではなく, 一般にAラーナーは, 他のメタナーよりも優れた治療課題に導かれることが示唆された。 本研究は,各ユーザに対して,エンゲージメントを最適化するためにプレイリスト生成に最適なアルゴリズムを選択するという文脈で,本研究の実用的意義を示す。 これは、実世界のアプリケーション(50億以上の個別の処理課題に基づく)における3つの異なるメタラーナーの最初の比較である。 分析結果の裏付けに加えて,a/bテストの規模は,平均的にベストな亜種を単に選択するのではなく,治療割当方針の学習にどの程度の価値があるかを示した。

This study presents a systematic comparison of methods for individual treatment assignment, a general problem that arises in many applications and has received significant attention from economists, computer scientists, and social scientists. We group the various methods proposed in the literature into three general classes of algorithms (or metalearners): learning models to predict outcomes (the O-learner), learning models to predict causal effects (the E-learner), and learning models to predict optimal treatment assignments (the A-learner). We compare the metalearners in terms of (1) their level of generality and (2) the objective function they use to learn models from data; we then discuss the implications that these characteristics have for modeling and decision making. Notably, we demonstrate analytically and empirically that optimizing for the prediction of outcomes or causal effects is not the same as optimizing for treatment assignments, suggesting that in general the A-learner should lead to better treatment assignments than the other metalearners. We demonstrate the practical implications of our findings in the context of choosing, for each user, the best algorithm for playlist generation in order to optimize engagement. This is the first comparison of the three different metalearners on a real-world application at scale (based on more than half a billion individual treatment assignments). In addition to supporting our analytical findings, the results show how large A/B tests can provide substantial value for learning treatment assignment policies, rather than simply choosing the variant that performs best on average.
翻訳日:2022-12-10 03:07:34 公開日:2022-04-30
# Wasserstein分布ロバスト最適化のための有限サンプル保証:次元の曲線を破る

Finite-Sample Guarantees for Wasserstein Distributionally Robust Optimization: Breaking the Curse of Dimensionality ( http://arxiv.org/abs/2009.04382v3 )

ライセンス: Link先を確認
Rui Gao(参考訳) wasserstein distributionally robust optimization (dro) は、waserstein距離のデータ摂動に対してヘッジすることで、堅牢で一般化可能な解を見つけることを目的としている。 近年の運用研究と機械学習における実証的な成功にもかかわらず、一般的な損失関数のパフォーマンス保証は、次元性の呪いのために過度に保守的であるか、あるいは大規模なサンプル漸近学でのみ証明可能である。 本稿では,wassersteinロバスト学習のサンプル外性能と,関連するリプシッツ問題と勾配正規化問題の一般化を解析するための非漸近的枠組みを開発した。 我々の知る限り、これは次元の呪いに苦しむことなく、一般的なワッサーシュタインDRO問題に対する最初の有限サンプル保証を与える。 その結果, 適切に選択された半径を持つワッサーシュタインDROは, 損失の経験的平均値と損失の変動のバランスを, リプシッツノルムあるいは損失の勾配ノルムで測定した。 我々の分析は、独立した関心を持つ2つの新しい方法論的展開に基づいている。 1)損失の変動による大きな偏差確率の減衰率を制御する新しい濃度不等式と, 2) 損失の変動に基づく局所的ラデマッハ複雑性理論。

Wasserstein distributionally robust optimization (DRO) aims to find robust and generalizable solutions by hedging against data perturbations in Wasserstein distance. Despite its recent empirical success in operations research and machine learning, existing performance guarantees for generic loss functions are either overly conservative due to the curse of dimensionality, or plausible only in large sample asymptotics. In this paper, we develop a non-asymptotic framework for analyzing the out-of-sample performance for Wasserstein robust learning and the generalization bound for its related Lipschitz and gradient regularization problems. To the best of our knowledge, this gives the first finite-sample guarantee for generic Wasserstein DRO problems without suffering from the curse of dimensionality. Our results highlight that Wasserstein DRO, with a properly chosen radius, balances between the empirical mean of the loss and the variation of the loss, measured by the Lipschitz norm or the gradient norm of the loss. Our analysis is based on two novel methodological developments that are of independent interest: 1) a new concentration inequality controlling the decay rate of large deviation probabilities by the variation of the loss and, 2) a localized Rademacher complexity theory based on the variation of the loss.
翻訳日:2022-10-20 09:15:00 公開日:2022-04-30
# (参考訳) 言語モデルの可視化と説明

Visualizing and Explaining Language Models ( http://arxiv.org/abs/2205.10238v1 )

ライセンス: CC BY 4.0
Adrian M.P. Bra\c{s}oveanu, R\u{a}zvan Andonie(参考訳) 過去10年間、自然言語処理はコンピュータビジョンに続いて、ディープラーニングの出現によって大きく変化した人工知能の第2の分野となった。 アーキテクチャに関係なく、当時の言語モデルは、テキストを処理または生成することができ、タスクに応じて欠落した単語、文、関係を予測する必要がある。 ブラックボックスの性質から、そのようなモデルは第三者に解釈や説明が難しい。 ヴィジュアライゼーションは、言語モデル設計者が自身の作業を説明するために使用するブリッジであり、適切な単語やフレーズ、クラスタリング、ニューロンアクティベーションのカラー化は、基礎となるモデルを簡単に理解するために使用できる。 本稿では,NLPビジュアライゼーションにおいて最もポピュラーなDeep Learningの手法について紹介し,解釈可能性と説明可能性に着目した。

During the last decade, Natural Language Processing has become, after Computer Vision, the second field of Artificial Intelligence that was massively changed by the advent of Deep Learning. Regardless of the architecture, the language models of the day need to be able to process or generate text, as well as predict missing words, sentences or relations depending on the task. Due to their black-box nature, such models are difficult to interpret and explain to third parties. Visualization is often the bridge that language model designers use to explain their work, as the coloring of the salient words and phrases, clustering or neuron activations can be used to quickly understand the underlying models. This paper showcases the techniques used in some of the most popular Deep Learning for NLP visualizations, with a special focus on interpretability and explainability.
翻訳日:2022-06-06 09:51:33 公開日:2022-04-30
# (参考訳) モザイク型ゾノトープシャドウマッチングによる都市環境のリスクを考慮した自律的位置推定

Mosaic Zonotope Shadow Matching for Risk-Aware Autonomous Localization in Harsh Urban Environments ( http://arxiv.org/abs/2205.10223v1 )

ライセンス: CC BY 4.0
Daniel Neamati, Sriramya Bhamidipati and Grace Gao(参考訳) グローバルナビゲーション衛星システム (GNSS) によるリスク対応型都市ローカライゼーションは, 利用者の道路や道路脇の誤検知が頻繁に発生し, 未解決の問題となっている。 グリッドベースのGNSSシャドーマッチングとAI駆動のLOS(Line-of-sight)分類器とサーバベースの処理を使用して、特に交差点方向のローカライズ精度を向上させる。 我々の先行研究は、計算効率の良いzonotope集合表現を用いた集合値の局所化を提案するシャドーマッチングの新しいパラダイムを導入している。 既存の文献では精度と効率が向上しているが、現在のシャドウマッチング理論はリスク対応自律システムの必要性に対処していない。 我々は,リスク認識と都市位置認証の保証を提供するために分類器に依存しないポリトープモザイクアーキテクチャを用いたモザイク・ゾノトープシャドウマッチング(MZSM)を提案する。 再帰的に拡大する二分木を定式化し、初期位置推定を改良し、演算をより小さなポリトープに設定する。 より小さなポリトープはモザイクを形成する。 我々は、ユーザが衛星を視認する方向にある確率で木の枝を重み付け、新しい衛星観測ごとに木を広げる。 提案手法は,ユーザのローカライゼーションに対する不確実性境界を保証した,正確なシャドーマッチング分布を生成する。 サンフランシスコの3Dビルディングマップを用いて高忠実度シミュレーションを行い、アルゴリズムのリスク認識の改善を検証する。 MZSMは、様々なデータ駆動型LOS分類器の精度の保証を提供し、既存の手法に対する不確実性をより正確に理解する。 我々は、木ベースの構築が効率的で扱いやすいことを検証し、14個の衛星からのモザイクを0.03秒で計算し、衛星番号を2倍に増やす。

Risk-aware urban localization with the Global Navigation Satellite System (GNSS) remains an unsolved problem with frequent misdetection of the user's street or side of the street. Significant advances in 3D map-aided GNSS use grid-based GNSS shadow matching alongside AI-driven line-of-sight (LOS) classifiers and server-based processing to improve localization accuracy, especially in the cross-street direction. Our prior work introduces a new paradigm for shadow matching that proposes set-valued localization with computationally efficient zonotope set representations. While existing literature improved accuracy and efficiency, the current state of shadow matching theory does not address the needs of risk-aware autonomous systems. We extend our prior work to propose Mosaic Zonotope Shadow Matching (MZSM) that employs a classifier-agnostic polytope mosaic architecture to provide risk-awareness and certifiable guarantees on urban positioning. We formulate a recursively expanding binary tree that refines an initial location estimate with set operations into smaller polytopes. Together, the smaller polytopes form a mosaic. We weight the tree branches with the probability that the user is in line of sight of the satellite and expand the tree with each new satellite observation. Our method yields an exact shadow matching distribution from which we guarantee uncertainty bounds on the user localization. We perform high-fidelity simulations using a 3D building map of San Francisco to validate our algorithm's risk-aware improvements. We demonstrate that MZSM provides certifiable guarantees across varied data-driven LOS classifier accuracies and yields a more precise understanding of the uncertainty over existing methods. We validate that our tree-based construction is efficient and tractable, computing a mosaic from 14 satellites in 0.63 seconds and growing quadratically in the satellite number.
翻訳日:2022-06-06 09:07:37 公開日:2022-04-30
# HDGT:シーンエンコーディングによるマルチエージェント軌道予測のための異種駆動グラフ変換器

HDGT: Heterogeneous Driving Graph Transformer for Multi-Agent Trajectory Prediction via Scene Encoding ( http://arxiv.org/abs/2205.09753v1 )

ライセンス: Link先を確認
Xiaosong Jia, Penghao Wu, Li Chen, Hongyang Li, Yu Liu, Junchi Yan(参考訳) 自動運転の重要なタスクの一つは、運転シーンの情報をベクトル表現にエンコードし、軌道予測のような下流タスクがうまく機能するようにすることだ。 運転シーンは複雑で、要素の中に異質性があり、エージェントダイナミクス、マップルーティング、ロードラインなど様々な種類の情報を所有している。 一方、要素間の相対性理論(つまり互いに空間的関係を持つ)も存在し、座標の絶対値が無意味であるため、相対的な測定について標準的に表現する必要がある。 これら2つの観測を考慮に入れ,異なる種類のノードとエッジを持つ異種グラフとして駆動シーンをモデル化した,新しいバックボーンであるヘテロジニアス駆動グラフ変換器(HDGT)を提案する。 グラフ構築では、各ノードはエージェントまたはロード要素を表し、各エッジは歩行者から横断歩道、車線から左車線といったセマンティクス関係を表す。 空間的関係符号化では、固定されたグローバル参照を設定する代わりに、ノードの座標情報とその内縁を局所ノード中心座標系に変換する。 グラフニューラルネットワーク(GNN)のアグリゲーションモジュールでは、入力の不均一性に適合する階層的な方法でトランスフォーマー構造を採用する。 実験の結果,提案手法は相互作用予測チャレンジとwaymoオープンモーションチャレンジにおいて,ミネード/ミンフデメトリックについてそれぞれ第1位と第2位にランク付けした。

One essential task for autonomous driving is to encode the information of a driving scene into vector representations so that the downstream task such as trajectory prediction could perform well. The driving scene is complicated, and there exists heterogeneity within elements, where they own diverse types of information i.e., agent dynamics, map routing, road lines, etc. Meanwhile, there also exist relativity across elements - meaning they have spatial relations with each other; such relations should be canonically represented regarding the relative measurements since the absolute value of the coordinate is meaningless. Taking these two observations into consideration, we propose a novel backbone, namely Heterogeneous Driving Graph Transformer (HDGT), which models the driving scene as a heterogeneous graph with different types of nodes and edges. For graph construction, each node represents either an agent or a road element and each edge represents their semantics relations such as Pedestrian-To-Crosswalk, Lane-To-Left-Lane. As for spatial relation encoding, instead of setting a fixed global reference, the coordinate information of the node as well as its in-edges is transformed to the local node-centric coordinate system. For the aggregation module in the graph neural network (GNN), we adopt the transformer structure in a hierarchical way to fit the heterogeneous nature of inputs. Experimental results show that the proposed method achieves new state-of-the-art on INTERACTION Prediction Challenge and Waymo Open Motion Challenge, in which we rank 1st and 2nd respectively regarding the minADE/minFDE metric.
翻訳日:2022-05-29 21:22:58 公開日:2022-04-30
# wordleを使って学習し、戦略を設計、比較する

Using Wordle for Learning to Design and Compare Strategies ( http://arxiv.org/abs/2205.11225v1 )

ライセンス: Link先を確認
Chao-Lin Liu(参考訳) Wordleは非常に人気のあるワードゲームで、ニューヨーク・タイムズが所有している。 ゲームに関する確率的,統計的,情報理論的な情報に基づいて,Wordleを解くためのパラメータ化戦略を設計することができる。 この戦略は、体系的にも動的にもWordleのようなゲーム群を合理的に扱えるので、固定されていないゲームで使えるプリ計算に頼らない。 より具体的には、回答集合は任意であり、現在の2315語に拘束されない。 解答語には、特定の文字数(5文字でなくてもよい)が含まれており、その単語を構成する記号の集合は、英語のアルファベットのみに制限される必要はない。 Wordleのようなゲームを解くための戦略を探求することは、コンピュータゲームの設計を学ぶ学生にとって魅力的な学習課題となる。 本稿では, ハードモードルールをベースラインとするシミュレータを用いて, パラメータ化戦略の2つのファミリーを用いて, 現在のワードルの解法を示す。 ベースラインシミュレータは平均4.078回の推測で2315の答えを見つけ、ゲームの1.77%を解くには6回以上の試行が必要だった。 我々の最高の行動戦略は平均3.674の推算を使って2315の答えを見つけ、0.65%の確率で失敗した。

Wordle is a very popular word game that is owned by the New York Times. We can design parameterized strategies for solving Wordle, based on probabilistic, statistical, and information-theoretical information about the games. The strategies can handle a reasonably large family of Wordle-like games both systematically and dynamically, meaning that we do not rely on precomputations that may work for non-fixed games. More specifically, the answer set can be arbitrary, not confining to the current 2315 words. The answer words may include any specific number of letters (does not have to be five), and the set of symbols that form the words does not have to be limited to only the English alphabet. Exploring possible strategies for solving the Wordle-like games offers an attractive learning challenges for students who are learning to design computer games. This paper will provide the results of using two families of parameterized strategies to solve the current Wordle, using the simulator that abides by the hard-mode rules as the baseline. The baseline simulator used an average of 4.078 guesses to find the 2315 answers, and needed more than six trials to solve the game 1.77% of the time. The best performing strategy of ours used an average of 3.674 guesses to find the 2315 answers, and failed 0.65% of the time.
翻訳日:2022-05-29 21:21:44 公開日:2022-04-30
# (参考訳) ビームフォーミングCSI計測による5Gmm波位置決めのためのCNN手法

A CNN Approach for 5G mmWave Positioning Using Beamformed CSI Measurements ( http://arxiv.org/abs/2205.03236v1 )

ライセンス: CC BY 4.0
Ghazaleh Kia, Laura Ruotsalainen, Jukka Talvitie(参考訳) 人工知能(AI)の出現は、人間の生活のあらゆる側面に影響を与えた。 AI影響の具体的な例の1つは、無線位置決めで見ることができる。 本稿では,ビームフォーマドチャネル状態情報(CSI)からなる5Gニューラジオ(NR)指紋を用いて,畳み込みニューラルネットワーク(CNN)を訓練することにより,AIのパワーを初めて活用する。 CSIを観察することにより、送信機と受信機との間のマルチパスチャネルを特徴付けることができ、ユーザ機器(UE)の位置を見つけるための時空間データの優れたソースを提供することができる。 都市部からレイトレーシングによる5G NR CSIを収集する。 1つの基地局(BS)からの信号のCSIデータは、既知の位置の基準地点で収集され、CNNを訓練する。 テストによって仕事を評価するのです a) 同じ基準点上の新しい測定値の位置を推定するための訓練されたネットワークの堅牢性 b) ueが基準点以外の点上にある間、cnnに基づく位置推定の精度。 その結果, 特定都市環境を対象としたトレーニングネットワークでは, 平均誤差0.98mでUE位置を推定できることがわかった。

The advent of Artificial Intelligence (AI) has impacted all aspects of human life. One of the concrete examples of AI impact is visible in radio positioning. In this article, for the first time we utilize the power of AI by training a Convolutional Neural Network (CNN) using 5G New Radio (NR) fingerprints consisting of beamformed Channel State Information (CSI). By observing CSI, it is possible to characterize the multipath channel between the transmitter and the receiver, and thus provide a good source of spatiotemporal data to find the position of a User Equipment (UE). We collect ray-tracing-based 5G NR CSI from an urban area. The CSI data of the signals from one Base Station (BS) is collected at the reference points with known positions to train a CNN. We evaluate our work by testing: a) the robustness of the trained network for estimating the positions for the new measurements on the same reference points and b) the accuracy of the CNN-based position estimation while the UE is on points other than the reference points. The results prove that our trained network for a specific urban environment can estimate the UE position with a minimum mean error of 0.98 m.
翻訳日:2022-05-16 01:32:34 公開日:2022-04-30
# 心電図深層学習による経時的死亡率の予測

Electrocardiographic Deep Learning for Predicting Post-Procedural Mortality ( http://arxiv.org/abs/2205.03242v1 )

ライセンス: Link先を確認
David Ouyang, John Theurer, Nathan R. Stein, J. Weston Hughes, Pierre Elias, Bryan He, Neal Yuan, Grant Duffy, Roopinder K. Sandhu, Joseph Ebinger, Patrick Botting, Melvin Jujjavarapu, Brian Claggett, James E. Tooley, Tim Poterucha, Jonathan H. Chen, Michael Nurok, Marco Perez, Adler Perotte, James Y. Zou, Nancy R. Cook, Sumeet S. Chugh, Susan Cheng and Christine M. Albert(参考訳) 背景。 臨床で使用される術前のリスクアセスメントは、術後死亡のリスクを特定する能力に制限がある。 心電図には術後死亡の診断に役立つ隠れた危険マーカーが含まれていると仮定する。 メソッド。 45,969人の術前患者の導出コホート(59歳以上19歳,55%女性)において,術前心電図からの波形信号を利用して術後死亡を判別する深層学習アルゴリズムを開発した。 モデル性能は, 内部テストデータセットと2つの外部病院コホートを用いて評価し, 改訂心リスク指標(RCRI)と比較した。 結果だ コホートでは1,452人が死亡した。 このアルゴリズムはAUCが0.83(95% CI 0.79-0.87)、AUCが0.67(CI 0.61-0.72)、RCRIが0.67(95% CI 0.79-0.87)と判定する。 深層学習モデルのリスク予測によりリスクが高いと判定された患者は、術後死亡率8.83 (5.57-13.20)、または術後死亡率2.08 (ci 0.77-3.50)の2。 深層学習アルゴリズムは、AUC0.85(CI 0.77-0.92)、AUC0.83(0.79-0.88)、AUC0.76(0.72-0.81)によるカテーテル化・内視鏡化手術と同じような方法で心臓手術を行った。 このアルゴリズムは、それぞれ0.79 (0.75-0.83) と 0.75 (0.74-0.76) の独立した医療システムから2つの独立した外部検証コホートで死亡リスクを識別した。 結論だ 本研究は, 術前心電図に応用した新しい深層学習アルゴリズムを用いて, 術後死亡率の判定を改善できることを示す。

Background. Pre-operative risk assessments used in clinical practice are limited in their ability to identify risk for post-operative mortality. We hypothesize that electrocardiograms contain hidden risk markers that can help prognosticate post-operative mortality. Methods. In a derivation cohort of 45,969 pre-operative patients (age 59+- 19 years, 55 percent women), a deep learning algorithm was developed to leverage waveform signals from pre-operative ECGs to discriminate post-operative mortality. Model performance was assessed in a holdout internal test dataset and in two external hospital cohorts and compared with the Revised Cardiac Risk Index (RCRI) score. Results. In the derivation cohort, there were 1,452 deaths. The algorithm discriminates mortality with an AUC of 0.83 (95% CI 0.79-0.87) surpassing the discrimination of the RCRI score with an AUC of 0.67 (CI 0.61-0.72) in the held out test cohort. Patients determined to be high risk by the deep learning model's risk prediction had an unadjusted odds ratio (OR) of 8.83 (5.57-13.20) for post-operative mortality as compared to an unadjusted OR of 2.08 (CI 0.77-3.50) for post-operative mortality for RCRI greater than 2. The deep learning algorithm performed similarly for patients undergoing cardiac surgery with an AUC of 0.85 (CI 0.77-0.92), non-cardiac surgery with an AUC of 0.83 (0.79-0.88), and catherization or endoscopy suite procedures with an AUC of 0.76 (0.72-0.81). The algorithm similarly discriminated risk for mortality in two separate external validation cohorts from independent healthcare systems with AUCs of 0.79 (0.75-0.83) and 0.75 (0.74-0.76) respectively. Conclusion. The findings demonstrate how a novel deep learning algorithm, applied to pre-operative ECGs, can improve discrimination of post-operative mortality.
翻訳日:2022-05-16 01:14:25 公開日:2022-04-30
# 超高感度フレキシブルスポンジセンサアレイによる筋活動検出とヒト肢運動認識

Ultra-sensitive Flexible Sponge-Sensor Array for Muscle Activities Detection and Human Limb Motion Recognition ( http://arxiv.org/abs/2205.03238v1 )

ライセンス: Link先を確認
Jiao Suo, Yifan Liu, Clio Cheng, Keer Wang, Meng Chen, Ho-yin Chan, Roy Vellaisamy, Ning Xi, Vivian W. O. Lou, and Wen Jung Li(参考訳) ヒト肢の運動追跡と認識は、医療リハビリテーショントレーニング、下肢補助、アンプの補綴設計、補助ロボットのフィードバック制御などにおいて重要な役割を担っている。 慣性センサー、表面筋電計、柔軟な歪み/圧力センサーなど、軽量なウェアラブルセンサーは、次世代のモーションキャプチャデバイスになることを約束している。 そこで本研究では, 16チャンネルのフレキシブルスポンジ型圧力センサアレイを用いて, ふくらはぎ腹筋活動によるヒト皮膚の輪郭を検知し, 様々な下肢運動を認識する無線ウェアラブルデバイスを提案する。 それぞれのセンシング素子は、直径4mm、厚さ約400.mu}mの薄いカーボンナノチューブ/ポリジメチルシロキサンナノコンポジットの丸い多孔質構造である。 3名の被験者が、開発した装置を装着しながら10種類の下肢運動を行うように雇われた。 支持ベクトルマシン法による動作分類結果は、テストされた10つの動作すべてに対して約94.48%のマクロリコールを示す。 本研究は、下肢動作認識アプリケーションを備えた携帯型ウェアラブル筋活動検出装置を実証し、補助ロボット制御、医療、スポーツ監視等に使用することができることを示した。

Human limb motion tracking and recognition plays an important role in medical rehabilitation training, lower limb assistance, prosthetics design for amputees, feedback control for assistive robots, etc. Lightweight wearable sensors, including inertial sensors, surface electromyography sensors, and flexible strain/pressure, are promising to become the next-generation human motion capture devices. Herein, we present a wireless wearable device consisting of a sixteen-channel flexible sponge-based pressure sensor array to recognize various human lower limb motions by detecting contours on the human skin caused by calf gastrocnemius muscle actions. Each sensing element is a round porous structure of thin carbon nanotube/polydimethylsiloxane nanocomposites with a diameter of 4 mm and thickness of about 400 {\mu}m. Three human subjects were recruited to perform ten different lower limb motions while wearing the developed device. The motion classification result with the support vector machine method shows a macro-recall of about 94.48% for all ten motions tested. This work demonstrates a portable wearable muscle activity detection device with a lower limb motion recognition application, which can be potentially used in assistive robot control, healthcare, sports monitoring, etc.
翻訳日:2022-05-16 01:13:21 公開日:2022-04-30
# (参考訳) 1ピクセルブラックボックス攻撃の最適化

Optimizing One-pixel Black-box Adversarial Attacks ( http://arxiv.org/abs/2205.02116v1 )

ライセンス: CC BY 4.0
Tianxun Zhou and Shubhankar Agrawal and Prateek Manocha(参考訳) ディープニューラルネットワーク(DNN)の出力は、DNNに複数の呼び出しをすることで、ブラックボックス設定での入力の小さな摂動によって変更することができる。 しかし、高い計算と時間を必要とするため、既存のアプローチは使用できない。 この研究は、攻撃中のネットワークへの呼び出し数を減らすために、1ピクセル (few-pixel) のブラックボックスの対向攻撃を改善することを目指している。 ワンピクセル攻撃は、非階調最適化アルゴリズムを用いて、固定数のピクセルの制約の下でピクセルレベルの摂動を見つけることで、ネットワークが与えられた画像の間違ったラベルを予測する。 実験結果から,最適化アルゴリズムの選択と初期位置の探索が機能呼び出しを減らし,攻撃成功率を大幅に向上させる可能性を示し,実際の環境での攻撃をより実用的なものにする。

The output of Deep Neural Networks (DNN) can be altered by a small perturbation of the input in a black box setting by making multiple calls to the DNN. However, the high computation and time required makes the existing approaches unusable. This work seeks to improve the One-pixel (few-pixel) black-box adversarial attacks to reduce the number of calls to the network under attack. The One-pixel attack uses a non-gradient optimization algorithm to find pixel-level perturbations under the constraint of a fixed number of pixels, which causes the network to predict the wrong label for a given image. We show through experimental results how the choice of the optimization algorithm and initial positions to search can reduce function calls and increase attack success significantly, making the attack more practical in real-world settings.
翻訳日:2022-05-06 08:36:06 公開日:2022-04-30
# (参考訳) 感情認識のための視線強調クロスモーダル埋め込み

Gaze-enhanced Crossmodal Embeddings for Emotion Recognition ( http://arxiv.org/abs/2205.00129v1 )

ライセンス: CC BY 4.0
Ahmed Abdou, Ekta Sood, Philipp M\"uller, Andreas Bulling(参考訳) 感情的な表情は本質的にマルチモーダルであり、顔の行動、話し方、視線などを統合するが、その自動認識は電話中の音声など、単一のモダリティに限定されることが多い。 以前の研究ではモノモダル認識性能を改善するためにクロスモーダル感情埋め込みを提案したが、その重要性にもかかわらず、視線の明示的な表現は含まれなかった。 クロスモーダル感情埋め込みフレームワークにおいて,視線の明示的な表現を組み込んだ感情認識手法を提案する。 本手法は,音声のみの感情分類と映像のみの感情分類において,人気の高いOne-Minute Gradual Emotion Recognitionデータセットよりも優れていた。 さらに,広範なアブレーション実験を報告し,最先端の視線表現と統合戦略の性能に関する詳細な知見を提供する。 本研究は,感情認識における視線の重要性だけでなく,視線情報を活用するための実践的かつ高効率なアプローチを示すものである。

Emotional expressions are inherently multimodal -- integrating facial behavior, speech, and gaze -- but their automatic recognition is often limited to a single modality, e.g. speech during a phone call. While previous work proposed crossmodal emotion embeddings to improve monomodal recognition performance, despite its importance, an explicit representation of gaze was not included. We propose a new approach to emotion recognition that incorporates an explicit representation of gaze in a crossmodal emotion embedding framework. We show that our method outperforms the previous state of the art for both audio-only and video-only emotion classification on the popular One-Minute Gradual Emotion Recognition dataset. Furthermore, we report extensive ablation experiments and provide detailed insights into the performance of different state-of-the-art gaze representations and integration strategies. Our results not only underline the importance of gaze for emotion recognition but also demonstrate a practical and highly effective approach to leveraging gaze information for this task.
翻訳日:2022-05-05 09:09:57 公開日:2022-04-30
# (参考訳) ExSum: ローカルな説明からモデル理解へ

ExSum: From Local Explanations to Model Understanding ( http://arxiv.org/abs/2205.00130v1 )

ライセンス: CC BY 4.0
Yilun Zhou, Marco Tulio Ribeiro, Julie Shah(参考訳) ブラックボックスモデルの動作メカニズムを理解するために,解釈可能性法が開発されている。 この目標をフルフィルするには、これらのメソッドによって生成された説明が正しいことと、人々が容易に確実に理解できることの両方が必要である。 前者は先行研究で取り組まれているが、後者はしばしば見過ごされ、一握りの局所的な説明に由来する非公式なモデル理解に繋がる。 本稿では,モデル理解を定量化するための数学的枠組みである説明要約(ExSum)を紹介し,その品質評価のための指標を提案する。 2つのドメインについてexsumは、現在のプラクティスにおけるさまざまな制限を強調し、正確なモデル理解を促進し、モデルの見落としやすい特性を明らかにする。 また,人間のアライメントやロバスト性,反事実的最小性や可能性といった説明の他の特性にも理解可能性を結びつける。

Interpretability methods are developed to understand the working mechanisms of black-box models, which is crucial to their responsible deployment. Fulfilling this goal requires both that the explanations generated by these methods are correct and that people can easily and reliably understand them. While the former has been addressed in prior work, the latter is often overlooked, resulting in informal model understanding derived from a handful of local explanations. In this paper, we introduce explanation summary (ExSum), a mathematical framework for quantifying model understanding, and propose metrics for its quality assessment. On two domains, ExSum highlights various limitations in the current practice, helps develop accurate model understanding, and reveals easily overlooked properties of the model. We also connect understandability to other properties of explanations such as human alignment, robustness, and counterfactual minimality and plausibility.
翻訳日:2022-05-05 08:48:52 公開日:2022-04-30
# (参考訳) テキストと画像を用いたマルチモーダル表現学習

Multimodal Representation Learning With Text and Images ( http://arxiv.org/abs/2205.00142v1 )

ライセンス: CC BY 4.0
Aishwarya Jayagopal, Ankireddy Monica Aiswarya, Ankita Garg, Srinivasan Kolumam Nandakumar(参考訳) 近年、マルチモーダルAIは、研究者がテキスト、画像、スピーチなどのさまざまなタイプのデータをモデリングに組み込んで、最高の結果を得ている。 このプロジェクトは、テキストと画像データを同時に表現学習するためにマルチモーダルaiと行列因子化技術を活用しており、自然言語処理(nlp)とコンピュータビジョンという広く使われている技術を利用している。 学習表現は下流分類と回帰タスクを用いて評価される。 採用されている方法論は、教師なし表現学習にオートエンコーダを使用するため、このプロジェクトの範囲を超えて拡張することができる。

In recent years, multimodal AI has seen an upward trend as researchers are integrating data of different types such as text, images, speech into modelling to get the best results. This project leverages multimodal AI and matrix factorization techniques for representation learning, on text and image data simultaneously, thereby employing the widely used techniques of Natural Language Processing (NLP) and Computer Vision. The learnt representations are evaluated using downstream classification and regression tasks. The methodology adopted can be extended beyond the scope of this project as it uses Auto-Encoders for unsupervised representation learning.
翻訳日:2022-05-05 08:23:57 公開日:2022-04-30
# (参考訳) 企業における言葉の保存とヴァイシニティにおける嘘

To Know by the Company Words Keep and What Else Lies in the Vicinity ( http://arxiv.org/abs/2205.00148v1 )

ライセンス: CC BY 4.0
Jake Ryland Williams and Hunter Scott Heidenreich(参考訳) 最先端(SOTA)自然言語処理(NLP)システムの開発は、言語データの統計を吸収する新しい手法を着実に確立している。 これらの手法は、しばしば従来の理論からよく知られた構造を辿り、これらの接続をキーNLP法を取り巻く密接なギャップを将来の作業の方向性として研究する。 そこで,本研究では,本アルゴリズムを用いたシステムに対する洞察の導出として,seminalアルゴリズム(globとword2vecを含む)によって学習される統計解析モデルを提案する。 この記事では、word2vecのsoftmax最適化スキップグラムアルゴリズムの最初の既知のソリューションとして、最高の知識を導出します。 この結果は,Deep Learning (DL) 言語モデル (LM) 行列分解の直接的な解法として,今後の発展の可能性を示す。 しかし、この解を用いて、ワードベクトルが示し、データ内のバイアスの予防的識別を可能にする性質が、DLモデルによる吸収に先行して存在することを示す。 本研究を検証するために,共起モデルにおける統計的依存性の密度に関する独立性の分析を行い,共起統計による分布仮説の部分的充足に関する洞察を与える。

The development of state-of-the-art (SOTA) Natural Language Processing (NLP) systems has steadily been establishing new techniques to absorb the statistics of linguistic data. These techniques often trace well-known constructs from traditional theories, and we study these connections to close gaps around key NLP methods as a means to orient future work. For this, we introduce an analytic model of the statistics learned by seminal algorithms (including GloVe and Word2Vec), and derive insights for systems that use these algorithms and the statistics of co-occurrence, in general. In this work, we derive -- to the best of our knowledge -- the first known solution to Word2Vec's softmax-optimized, skip-gram algorithm. This result presents exciting potential for future development as a direct solution to a deep learning (DL) language model's (LM's) matrix factorization. However, we use the solution to demonstrate a seemingly-universal existence of a property that word vectors exhibit and which allows for the prophylactic discernment of biases in data -- prior to their absorption by DL models. To qualify our work, we conduct an analysis of independence, i.e., on the density of statistical dependencies in co-occurrence models, which in turn renders insights on the distributional hypothesis' partial fulfillment by co-occurrence statistics.
翻訳日:2022-05-05 08:16:37 公開日:2022-04-30
# (参考訳) SVTR:単一視覚モデルを用いたシーンテキスト認識

SVTR: Scene Text Recognition with a Single Visual Model ( http://arxiv.org/abs/2205.00159v1 )

ライセンス: CC BY 4.0
Yongkun Du and Zhineng Chen and Caiyan Jia and Xiaoting Yin and Tianlun Zheng and Chenxia Li and Yuning Du and Yu-Gang Jiang(参考訳) 支配的なシーンテキスト認識モデルは、一般的に2つの構成要素、特徴抽出のための視覚モデル、テキスト転写のためのシーケンスモデルを含む。 このハイブリッドアーキテクチャは正確ではあるが、複雑で効率が悪い。 本研究では,パッチワイド画像トークン化フレームワークにおけるシーンテキスト認識のための単一ビジュアルモデルを提案する。 このメソッドはsvtrと呼ばれ、まず画像テキストを小さなパッチ名付き文字要素に分解する。 その後、成分レベル混合、マージ及び/又は結合により階層段階を繰り返す。 大域的および局所的な混合ブロックは、キャラクタ間およびキャラクタ内パターンを知覚するために考案され、多面的キャラクタ成分知覚に繋がる。 したがって、文字は単純な線形予測によって認識される。 英語と中国語のシーン認識タスクにおける実験結果から,svtrの有効性が示された。 SVTR-L (Large) は、英語で高い競争精度を達成し、既存の手法を中国語で大差で上回り、高速に動作させる。 さらに、SVTR-T(Tiny)は、推論時に魅力的な速度を示す、効果的ではるかに小さなモデルである。 コードはhttps://github.com/PaddlePaddle/PaddleOCRで公開されている。

Dominant scene text recognition models commonly contain two building blocks, a visual model for feature extraction and a sequence model for text transcription. This hybrid architecture, although accurate, is complex and less efficient. In this study, we propose a Single Visual model for Scene Text recognition within the patch-wise image tokenization framework, which dispenses with the sequential modeling entirely. The method, termed SVTR, firstly decomposes an image text into small patches named character components. Afterward, hierarchical stages are recurrently carried out by component-level mixing, merging and/or combining. Global and local mixing blocks are devised to perceive the inter-character and intra-character patterns, leading to a multi-grained character component perception. Thus, characters are recognized by a simple linear prediction. Experimental results on both English and Chinese scene text recognition tasks demonstrate the effectiveness of SVTR. SVTR-L (Large) achieves highly competitive accuracy in English and outperforms existing methods by a large margin in Chinese, while running faster. In addition, SVTR-T (Tiny) is an effective and much smaller model, which shows appealing speed at inference. The code is publicly available at https://github.com/PaddlePaddle/PaddleOCR.
翻訳日:2022-05-05 07:54:55 公開日:2022-04-30
# (参考訳) 大規模言語モデルを活用した役割特定オープンドメイン対話システムの構築

Building a Role Specified Open-Domain Dialogue System Leveraging Large-Scale Language Models ( http://arxiv.org/abs/2205.00176v1 )

ライセンス: CC BY 4.0
Sanghwan Bae, Donghyun Kwak, Sungdong Kim, Donghoon Ham, Soyoung Kang, Sang-Woo Lee, Woomyoung Park(参考訳) 最近のオープンドメイン対話モデルは、多くのブレークスルーをもたらした。 しかし,チャットシステムの構築には膨大な人文対話データを必要とする場合が多く,特にペルソナやスタイル,安全性といった特徴が求められるため,スケーラビリティに欠ける。 本研究では,オープンドメイン対話システムにおける役割付与の課題について,人間と自然に会話しながら一貫した役割を維持することを目的とする。 これを実現するためには,特定の種類の発話が許されるか否かのシステムポリシだけでなく,特定の特徴に関する条件を含むロール仕様を満足させなければならない。 そこで本研究では,大規模言語モデルの文脈内数ショット学習を利用した効率的なデータ収集フレームワークを提案する。 次に,オープンドメイン対話システムにおける様々なアーキテクチャを比較し,対話能力を維持しながら役割仕様を満たす。 自動評価と人間評価は、我々のモデルが限界外の発話をほとんど返さず、一般的なメトリクスで競合性能を維持することを示している。 我々はさらなる研究のために構築した韓国語対話データセットをリリースする。

Recent open-domain dialogue models have brought numerous breakthroughs. However, building a chat system is not scalable since it often requires a considerable volume of human-human dialogue data, especially when enforcing features such as persona, style, or safety. In this work, we study the challenge of imposing roles on open-domain dialogue systems, with the goal of making the systems maintain consistent roles while conversing naturally with humans. To accomplish this, the system must satisfy a role specification that includes certain conditions on the stated features as well as a system policy on whether or not certain types of utterances are allowed. For this, we propose an efficient data collection framework leveraging in-context few-shot learning of large-scale language models for building role-satisfying dialogue dataset from scratch. We then compare various architectures for open-domain dialogue systems in terms of meeting role specifications while maintaining conversational abilities. Automatic and human evaluations show that our models return few out-of-bounds utterances, keeping competitive performance on general metrics. We release a Korean dialogue dataset we built for further research.
翻訳日:2022-05-05 07:42:17 公開日:2022-04-30
# (参考訳) 実践によって解法が完璧になる: 数学の単語問題を解くためのデータ拡張

Practice Makes a Solver Perfect: Data Augmentation for Math Word Problem Solvers ( http://arxiv.org/abs/2205.00177v1 )

ライセンス: CC BY 4.0
Vivek Kumar, Rishabh Maheshwary, Vikram Pudi(参考訳) 既存の数学語問題(MWP)は、ベンチマークデータセットで高い精度を達成している。 しかし、先行研究はそのような解法がうまく一般化せず、高パフォーマンスを達成するために表面的手がかりに頼っていることを示してきた。 本稿では,この動作が,既存のMWPデータセットに存在する限られたサイズと多様性に主に関連していることを示す実験を行う。 次に,置換法とパラフレージング法に大別されるデータ拡張手法を提案する。 これらのメソッドをデプロイすることで、既存のデータセットのサイズを5倍に増やします。 3つの最先端mwpソルバにおける2つのベンチマークデータセットの広範な実験は、提案手法が既存のソルバの一般化と堅牢性を高めることを示している。 提案手法は平均して,ベンチマークデータセットにおいて,最先端の結果を5ポイント以上向上させる。 さらに、拡張データセットでトレーニングされたソルバは、チャレンジテストセットにおいて比較良く動作する。 また,提案手法のアブレーション実験による有効性を示し,人体評価による拡張試料の品質検証を行った。

Existing Math Word Problem (MWP) solvers have achieved high accuracy on benchmark datasets. However, prior works have shown that such solvers do not generalize well and rely on superficial cues to achieve high performance. In this paper, we first conduct experiments to showcase that this behaviour is mainly associated with the limited size and diversity present in existing MWP datasets. Next, we propose several data augmentation techniques broadly categorized into Substitution and Paraphrasing based methods. By deploying these methods we increase the size of existing datasets by five folds. Extensive experiments on two benchmark datasets across three state-of-the-art MWP solvers show that proposed methods increase the generalization and robustness of existing solvers. On average, proposed methods significantly increase the state-of-the-art results by over five percentage points on benchmark datasets. Further, the solvers trained on the augmented dataset perform comparatively better on the challenge test set. We also show the effectiveness of proposed techniques through ablation studies and verify the quality of augmented samples through human evaluation.
翻訳日:2022-05-05 07:16:25 公開日:2022-04-30
# (参考訳) ベイズニューラルネットワークのための説明可能な人工知能:海洋力学の信頼できる予測に向けて

Explainable Artificial Intelligence for Bayesian Neural Networks: Towards trustworthy predictions of ocean dynamics ( http://arxiv.org/abs/2205.00202v1 )

ライセンス: CC BY 4.0
Mariana C. A. Clare and Maike Sonnewald and Redouane Lguensat and Julie Deshayes and Venkatramani Balaji(参考訳) ニューラルネットワークの信頼性は、不確実性を表現したり、スキルを説明する能力が欠けているため、しばしば疑問視される。 気候変動の応用など、高い利害関係の意思決定におけるニューラルネットワークの利用の増加を考えると、これは問題となる可能性がある。 我々は、パラメータが決定論的ではなく分布であるベイズニューラルネットワーク(BNN)の実装に成功し、説明可能なAI(XAI)技術の新しい実装を適用することにより、両方の問題に対処する。 BNNによる不確実性分析は、古典的なニューラルネットワークからの予測よりも実践者のニーズに合った予測の包括的な概要を提供する。 BNNを用いることで、予測のエントロピー(すなわち不確実性)を計算し、結果の確率が統計的に重要であるかどうかを判断できる。 また,信頼度を高めるために,LRP(Layer-wise Relevance Propagation)とSHAP(SHAP)の2つのXAI手法を空間的に適用した。 これらのXAI手法は、BNNが適切または/または信頼できる範囲を明らかにする。 2つのテクニックを使用することで、lrpはニューラルネットワークパラメータを考慮し、shapはアウトプットの変更を考慮しながら、bnnスキルとその不確実性をより包括的に捉えることができる。 物理理論の直観との比較により,これらの手法を検証する。 説明の相違は、新しい物理理論による研究が必要な潜在的な領域を特定する。

The trustworthiness of neural networks is often challenged because they lack the ability to express uncertainty and explain their skill. This can be problematic given the increasing use of neural networks in high stakes decision-making such as in climate change applications. We address both issues by successfully implementing a Bayesian Neural Network (BNN), where parameters are distributions rather than deterministic, and applying novel implementations of explainable AI (XAI) techniques. The uncertainty analysis from the BNN provides a comprehensive overview of the prediction more suited to practitioners' needs than predictions from a classical neural network. Using a BNN means we can calculate the entropy (i.e. uncertainty) of the predictions and determine if the probability of an outcome is statistically significant. To enhance trustworthiness, we also spatially apply the two XAI techniques of Layer-wise Relevance Propagation (LRP) and SHapley Additive exPlanation (SHAP) values. These XAI methods reveal the extent to which the BNN is suitable and/or trustworthy. Using two techniques gives a more holistic view of BNN skill and its uncertainty, as LRP considers neural network parameters, whereas SHAP considers changes to outputs. We verify these techniques using comparison with intuition from physical theory. The differences in explanation identify potential areas where new physical theory guided studies are needed.
翻訳日:2022-05-05 07:01:57 公開日:2022-04-30
# (参考訳) 機械学習のためのソフトウェアテスト

Software Testing for Machine Learning ( http://arxiv.org/abs/2205.00210v1 )

ライセンス: CC BY-SA 4.0
Dusica Marijan and Arnaud Gotlieb(参考訳) 機械学習はさまざまなアプリケーションで普及しています。 残念なことに、機械学習は詐欺やエラー、さらには致命的な失敗につながることが示されている。 この状況は、特に安全クリティカルなアプリケーションにおいて、その正しさと信頼性を保証できない限り、機械学習の広範な使用を疑問視する。 ソフトウェア検証とテストは、例えばエラーを検出することによって、そのような特性を設定するための確立された技術である。 しかし、機械学習のためのソフトウェアテストの課題は広く、混乱している。 この要約では、機械学習のためのソフトウェアテストの現状について論じる。 具体的には、機械学習システムのソフトウェアテストにおける6つの重要な課題について論じ、これらの課題に対する現在のアプローチを調べ、その限界を強調している。 この論文は、機械学習のテストに関する最先端の進歩に向けた、詳細な方向性を述べた研究アジェンダを提供する。

Machine learning has become prevalent across a wide variety of applications. Unfortunately, machine learning has also shown to be susceptible to deception, leading to errors, and even fatal failures. This circumstance calls into question the widespread use of machine learning, especially in safety-critical applications, unless we are able to assure its correctness and trustworthiness properties. Software verification and testing are established technique for assuring such properties, for example by detecting errors. However, software testing challenges for machine learning are vast and profuse - yet critical to address. This summary talk discusses the current state-of-the-art of software testing for machine learning. More specifically, it discusses six key challenge areas for software testing of machine learning systems, examines current approaches to these challenges and highlights their limitations. The paper provides a research agenda with elaborated directions for making progress toward advancing the state-of-the-art on testing of machine learning.
翻訳日:2022-05-05 06:29:27 公開日:2022-04-30
# (参考訳) 多様な決定境界に対する損失関数エントロピー正規化

Loss Function Entropy Regularization for Diverse Decision Boundaries ( http://arxiv.org/abs/2205.00224v1 )

ライセンス: CC BY 4.0
Chong Sue Sin(参考訳) 複数の分類器を訓練して有意義なクラウドソーシングを行い、地味なアノテーションなしでより良い予測ラベルを作成することは可能か? 本稿では,コントラスト学習目標を修正し,自己補完アンサンブルの自動学習を行い,cifar10とcifar100-20タスクの最先端予測を生成する。 本稿では,単一教師なし分類パイプラインを改良して,決定境界の異なるニューラルネットワークのアンサンブルを自動生成し,より大規模な特徴集合を学習する,極めて簡単な手法を提案する。 損失関数エントロピー正則化(lfer, loss function entropy regularization)は、事前学習およびコントラスト学習対象関数に付加すべき正規化用語であり、教師なし学習の出力空間のエントロピー状態を変更するためのギアを与え、ニューラルネットワークの判断境界の潜在表現を多様化させる。 lferで訓練されたアンサンブルは、決定境界付近のサンプルの予測精度が高い。 LFERは意思決定境界を乱す効果的な手段であり、対照的な学習段階において最先端技術に勝る分類器を作成できることが証明されている。 実験により、LFERは、それぞれの精度が最先端に匹敵するアンサンブルを生成できるが、それぞれが遅延決定境界を持つことを示す。 これにより、決定境界付近のサンプルに対して有意義な検証を行い、境界近傍のサンプルの正しい分類を奨励することができる。 トレーニングされたニューラルネットワークのアンサンブル内の単一サンプルの正確な予測確率を合成することにより、正しい特徴写像を識別し、確認することにより、単一分類器を改善することができる。

Is it possible to train several classifiers to perform meaningful crowd-sourcing to produce a better prediction label set without any ground-truth annotation? In this paper, we will attempt to modify the contrastive learning objectives to automatically train a self-complementing ensemble to produce a state-of-the-art prediction on the CIFAR10 and CIFAR100-20 task. This paper will present a remarkably simple method to modify a single unsupervised classification pipeline to automatically generate an ensemble of neural networks with varied decision boundaries to learn a larger feature set of classes. Loss Function Entropy Regularization (LFER), are regularization terms to be added upon the pre-training and contrastive learning objective functions, gives us a gear to modify the entropy state of the output space of unsupervised learning, thereby diversifying the latent representation of decision boundaries of neural networks. Ensemble trained with LFER have higher successful prediction accuracy for samples near decision boundaries. LFER is a effective gear to perturb decision boundaries, and has proven to be able to produce classifiers that beat state-of-the-art at contrastive learning stage. Experiments show that LFER can produce an ensemble where each have accuracy comparable to the state-of-the-art, yet have each have varied latent decision boundaries. It allows us to essence perform meaningful verification for samples near decision boundaries, encouraging correct classification of near-boundary samples. By compounding the probability of correct prediction of a single sample amongst an ensemble of neural network trained, our method is able to improve upon a single classifier by denoising and affirming correct feature mappings.
翻訳日:2022-05-05 06:18:06 公開日:2022-04-30
# (参考訳) Dual-Arm Robotic Flatteningにおける衣服構成の認識

Recognising Known Configurations of Garments For Dual-Arm Robotic Flattening ( http://arxiv.org/abs/2205.00225v1 )

ライセンス: CC BY 4.0
Li Duan and Gerardo Argon-Camarasa(参考訳) ロボットの変形可能なオブジェクト操作は、変形可能なオブジェクトが複雑でさまざまなオブジェクト状態を持つため、ロボット産業における課題である。 これらのオブジェクト状態の予測と操作計画の更新には時間と計算コストがかかる。 本稿では,KCNet(Known Configuration Neural Network)を用いて衣服の「既知の構成」を認識し,認識された構成に基づいて事前設計された操作計画を選択するための効果的なロボット操作手法を提案する。 私たちのロボット操作計画は、重要な把握ポイントを見つけ、衣服を伸ばし、衣服を持ち上げるという4つの戦略を特徴としている。 我々は5つのカテゴリの衣服を平らにするのに平均98秒しか必要としないことを示した。

Robotic deformable-object manipulation is a challenge in the robotic industry because deformable objects have complicated and various object states. Predicting those object states and updating manipulation planning are time-consuming and computationally expensive. In this paper, we propose an effective robotic manipulation approach for recognising 'known configurations' of garments with a 'Known Configuration neural Network' (KCNet) and choosing pre-designed manipulation plans based on the recognised known configurations. Our robotic manipulation plan features a four-action strategy: finding two critical grasping points, stretching the garments, and lifting down the garments. We demonstrate that our approach only needs 98 seconds on average to flatten garments of five categories.
翻訳日:2022-05-05 06:08:16 公開日:2022-04-30
# (参考訳) トラベルカメラ問題に対するニューラルネットワーク成分による置換の近似

Approximating Permutations with Neural Network Components for Travelling Photographer Problem ( http://arxiv.org/abs/2205.00242v1 )

ライセンス: CC BY 4.0
Chong Sue Sin(参考訳) 現在の推論技法の多くは、確率的グラフィカルな観測モデルのベイズ的推論に依存しており、観測の予測と分類は比較的うまく行っている。 しかし、観測間の関係のマイニングを容易にするためにはほとんど行われておらず、観測のセットや観測の範囲内での関係のモデルを構築している。 観測インプットを持つマシンのイベント理解は、観測間の関係を理解する必要があるため、モデルを構築し、観測間の関係を蓄積し整理するための効果的なデータ構造を考案する必要がある。 本論文は、観測と確率的に関係のある状態の集合を考慮し、観測トークンの列に状態の置換を適合させようとする(The Travelling Photographer Problem)。 我々は、状態置換のランダム化近似のための機械学習によるアーキテクチャを考案し、置換のヒューリスティック探索の並列化を容易にした。 我々のアルゴリズムは、非常に小さな誤りでThe Travelling Photographer Problemを解くことができる。 我々は,正規化,ドロップアウト,ラムダレイヤなどの機械学習のコンポーネントをランダム化アルゴリズムで模倣することにより,NP-Hard問題であるTPPを解決するアーキテクチャを考案できることを実証した。 TPP以外にも、同様の考え方でTSP(Travelling Salesman Problem)に2ローカル改善のヒューリスティックを提供することができます。

Many of current inference techniques rely upon Bayesian inference on Probabilistic Graphical Models of observations, and does prediction and classification on observations rather well. However, little has been done to facilitate of the mining of relationship between observations, and build models of relationship between sets of observations or within the scope of observations. Event understanding of machines with observation inputs needs to deal with understanding of the relationship between observations, and thus there is a crucial need to build models and come up with effective data structures to accumulate and organize relationships between observations. Given a set of states probabilisitcally-related with observations, this paper attempts to fit a permutation of states to a sequence of observation tokens (The Travelling Photographer Problem). We have devised a machine learning inspired architecture for randomized approximation of state permutation, facilitating parallelization of heuristic search of permutations. Our algorithm is able to solve The Travelling Photographer Problem with very small error. We demonstrate that by mimicking components of machine learning such as normalization, dropout, lambda layer with randomized algorithm, we are able to devise an architecture which solves TPP, a permutation NP-Hard problem. Other than TPP, we are also able to provide a 2-Local improvement heuristic for the Travelling Salesman Problem (TSP) with similar ideas.
翻訳日:2022-05-05 05:57:49 公開日:2022-04-30
# (参考訳) 多目的遺伝的アルゴリズムを用いた特徴量選択

Fair Feature Subset Selection using Multiobjective Genetic Algorithm ( http://arxiv.org/abs/2205.01512v1 )

ライセンス: CC BY 4.0
Ayaz Ur Rehman, Anas Nadeem, Muhammad Zubair Malik(参考訳) 機能サブセット選択問題は、関連する機能のサブセットを選択して、トレーニングデータに対する機械学習(ML)アルゴリズムのパフォーマンスを改善することを目的としている。 データ内のいくつかの機能は本質的にノイズが多く、計算コストが高く、不適切にスケールされ、他の機能と関連付けられ、誘導アルゴリズムの精度、コスト、複雑さに悪影響を及ぼす可能性がある。 従来の機能選択アプローチの目標は、そのような無関係な機能を削除することだ。 近年、MLは私たちの日常生活の意思決定プロセスに顕著な影響を与えています。 私たちは、これらの決定が、年齢、性別、人種といった保護された属性に基づいて、特定のグループや個人に対する偏った行動を反映しないようにしたいと考えています。 本稿では,妥当性と精度の両方を向上し,NSGA-IIアルゴリズムを用いてパレート最適解を計算する特徴部分選択手法を提案する。 統計的不一致を公平度指標とし,f1-scoreをモデル性能指標とする。 3つの異なる機械学習アルゴリズムを用いた最もよく使われるフェアネスベンチマークデータセットの実験により、進化的アルゴリズムを用いることで、フェアネスと精度のトレードオフを効果的に探索できることが示された。

The feature subset selection problem aims at selecting the relevant subset of features to improve the performance of a Machine Learning (ML) algorithm on training data. Some features in data can be inherently noisy, costly to compute, improperly scaled, or correlated to other features, and they can adversely affect the accuracy, cost, and complexity of the induced algorithm. The goal of traditional feature selection approaches has been to remove such irrelevant features. In recent years ML is making a noticeable impact on the decision-making processes of our everyday lives. We want to ensure that these decisions do not reflect biased behavior towards certain groups or individuals based on protected attributes such as age, sex, or race. In this paper, we present a feature subset selection approach that improves both fairness and accuracy objectives and computes Pareto-optimal solutions using the NSGA-II algorithm. We use statistical disparity as a fairness metric and F1-Score as a metric for model performance. Our experiments on the most commonly used fairness benchmark datasets with three different machine learning algorithms show that using the evolutionary algorithm we can effectively explore the trade-off between fairness and accuracy.
翻訳日:2022-05-05 05:16:58 公開日:2022-04-30
# (参考訳) 多核緩和誘導分岐境界による完全検証

Complete Verification via Multi-Neuron Relaxation Guided Branch-and-Bound ( http://arxiv.org/abs/2205.00263v1 )

ライセンス: CC BY 4.0
Claudio Ferrari, Mark Niklas Muller, Nikola Jovanovic, Martin Vechev(参考訳) 最先端のニューラルネットワーク検証器は、基本的に2つのパラダイムの1つに基づいている: 厳密なマルチニューロン凸緩和による検証問題を符号化するか、不正確だが高速なバウンディング手法を多くの簡単なサブプロブレムで活用するブランチ・アンド・バウンド(BaB)手法を適用する。 前者は複雑なマルチニューロン依存をキャプチャできるが、凸緩和の固有の制限のために完全性を犠牲にする。 後者は完全な検証を可能にするが、より大規模で困難なネットワークではますます効果が低下する。 本稿では,両パラダイムの強みを組み合わせた,新しい完全検証器を提案する。babプロセス中に発生するサブプロブレムの数を劇的に削減するために,マルチニューロリラクゼーションを利用して,残りの問題を解くためのgpuベースの効率的なデュアルオプティマイザを提案する。 評価の結果,既存のベンチマークと,従来考えられていたよりもはるかに高い精度のネットワークにおいて,検証が新たな最先端性を実現することが示された。 後者の結果(最大28%)は、実際に関連するネットワークを処理できる検証者作成に向けた有意義な進歩を示している。

State-of-the-art neural network verifiers are fundamentally based on one of two paradigms: either encoding the whole verification problem via tight multi-neuron convex relaxations or applying a Branch-and-Bound (BaB) procedure leveraging imprecise but fast bounding methods on a large number of easier subproblems. The former can capture complex multi-neuron dependencies but sacrifices completeness due to the inherent limitations of convex relaxations. The latter enables complete verification but becomes increasingly ineffective on larger and more challenging networks. In this work, we present a novel complete verifier which combines the strengths of both paradigms: it leverages multi-neuron relaxations to drastically reduce the number of subproblems generated during the BaB process and an efficient GPU-based dual optimizer to solve the remaining ones. An extensive evaluation demonstrates that our verifier achieves a new state-of-the-art on both established benchmarks as well as networks with significantly higher accuracy than previously considered. The latter result (up to 28% certification gains) indicates meaningful progress towards creating verifiers that can handle practically relevant networks.
翻訳日:2022-05-04 11:16:00 公開日:2022-04-30
# (参考訳) 多言語文エンコーダによる言語横断語彙知識の提示

Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence Encoders ( http://arxiv.org/abs/2205.00267v1 )

ライセンス: CC BY-SA 4.0
Ivan Vuli\'c, Goran Glava\v{s}, Fangyu Liu, Nigel Collier, Edoardo Maria Ponti, Anna Korhonen(参考訳) 事前訓練された多言語言語モデル(LM)は、並列データに対する細調整やモデルの蒸留によって、多言語文エンコーダ(SE、LaBSE、xMPNET)に変換される。 しかし、言語横断的な語彙課題において、その知識をいかに活用して下位の語彙項目(例えば、単語や句)を表現するかは定かではない。 本研究では、これらのSEを、それらのパラメータに格納された言語間語彙知識の量として探索し、元の多言語LMと比較する。 また,低コストのコントラスト学習手法により多言語モデルを微調整し,少量の単語翻訳ペアを必要とする新しい手法も考案した。 本稿では, バイリンガル語彙帰納法(BLI), クロスリンガル語彙的類似性, およびクロスリンガル実体リンクについて検討し, 標準ベンチマーク(例えば, BLIの+10 Precision@1 点)でかなりの利得を報告し, LaBSE などの SE を有効言語的語彙的エンコーダに'再接続'できることを確認した。 さらに,結果表現を言語間埋め込み空間からの静的埋め込みと補間することで,語彙処理の性能をさらに高めることができることを示す。 要約すると,本手法は,多言語文エンコーダにおける多言語語彙知識「hidden」の露出と活用に有効なツールである。

Pretrained multilingual language models (LMs) can be successfully transformed into multilingual sentence encoders (SEs; e.g., LaBSE, xMPNET) via additional fine-tuning or model distillation on parallel data. However, it remains uncertain how to best leverage their knowledge to represent sub-sentence lexical items (i.e., words and phrases) in cross-lingual lexical tasks. In this work, we probe these SEs for the amount of cross-lingual lexical knowledge stored in their parameters, and compare them against the original multilingual LMs. We also devise a novel method to expose this knowledge by additionally fine-tuning multilingual models through inexpensive contrastive learning procedure, requiring only a small amount of word translation pairs. We evaluate our method on bilingual lexical induction (BLI), cross-lingual lexical semantic similarity, and cross-lingual entity linking, and report substantial gains on standard benchmarks (e.g., +10 Precision@1 points in BLI), validating that the SEs such as LaBSE can be 'rewired' into effective cross-lingual lexical encoders. Moreover, we show that resulting representations can be successfully interpolated with static embeddings from cross-lingual word embedding spaces to further boost the performance in lexical tasks. In sum, our approach provides an effective tool for exposing and harnessing multilingual lexical knowledge 'hidden' in multilingual sentence encoders.
翻訳日:2022-05-04 10:56:56 公開日:2022-04-30
# (参考訳) タスク・ウナウエア・トランスミッタと動的データを用いた深層学習型意味コミュニケーションシステム

Deep Learning-Enabled Semantic Communication Systems with Task-Unaware Transmitter and Dynamic Data ( http://arxiv.org/abs/2205.00271v1 )

ライセンス: CC BY 4.0
Hongwei Zhang, Shuo Shao, Meixia Tao, Xiaoyan Bi, and Khaled B. Letaief(参考訳) 既存のディープラーニング対応セマンティックコミュニケーションシステムは、経験的データと関連するセマンティック情報を含む送信機と受信機の間で共有されたバックグラウンド知識に依存することが多い。 実際には、意味情報は受信者の実用的なタスクによって定義され、送信者には知られない。 送信機の実際の観測可能なデータは、共有背景知識ライブラリ内の経験データと非同一性分布を持つこともできる。 これらの課題に対処するため,本研究では,タスクが送信側で認識されず,データ環境が動的である画像伝送のためのニューラルネットワークベースのセマンティックコミュニケーションシステムを提案する。 このシステムは2つの主要な部分、すなわち意味抽出(SE)ネットワークとデータ適応(DA)ネットワークから構成される。 SEネットワークは、受信者主導のトレーニングプロセスを使用して意味情報を抽出する方法を学ぶ。 転送学習からのドメイン適応技術を用いて、daネットワークは観測されたデータをseネットワークが再トレーニングすることなく処理できる経験的データの類似形式に変換する方法を学習する。 数値実験により,提案手法はデータ復元とタスク実行の両面で高い性能を維持しつつ,観測可能なデータセットに適応できることが示された。 コードはhttps://github.com/SJTU-mxtao/Semantic-Communication-Systemsで公開されている。

Existing deep learning-enabled semantic communication systems often rely on shared background knowledge between the transmitter and receiver that includes empirical data and their associated semantic information. In practice, the semantic information is defined by the pragmatic task of the receiver and cannot be known to the transmitter. The actual observable data at the transmitter can also have non-identical distribution with the empirical data in the shared background knowledge library. To address these practical issues, this paper proposes a new neural network-based semantic communication system for image transmission, where the task is unaware at the transmitter and the data environment is dynamic. The system consists of two main parts, namely the semantic extraction (SE) network and the data adaptation (DA) network. The SE network learns how to extract the semantic information using a receiver-leading training process. By using domain adaptation technique from transfer learning, the DA network learns how to convert the data observed into a similar form of the empirical data that the SE network can process without re-training. Numerical experiments show that the proposed method can be adaptive to observable datasets while keeping high performance in terms of both data recovery and task execution. The codes are available on https://github.com/SJTU-mxtao/Semantic-Communication-Systems.
翻訳日:2022-05-04 10:27:48 公開日:2022-04-30
# (参考訳) 回答前のクローズ: 世代拡大型マルチコースQA

Clues Before Answers: Generation-Enhanced Multiple-Choice QA ( http://arxiv.org/abs/2205.00274v1 )

ライセンス: CC BY 4.0
Zixian Huang, Ao Wu, Jiaying Zhou, Yu Gu, Yue Zhao, Gong Cheng(参考訳) マルチ選択質問応答(MCQA)のトレンドパラダイムは、テキストからテキストへのフレームワークを使用している。 異なるタスク内のデータを単一のテキストからテキストへのフォーマットに統一することで、強力で普遍的な生成型エンコーダ・デコーダモデルを訓練する。 しかし、MCQAの分類特性に合うように生成ターゲットをツイストさせる副作用は、デコーダの未使用化と復号化可能な知識である。 本稿では、事前訓練されたエンコーダデコーダモデルの生成能力と基礎知識を活用するために、GenMCという世代拡張MCQAモデルを提案する。 質問からヒントを生成し、そのヒントを利用してMCQAの読者を強化する。 複数のMCQAデータセット上でテキストからテキストまでのモデルよりも優れています。

A trending paradigm for multiple-choice question answering (MCQA) is using a text-to-text framework. By unifying data in different tasks into a single text-to-text format, it trains a generative encoder-decoder model which is both powerful and universal. However, a side effect of twisting a generation target to fit the classification nature of MCQA is the under-utilization of the decoder and the knowledge that can be decoded. To exploit the generation capability and underlying knowledge of a pre-trained encoder-decoder model, in this paper, we propose a generation-enhanced MCQA model named GenMC. It generates a clue from the question and then leverages the clue to enhance a reader for MCQA. It outperforms text-to-text models on multiple MCQA datasets.
翻訳日:2022-05-04 09:59:59 公開日:2022-04-30
# (参考訳) 感情分類におけるトランスフォーマー性能向上のための感情特徴の活用

Leveraging Emotion-specific Features to Improve Transformer Performance for Emotion Classification ( http://arxiv.org/abs/2205.00283v1 )

ライセンス: CC BY 4.0
Shaily Desai, Atharva Kshirsagar, Aditi Sidnerlikar, Nikhil Khodake, Manisha Marathe(参考訳) 本稿では,チームPVGs AI ClubによるWASSA 2022における感情分類共有タスクへのアプローチについて述べる。 このトラック2のサブタスクは、人、グループまたは他のエンティティが影響を受けるニュース記事からのエッセイに基づいて、マルチクラスの感情ラベルを予測するモデルの構築に焦点を当てている。 ベースライン変圧器モデルはシーケンス分類タスクにおいて良い結果を示しており、この性能をアンサンブル技術を用いて改善し、2種類の感情特化表現を活用することを目的としている。 我々は,ベースラインモデルよりも優れた結果を観察し,感情分類タスクにおいて0.619の精度と0.520のマクロF1スコアを達成する。

This paper describes the approach to the Emotion Classification shared task held at WASSA 2022 by team PVGs AI Club. This Track 2 sub-task focuses on building models which can predict a multi-class emotion label based on essays from news articles where a person, group or another entity is affected. Baseline transformer models have been demonstrating good results on sequence classification tasks, and we aim to improve this performance with the help of ensembling techniques, and by leveraging two variations of emotion-specific representations. We observe better results than our baseline models and achieve an accuracy of 0.619 and a macro F1 score of 0.520 on the emotion classification task.
翻訳日:2022-05-04 09:43:31 公開日:2022-04-30
# (参考訳) ttopt: 最大量量子化テンソルトレインに基づく最適化とその強化学習への応用

TTOpt: A Maximum Volume Quantized Tensor Train-based Optimization and its Application to Reinforcement Learning ( http://arxiv.org/abs/2205.00293v1 )

ライセンス: CC BY 4.0
Konstantin Sozykin, Andrei Chertkov, Roman Schutski, Anh-Huy Phan, Andrzej Cichocki, Ivan Oseledets(参考訳) 本稿では,効率的な量子化テンソル列表現と一般化最大行列体積原理を組み合わせた最適化手法を提案する。 本稿では,多次元関数の最小化から強化学習まで,様々なタスクに対する新しいテンソルトレインオプティマイザ(ttopt)法の適用性を示す。 我々のアルゴリズムは、一般的な進化的手法と好意的に比較し、関数評価や実行時間、しばしば大きなマージンでそれらを上回ります。

We present a novel procedure for optimization based on the combination of efficient quantized tensor train representation and a generalized maximum matrix volume principle. We demonstrate the applicability of the new Tensor Train Optimizer (TTOpt) method for various tasks, ranging from minimization of multidimensional functions to reinforcement learning. Our algorithm compares favorably to popular evolutionary-based methods and outperforms them by the number of function evaluations or execution time, often by a significant margin.
翻訳日:2022-05-04 09:38:11 公開日:2022-04-30
# (参考訳) 形状:個人のモダリティの貢献と協力を評価するための統一的アプローチ

SHAPE: An Unified Approach to Evaluate the Contribution and Cooperation of Individual Modalities ( http://arxiv.org/abs/2205.00302v1 )

ライセンス: CC BY 4.0
Pengbo Hu, Xingyu Li, Yi Zhou(参考訳) ディープラーニングが進むにつれて、マルチモーダルリソースから情報を合成して、現実のアプリケーションから引き起こされる複雑なタスクに対処できるモデルに対する需要がますます高まっている。 近年、多くの大規模マルチモーダルデータセットが収集され、研究者は様々なマルチモーダル情報を利用する方法を積極的に探究している。 しかし,提案モデルの異なるモダリティの寄与を定量化するためにはほとんど注意が払われていない。 本稿では,個々のモダリティの限界寄与度とモダリティ間の協調度を計測する「bf sh}apley v{\bf a}lue-based {\bf pe}rceptual (shape) score」を提案する。 これらのスコアを用いて、異なるタスクに対して異なるマルチモーダルデータセット上で異なる融合手法を体系的に評価する。 実験により,異なるモダリティが相補的であるタスクでは,マルチモダリティモデルは依然として支配的モダリティのみを使用し,モダリティ間の協調を無視する傾向が示唆された。 一方で、異なるモダリティがタスクに不可欠である場合、モデルはクロスモーダル協調を利用するように学習する。 この場合、スコアは比較的早い段階で異なるモダリティを融合した方がよいことを示している。 我々のスコアは、現在のマルチモーダルモデルが様々なモダリティでどのように動作するかを理解するのに役立つことを願っている。

As deep learning advances, there is an ever-growing demand for models capable of synthesizing information from multi-modal resources to address the complex tasks raised from real-life applications. Recently, many large multi-modal datasets have been collected, on which researchers actively explore different methods of fusing multi-modal information. However, little attention has been paid to quantifying the contribution of different modalities within the proposed models. In this paper, we propose the {\bf SH}apley v{\bf A}lue-based {\bf PE}rceptual (SHAPE) scores that measure the marginal contribution of individual modalities and the degree of cooperation across modalities. Using these scores, we systematically evaluate different fusion methods on different multi-modal datasets for different tasks. Our experiments suggest that for some tasks where different modalities are complementary, the multi-modal models still tend to use the dominant modality alone and ignore the cooperation across modalities. On the other hand, models learn to exploit cross-modal cooperation when different modalities are indispensable for the task. In this case, the scores indicate it is better to fuse different modalities at relatively early stages. We hope our scores can help improve the understanding of how the present multi-modal models operate on different modalities and encourage more sophisticated methods of integrating multiple modalities.
翻訳日:2022-05-04 09:05:41 公開日:2022-04-30
# (参考訳) ビジュアルテキスト提示設計のための合成対応グラフィカルレイアウトGAN

Composition-aware Graphic Layout GAN for Visual-textual Presentation Designs ( http://arxiv.org/abs/2205.00303v1 )

ライセンス: CC BY 4.0
Min Zhou, Chenchen Xu, Ye Ma, Tiezheng Ge, Yuning Jiang and Weiwei Xu(参考訳) 本稿では,与えられた画像に対して高品質な視覚テキスト提示設計を行う際のグラフィックレイアウト生成問題について検討する。 グローバルなセマンティクスだけでなく空間情報も含む画像合成は、レイアウト結果に大きく影響する。 そこで我々は,入力画像のグローバルおよび空間的視覚的内容に基づいてレイアウトを合成する,合成対応グラフィックレイアウトGAN (CGL-GAN) と呼ばれる深層生成モデルを提案する。 すでに手作業で設計したグラフィックレイアウトデータを含む画像からトレーニング画像を得るため、先行研究ではモデル入力としてマスキングデザイン要素(例えば、テキストや装飾)を示唆しており、必然的に根拠のヒントを残している。 本研究では、トレーニング入力(ヒントマスク付き)とテスト入力(マスクなし)の相違について検討し、このギャップを狭めるために新しいドメインアライメントモジュール(DAM)を設計する。 トレーニングのために,アノテートレイアウト情報付き60,548個の広告ポスターからなる大規模レイアウトデータセットを構築した。 生成したレイアウトを評価するために,美的直感に基づく3つの新しい指標を提案する。 定量的および定性的な評価によって,提案モデルが画像組成に応じて高品質なグラフィックレイアウトを合成できることを実証する。

In this paper, we study the graphic layout generation problem of producing high-quality visual-textual presentation designs for given images. We note that image compositions, which contain not only global semantics but also spatial information, would largely affect layout results. Hence, we propose a deep generative model, dubbed as composition-aware graphic layout GAN (CGL-GAN), to synthesize layouts based on the global and spatial visual contents of input images. To obtain training images from images that already contain manually designed graphic layout data, previous work suggests masking design elements (e.g., texts and embellishments) as model inputs, which inevitably leaves hint of the ground truth. We study the misalignment between the training inputs (with hint masks) and test inputs (without masks), and design a novel domain alignment module (DAM) to narrow this gap. For training, we built a large-scale layout dataset which consists of 60,548 advertising posters with annotated layout information. To evaluate the generated layouts, we propose three novel metrics according to aesthetic intuitions. Through both quantitative and qualitative evaluations, we demonstrate that the proposed model can synthesize high-quality graphic layouts according to image compositions.
翻訳日:2022-05-04 08:51:39 公開日:2022-04-30
# (参考訳) AdapterBias: NLPタスクにおけるアダプタのパラメータ依存型表現シフト

AdapterBias: Parameter-efficient Token-dependent Representation Shift for Adapters in NLP Tasks ( http://arxiv.org/abs/2205.00305v1 )

ライセンス: CC BY 4.0
Chin-Lun Fu, Zih-Ching Chen, Yun-Ru Lee, Hung-yi Lee(参考訳) 数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。 最近のアプローチではアダプタのトレーニングによってこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。 本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャである adapterbias を提案する。 AdapterBiasは、トランスフォーマー層の隠れ出力にトークン依存のシフトを追加し、ベクトルと線形層のみで下流タスクに適応する。 AdapterBiasの有効性を示す大規模な実験を行った。 提案手法は,事前学習モデルと比較してタスク性能を最小に抑えつつ,従来手法に比べてトレーニング可能なパラメータを劇的に削減できることを示す。 さらに、AdapterBiasはタスクに関連するトークンに、より重要な表現シフトを割り当てることを自動的に学習する。

Transformer-based pre-trained models with millions of parameters require large storage. Recent approaches tackle this shortcoming by training adapters, but these approaches still require a relatively large number of parameters. In this study, AdapterBias, a surprisingly simple yet effective adapter architecture, is proposed. AdapterBias adds a token-dependent shift to the hidden output of transformer layers to adapt to downstream tasks with only a vector and a linear layer. Extensive experiments are conducted to demonstrate the effectiveness of AdapterBias. The experiments show that our proposed method can dramatically reduce the trainable parameters compared to the previous works with a minimal decrease in task performances compared with fine-tuned pre-trained models. We further find that AdapterBias automatically learns to assign more significant representation shifts to the tokens related to the task in consideration.
翻訳日:2022-05-04 08:40:28 公開日:2022-04-30
# (参考訳) セマンティックセグメンテーションにおける半監督領域適応のためのソースドメインサブセットサンプリング

Source Domain Subset Sampling for Semi-Supervised Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2205.00312v1 )

ライセンス: CC BY 4.0
Daehan Kim, Minseok Seo, Jinsun Park, Dong-Geol Choi(参考訳) 本稿では,半教師付き領域適応の新しい視点として,ソースドメインサブセットサンプリング(sdss)を提案する。 トレーニング用ソースデータから有意義なサブセットのみをサンプリング・活用してドメイン適応を提案する。 私たちの重要な前提は、ソースドメインデータ全体が、適応に役に立たないサンプルを含んでいるかもしれないということです。 したがって、ドメイン適応は有用なサンプルと関連するサンプルのみからなるソースデータのサブセットの恩恵を受けることができる。 提案手法は,効率よく全ソースデータをサブサンプリングし,小規模で意味のあるサブセットを生成する。 そのため、トレーニング時間が短縮され、サブサンプルソースデータにより性能が向上する。 提案手法のスケーラビリティをさらに検証するため,500個の実画像と200K個の合成サンプル画像からなるOcean Shipという新しいデータセットを構築した。 SDSSは、GTA5をCityscapesに適用し、SynTHIAをCityscapesの公開ベンチマークデータセットに適用し、ベースラインモデルによるOcean Shipデータセットの9.13mIoUの改善を達成した。

In this paper, we introduce source domain subset sampling (SDSS) as a new perspective of semi-supervised domain adaptation. We propose domain adaptation by sampling and exploiting only a meaningful subset from source data for training. Our key assumption is that the entire source domain data may contain samples that are unhelpful for the adaptation. Therefore, the domain adaptation can benefit from a subset of source data composed solely of helpful and relevant samples. The proposed method effectively subsamples full source data to generate a small-scale meaningful subset. Therefore, training time is reduced, and performance is improved with our subsampled source data. To further verify the scalability of our method, we construct a new dataset called Ocean Ship, which comprises 500 real and 200K synthetic sample images with ground-truth labels. The SDSS achieved a state-of-the-art performance when applied on GTA5 to Cityscapes and SYNTHIA to Cityscapes public benchmark datasets and a 9.13 mIoU improvement on our Ocean Ship dataset over a baseline model.
翻訳日:2022-05-04 08:27:03 公開日:2022-04-30
# (参考訳) 関連データ適応による否定対話の応答モデル

Opponent Modeling in Negotiation Dialogues by Related Data Adaptation ( http://arxiv.org/abs/2205.00344v1 )

ライセンス: CC BY 4.0
Kushal Chawla, Gale M. Lucas, Jonathan May, Jonathan Gratch(参考訳) 相手のモデリングは、社会的相互作用の文脈の中で相手の精神状態を推測するタスクである。 多問題交渉では、相手が議論中の各問題に割り当てる相対的な重要性を推測し、これは高価値な取引を見つけるのに不可欠である。 このタスクの実用的なモデルは、トレーニングのための追加アノテーションを必要とせず、部分的な対話を入力として、相手の優先順位をオンザフライで推測する必要がある。 本研究では,交渉対話からこれらの優先順位を識別するためのランク付け手法を提案する。 モデルは、部分的な対話を入力として、相手の優先順位を予測します。 我々はさらに,関連するデータソースをこのタスクに適用する方法を考案し,相手の好みや提案を,細かな発話レベルのアノテーションに依存する代理として組み込むための,より明示的な監督を提供する。 2つの対話データセットに基づく広範囲な実験により,提案手法の有用性を示す。 提案したデータ適応は、ゼロショットと少数ショットのシナリオで高いパフォーマンスをもたらす。 さらに、モデルがベースラインよりもパフォーマンスが良くなると同時に、相手からの発話が少なくなる。 この方向で今後の作業をサポートするためにコードをリリースします。

Opponent modeling is the task of inferring another party's mental state within the context of social interactions. In a multi-issue negotiation, it involves inferring the relative importance that the opponent assigns to each issue under discussion, which is crucial for finding high-value deals. A practical model for this task needs to infer these priorities of the opponent on the fly based on partial dialogues as input, without needing additional annotations for training. In this work, we propose a ranker for identifying these priorities from negotiation dialogues. The model takes in a partial dialogue as input and predicts the priority order of the opponent. We further devise ways to adapt related data sources for this task to provide more explicit supervision for incorporating the opponent's preferences and offers, as a proxy to relying on granular utterance-level annotations. We show the utility of our proposed approach through extensive experiments based on two dialogue datasets. We find that the proposed data adaptations lead to strong performance in zero-shot and few-shot scenarios. Moreover, they allow the model to perform better than baselines while accessing fewer utterances from the opponent. We release our code to support future work in this direction.
翻訳日:2022-05-04 08:16:04 公開日:2022-04-30
# (参考訳) LayoutBERT: オブジェクト挿入のためのマスク言語レイアウトモデル

LayoutBERT: Masked Language Layout Model for Object Insertion ( http://arxiv.org/abs/2205.00347v1 )

ライセンス: CC BY 4.0
Kerem Turgutlu, Sanat Sharma and Jayant Kumar(参考訳) 画像合成は、クリエイティブワークフローにおける最も基本的なステップの1つである。 これは合成と呼ばれる新しい画像を作成するために複数の画像のオブジェクト/パーツを取ることを含む。 現在、このプロセスは、挿入するオブジェクトの正確なマスクを作成し、通常photoshopやgimpといったツールの助けを借りて、ターゲットシーンやイメージと慎重に混ぜ合わせることで、手動で行う。 マスクを作成するためのオブジェクトの自動選択に関する研究はいくつかあるが、正しい位置、スケール、ハーモニーを持つ画像内のオブジェクト配置の問題は、限られた探索において難しい問題である。 画像やデザインの自動挿入は、シーンの幾何学とオブジェクト間の色調和を理解する必要があるため、難しい問題である。 オブジェクト挿入タスクに対してLayoutBERTを提案する。 これは、新しい自己監督型マスク付き言語モデルと双方向多頭部自己注意を用いている。 従来のレイアウトベースの可能性モデルよりも優れており、モデルキャパシティの点で好ましい特性を示している。 本稿では、画像合成設定や文書やデザインテンプレートなどの設定において、オブジェクト挿入に対するアプローチの有効性を示す。 さらに,レイアウトに基づく検索作業における学習表現の有用性を示す。 私たちは、COCO、PublayNetといったさまざまなドメインからのデータセットの質的および定量的評価と、Image LayoutsとTemplate Layoutsと呼ばれる2つの新しいデータセットを提供します。 Image Layoutsはレイアウトアノテーションを備えた580万の画像で構成されており、私たちの知る限り最大の画像レイアウトデータセットである。 また,この課題に対するデータセットサイズ,モデルサイズ,クラスサンプルサイズの影響について比較検討を行った。

Image compositing is one of the most fundamental steps in creative workflows. It involves taking objects/parts of several images to create a new image, called a composite. Currently, this process is done manually by creating accurate masks of objects to be inserted and carefully blending them with the target scene or images, usually with the help of tools such as Photoshop or GIMP. While there have been several works on automatic selection of objects for creating masks, the problem of object placement within an image with the correct position, scale, and harmony remains a difficult problem with limited exploration. Automatic object insertion in images or designs is a difficult problem as it requires understanding of the scene geometry and the color harmony between objects. We propose LayoutBERT for the object insertion task. It uses a novel self-supervised masked language model objective and bidirectional multi-head self-attention. It outperforms previous layout-based likelihood models and shows favorable properties in terms of model capacity. We demonstrate the effectiveness of our approach for object insertion in the image compositing setting and other settings like documents and design templates. We further demonstrate the usefulness of the learned representations for layout-based retrieval tasks. We provide both qualitative and quantitative evaluations on datasets from diverse domains like COCO, PublayNet, and two new datasets which we call Image Layouts and Template Layouts. Image Layouts which consists of 5.8 million images with layout annotations is the largest image layout dataset to our knowledge. We also share ablation study results on the effect of dataset size, model size and class sample size for this task.
翻訳日:2022-05-04 08:00:33 公開日:2022-04-30
# (参考訳) 勾配ブースト決定木の適応と影響推定法の評価

Adapting and Evaluating Influence-Estimation Methods for Gradient-Boosted Decision Trees ( http://arxiv.org/abs/2205.00359v1 )

ライセンス: CC BY 4.0
Jonathan Brophy, Zayd Hammoudeh, and Daniel Lowd(参考訳) この分析は、これらの予測、これらの予測を行うモデル、トレーニングされているデータセットをよりよく理解するのに役立ちます。 しかしながら、ほとんどの影響推定手法は連続的なパラメータを持つディープラーニングモデル向けに設計されている。 グラデーションブースト決定木(gbdts)は強力で広く使われているモデルであるが、これらのモデルは不透明な意思決定プロセスを持つブラックボックスである。 GBDTの予測をよりよく理解し、これらのモデルを全般的に改善するために、ディープラーニングモデル用に設計された近年、人気のある影響推定手法をGBDTに適用する。 具体的には、representer-pointメソッドとtracinをそれぞれ適用し、新しいメソッドであるtrexとboostinを示します。ソースコードはhttps://github.com/jjbrophy47/tree_influenceで利用可能です。 提案手法をリーフインフルエンスや他のベースラインと比較し,4つのGBDT実装を持つ22の実世界のデータセットに対する5つの異なる評価尺度を用いた。 これらの実験により、GBDTモデルにおける様々なアプローチがどのように影響するかを概観する。 BoostIn は GBDT の効率的な影響推定手法であり,既存の作業よりも 4 桁高速に動作可能である。 また,本評価では,リトレーニングの金本位制的アプローチは,最も影響力のあるトレーニング例を一貫して特定するが,目標予測の最も影響力のあるトレーニング例を見出すには不十分であることが示唆された。

Influence estimation analyzes how changes to the training data can lead to different model predictions; this analysis can help us better understand these predictions, the models making those predictions, and the data sets they're trained on. However, most influence-estimation techniques are designed for deep learning models with continuous parameters. Gradient-boosted decision trees (GBDTs) are a powerful and widely-used class of models; however, these models are black boxes with opaque decision-making processes. In the pursuit of better understanding GBDT predictions and generally improving these models, we adapt recent and popular influence-estimation methods designed for deep learning models to GBDTs. Specifically, we adapt representer-point methods and TracIn, denoting our new methods TREX and BoostIn, respectively; source code is available at https://github.com/jjbrophy47/tree_influence. We compare these methods to LeafInfluence and other baselines using 5 different evaluation measures on 22 real-world data sets with 4 popular GBDT implementations. These experiments give us a comprehensive overview of how different approaches to influence estimation work in GBDT models. We find BoostIn is an efficient influence-estimation method for GBDTs that performs equally well or better than existing work while being four orders of magnitude faster. Our evaluation also suggests the gold-standard approach of leave-one-out~(LOO) retraining consistently identifies the single-most influential training example but performs poorly at finding the most influential set of training examples for a given target prediction.
翻訳日:2022-05-04 07:52:31 公開日:2022-04-30
# (参考訳) 協調作業におけるプライバシのためのニューラルネットワーク重みの複合学習

Combined Learning of Neural Network Weights for Privacy in Collaborative Tasks ( http://arxiv.org/abs/2205.00361v1 )

ライセンス: CC BY 4.0
Aline R. Ioste, Alan M. Durham, Marcelo Finger(参考訳) 本稿では,ニューラルネットワーク重みの複合学習であるcolnを紹介し,センシティブなデータ上に機械学習モデルを安全に結合する新しい手法を提案する。 CoLNでは、ローカルホストは同じニューラルネットワークアーキテクチャとベースパラメータを使用して、ローカルに利用可能なデータのみを使用してモデルをトレーニングする。 ローカルにトレーニングされたモデルがコンビネーションエージェントに送信され、コンビネーションモデルが生成される。 新しいモデルのパラメータをホストに送信し、新しいトレーニングイテレーションの初期パラメータとして使用することができる。 CoLNは同じ種類の複数の分散ニューラルネットワークを組み合わせることができるが、単一のニューラルネットワークに制限されない。 本稿では,この組み合わせアルゴリズムと,フィードフォワード,畳み込み,繰り返しニューラルネットワークアーキテクチャを用いた実験を詳述し,CLN結合モデルが局所データセットの組み合わせを用いて訓練された仮説的理想集中モデルの性能を近似することを示す。 colnは、プライバシ問題はデータ共有を妨げるが、ローカルデータの制限がより大きなデータセットに由来する情報を要求する医療分野において必要な、安全な共同研究に貢献することができる。

We introduce CoLN, Combined Learning of Neural network weights, a novel method to securely combine Machine Learning models over sensitive data with no sharing of data. With CoLN, local hosts use the same Neural Network architecture and base parameters to train a model using only locally available data. Locally trained models are then submitted to a combining agent, which produces a combined model. The new model's parameters can be sent back to hosts, and can then be used as initial parameters for a new training iteration. CoLN is capable of combining several distributed neural networks of the same kind but is not restricted to any single neural architecture. In this paper we detail the combination algorithm and present experiments with feed-forward, convolutional, and recurrent Neural Network architectures, showing that the CoLN combined model approximates the performance of a hypothetical ideal centralized model, trained using the combination of the local datasets. CoLN can contribute to secure collaborative research, as required in the medical area, where privacy issues preclude data sharing, but where the limitations of local data demand information derived from larger datasets.
翻訳日:2022-05-04 07:51:15 公開日:2022-04-30
# (参考訳) 視覚空間推論

Visual Spatial Reasoning ( http://arxiv.org/abs/2205.00363v1 )

ライセンス: CC BY 4.0
Fangyu Liu, Guy Emerson, Nigel Collier(参考訳) 空間的関係は人間の認知の基本であり、身体的環境について理解し、コミュニケーションする上で最も基本的な知識である。 本稿では,現在の視覚・言語モデル(VLM)は空間関係を正確に理解できるのか? 本稿では,自然画像対において65種類の空間関係(例えば,前,前,前等)を認識するvlmsの能力を調査するための,人間ラベル付きデータセットを用いた新しいベンチマークタスクであるvisual spatial reasoning (vsr)を提案する。 具体的には、キャプションと画像が与えられた場合、モデルがバイナリ分類を行い、キャプションが画像に表示される2つのオブジェクトの空間的関係を正確に記述しているかどうかを決定する必要がある。 一見単純で単純に見えるが、このタスクは人間とモデルのパフォーマンスの大きなギャップを示している(VSRタスクの人間の天井は95%以上で、モデルは70%程度しか達成できない)。 概念と関係の両方を細かく分類し制御することで、VSRベンチマークは興味深い探索分析を行い、VLMの障害事例とその原因を特定できます。 VLMの相互関係性能はトレーニング例の数とはほとんど相関がなく,テストモデルでは一般に物体の向きに関する関係を認識することができない。 また、VLMは目に見えない概念に対するゼロショットの一般化が不十分である。 データセットとコードはgithub.com/cambridgeltl/visual-spatial-reasoningでリリースされる。

Spatial relations are fundamental to human cognition and are the most basic knowledge for us to understand and communicate about our physical surroundings. In this paper, we ask the critical question: Are current vision-and-language models (VLMs) able to correctly understand spatial relations? To answer this question, we propose Visual Spatial Reasoning (VSR), a novel benchmark task with human labelled dataset for investigating VLMs' capabilities in recognising 65 types of spatial relationships (e.g., under, in front of, facing etc.) in natural text-image pairs. Specifically, given a caption and an image, the model needs to perform binary classification and decide if the caption accurately describes the spatial relationships of two objects presented in the image. While being seemingly simple and straightforward, the task shows a large gap between human and model performance (human ceiling on the VSR task is above 95% and models only achieve around 70%). With fine-grained categorisation and control on both concepts and relations, our VSR benchmark enables us to perform interesting probing analysis to pinpoint VLMs' failure cases and the reasons behind. We observe that VLMs' by-relation performances have little correlation with the number of training examples and the tested models are in general incapable of recognising relations that concern orientations of objects. Also, VLMs have poor zero-shot generalisation toward unseen concepts. The dataset and code are released at github.com/cambridgeltl/visual-spatial-reasoning.
翻訳日:2022-05-04 07:34:21 公開日:2022-04-30
# (参考訳) ハフラインと線形反復クラスタリングを用いた分数植生被覆推定

Fractional Vegetation Cover Estimation using Hough Lines and Linear Iterative Clustering ( http://arxiv.org/abs/2205.00366v1 )

ライセンス: CC BY 4.0
Venkat Margapuri, Trevor Rife, Chaney Courtney, Brandon Schlautman, Kai Zhao, Mitchell Neilsen(参考訳) 国内の植物育種プログラムの一般的な要件は、互いに利益を享受できるように、近距離で異なる種の植物を栽培することである。 しかし、同伴植物の決定には、植物の成長を綿密に監視する必要がある。 眼の監視技術は、しばしば手間がかかり、エラーが生じる。 画像処理技術の可用性は、植物の成長モニタリングの課題に対処し、植物科学者が植物を識別するのに役立つロバストなソリューションを提供するために使用できる。 本論文では,ある地域に存在する植生被覆量を決定する画像処理アルゴリズムである分数植生被覆法を提案する。 提案手法は,植生被覆推定のための信頼度の高いダウベンミア法から着想を得て拡張する。 近距離で生育する植物種の複数の列を含む画像から、既知の大きさの多セグメントpvcフレームによって分離された植生被覆を推定する。 提案アルゴリズムは,PVCフレームの各セグメント内の植生被覆量を推定するために,Hough TransformとSimple Linear Iterative Clustering (SLIC)を適用した。 定期的に撮影された画像上で繰り返される解析は、植物の成長に重要な洞察を与える。 提案アルゴリズムは,植生被覆推定に使用される信頼度の高い2つのアプリケーションであるSamplePoint と Canopeo と比較した。 比較の結果,サンプルポイントとカノペオの両者の99%の類似性を示し,分数植生被覆推定アルゴリズムの精度と実現可能性を示した。

A common requirement of plant breeding programs across the country is companion planting -- growing different species of plants in close proximity so they can mutually benefit each other. However, the determination of companion plants requires meticulous monitoring of plant growth. The technique of ocular monitoring is often laborious and error prone. The availability of image processing techniques can be used to address the challenge of plant growth monitoring and provide robust solutions that assist plant scientists to identify companion plants. This paper presents a new image processing algorithm to determine the amount of vegetation cover present in a given area, called fractional vegetation cover. The proposed technique draws inspiration from the trusted Daubenmire method for vegetation cover estimation and expands upon it. Briefly, the idea is to estimate vegetation cover from images containing multiple rows of plant species growing in close proximity separated by a multi-segment PVC frame of known size. The proposed algorithm applies a Hough Transform and Simple Linear Iterative Clustering (SLIC) to estimate the amount of vegetation cover within each segment of the PVC frame. The analysis when repeated over images captured at regular intervals of time provides crucial insights into plant growth. As a means of comparison, the proposed algorithm is compared with SamplePoint and Canopeo, two trusted applications used for vegetation cover estimation. The comparison shows a 99% similarity with both SamplePoint and Canopeo demonstrating the accuracy and feasibility of the algorithm for fractional vegetation cover estimation.
翻訳日:2022-05-04 07:16:53 公開日:2022-04-30
# StorSeismic: 地震処理のためのディープラーニングの新しいパラダイム

StorSeismic: A new paradigm in deep learning for seismic processing ( http://arxiv.org/abs/2205.00222v1 )

ライセンス: Link先を確認
Randy Harsuko and Tariq Alkhalifah(参考訳) 地震データに関する機械学習タスクは、同じ特徴(幾何学的)を利用していても、逐次および個別に訓練されることが多い。 本稿では,StorSeismicを,ニューラルネットワークの事前学習と微調整処理からなる地震データ処理のフレームワークとして紹介する。 具体的には,ニューラルネットワークをプリプロセッシングモデルとして利用し,ダウンストリームタスクに特定のデータセットの地震データ特徴を格納する。 事前訓練後、得られたモデルを微調整手順で後で利用し、限られた追加訓練を用いてタスクを実行する。 自然言語処理(NLP)や近年の視覚タスクでよく使用されるBERT(Bidirectional Encoder Representations from Transformer)は、Transformerモデルの形式であり、このフレームワークに最適なプラットフォームを提供する。 BERTのアテンションメカニズムは、ここでショットコレクション内の一連のトレースに適用され、地震データの重要な幾何学的特徴を捉え、保存することができる。 我々は,フィールドデータと合成生成データについて,自己教師付きステップで事前学習する。 そして,ラベル付き合成データを用いて事前学習したネットワークを教師付き方式で微調整し,デノナイズ,速度推定,最初の到着ピック,NMOなどの各種耐震処理を行う。 最後に、微調整モデルを用いて、フィールドデータに対する良好な推測結果を得る。

Machine learned tasks on seismic data are often trained sequentially and separately, even though they utilize the same features (i.e. geometrical) of the data. We present StorSeismic, as a framework for seismic data processing, which consists of neural network pre-training and fine-tuning procedures. We, specifically, utilize a neural network as a preprocessing model to store seismic data features of a particular dataset for any downstream tasks. After pre-training, the resulting model can be utilized later, through a fine-tuning procedure, to perform tasks using limited additional training. Used often in Natural Language Processing (NLP) and lately in vision tasks, BERT (Bidirectional Encoder Representations from Transformer), a form of a Transformer model, provides an optimal platform for this framework. The attention mechanism of BERT, applied here on a sequence of traces within the shot gather, is able to capture and store key geometrical features of the seismic data. We pre-train StorSeismic on field data, along with synthetically generated ones, in the self-supervised step. Then, we use the labeled synthetic data to fine-tune the pre-trained network in a supervised fashion to perform various seismic processing tasks, like denoising, velocity estimation, first arrival picking, and NMO. Finally, the fine-tuned model is used to obtain satisfactory inference results on the field data.
翻訳日:2022-05-03 16:32:28 公開日:2022-04-30
# 立ち上がることを学ぶ

Learning to Get Up ( http://arxiv.org/abs/2205.00307v1 )

ライセンス: Link先を確認
Tianxin Tao, Matthew Wilson, Ruiyu Gou, Michiel van de Panne(参考訳) 任意の転倒状態から立ち上がることは、基本的な人間のスキルです。 このスキルを学習するための既存の方法は、人間の持ち上げ戦略と似ていない、あるいは記録された人間の持ち上げ動作に基づいて、非常にダイナミックで不規則な持ち上げ動作を生成することが多い。 本稿では,モーションキャプチャーデータに関連性を持たず,強化学習を用いた段階的なアプローチを提案する。 この手法はまず,解モードの発見を容易にする強力なキャラクタモデルを利用する。 次に、第2段階は、制御ポリシーを徐々に弱いバージョンのキャラクターに適応させることを学ぶ。 最後に、第3段階はより弱い昇降運動をはるかに遅い速度で再現できる制御ポリシーを学ぶ。 提案手法は,複数回にまたがって多種多様なゲーミング戦略を発見し,様々な速度で実行可能であることを示す。 結果は、通常、すべての初期状態から見られる回復運動に共通する最終的なスタンドアップ戦略を使用するポリシーを生成する。 しかし、我々はまた、プロネとスーパインの初期低下状態に対して異なる戦略が見られるポリシーを見つける。 学習したゲットアップ制御戦略は、多くの場合、静的な安定性、すなわち、ゲットアップ動作中にさまざまなポイントで停止することができる。 さらに, 脚と腕をキャストに有するなど, 新たな制約付きシナリオで本手法をテストした。

Getting up from an arbitrary fallen state is a basic human skill. Existing methods for learning this skill often generate highly dynamic and erratic get-up motions, which do not resemble human get-up strategies, or are based on tracking recorded human get-up motions. In this paper, we present a staged approach using reinforcement learning, without recourse to motion capture data. The method first takes advantage of a strong character model, which facilitates the discovery of solution modes. A second stage then learns to adapt the control policy to work with progressively weaker versions of the character. Finally, a third stage learns control policies that can reproduce the weaker get-up motions at much slower speeds. We show that across multiple runs, the method can discover a diverse variety of get-up strategies, and execute them at a variety of speeds. The results usually produce policies that use a final stand-up strategy that is common to the recovery motions seen from all initial states. However, we also find policies for which different strategies are seen for prone and supine initial fallen states. The learned get-up control strategies often have significant static stability, i.e., they can be paused at a variety of points during the get-up motion. We further test our method on novel constrained scenarios, such as having a leg and an arm in a cast.
翻訳日:2022-05-03 16:32:04 公開日:2022-04-30
# FairSR: 優先グラフ埋め込みを用いたマルチタスク学習によるフェアネス対応シーケンスレコメンデーション

FairSR: Fairness-aware Sequential Recommendation through Multi-Task Learning with Preference Graph Embeddings ( http://arxiv.org/abs/2205.00313v1 )

ライセンス: Link先を確認
Cheng-Te Li, Cheng Hsu, Yang Zhang(参考訳) 逐次レコメンデーション(SR)は、ユーザとイテムの相互作用の時間的ダイナミクスから学び、次のものを予測する。 フェアネス・アウェア・レコメンデーションは、ユーザの好みの学習において様々なアルゴリズムバイアスを緩和する。 本稿では,SRとアルゴリズムフェアネスの結婚をめざす。 本稿では,異なる属性グループを持つユーザによる推奨項目の適切なインタラクションを推定するために,インタラクションフェアネスという新たなメトリックが定義される,新しいフェアネス対応のシーケンシャルレコメンデーションタスクを提案する。 本稿では,2つの部分からなるマルチタスク学習ベースのディープエンド・ツー・エンドモデルであるfairsrを提案する。 1つは、SRのユーザとそのアイテムシーケンスからパーソナライズされたシーケンシャルな特徴を学習し、抽出することである。 もう1つはFPGE(Fairness-Aware preference graph embedded)である。 FPGEの目的は、ユーザの属性とアイテムの属性の知識とそれらの相関をエンティティ表現に取り入れ、アイテム上のユーザ属性の不公平な分布を緩和することである。 3つのデータセットで実施された大規模な実験は、FairSRが推奨性能で最先端のSRモデルより優れていることを示している。 さらに、FairSRによる推奨項目は、有望な相互作用の公平性を示す。

Sequential recommendation (SR) learns from the temporal dynamics of user-item interactions to predict the next ones. Fairness-aware recommendation mitigates a variety of algorithmic biases in the learning of user preferences. This paper aims at bringing a marriage between SR and algorithmic fairness. We propose a novel fairness-aware sequential recommendation task, in which a new metric, interaction fairness, is defined to estimate how recommended items are fairly interacted by users with different protected attribute groups. We propose a multi-task learning based deep end-to-end model, FairSR, which consists of two parts. One is to learn and distill personalized sequential features from the given user and her item sequence for SR. The other is fairness-aware preference graph embedding (FPGE). The aim of FPGE is two-fold: incorporating the knowledge of users' and items' attributes and their correlation into entity representations, and alleviating the unfair distributions of user attributes on items. Extensive experiments conducted on three datasets show FairSR can outperform state-of-the-art SR models in recommendation performance. In addition, the recommended items by FairSR also exhibit promising interaction fairness.
翻訳日:2022-05-03 16:31:42 公開日:2022-04-30
# SciEv:科学ニュースのための科学的エビデンス論文を見つける

SciEv: Finding Scientific Evidence Papers for Scientific News ( http://arxiv.org/abs/2205.00126v1 )

ライセンス: Link先を確認
Md Reshad Ul Hoque, Jiang Li, Jian Wu(参考訳) 過去10年間、科学のブレークスルーや発見を報告する多くの科学ニュースメディアが登場し、科学とテクノロジーが一般に普及した。 しかし、すべての科学記事が、オリジナルの科学論文のような適切な情報源を引用しているわけではない。 科学ニュース記事の一部は、元の論文で主張された事実から逸脱した誤解、誇張、または歪んだ情報を含んでいる。 適切な引用を手動で識別するのは手間とコストがかかる。 したがって、特定の科学的ニュースの証拠として使用できる、関連する科学論文を自動的に検索する必要がある。 我々はSciEvと呼ばれる科学論文を科学ニュース記事から検索するシステムを提案する。 システムは2段階の問合せパラダイムを採用し、第1段階は候補論文を検索し、第2段階はそれらを再ランク付けする。 SciEvの重要な特徴は、ドメイン知識エンティティ(DKEs)を使用して、最初の段階で候補を見つけることである。 更新段階では,新聞記事や候補者論文の異なる文書表現について検討する。 本システムを評価するために,sciencealertおよび類似のwebサイトから100組の手動キュレーション(ニュース,ペーパー)ペアからなるパイロットデータセットをコンパイルした。 私たちの知る限りでは、この種のデータセットはこれが初めてです。 本実験は, トランスモデルがDKE抽出に最適であることを示す。 TFIDFベースのテキスト表現を使用すると、P@1=50%、P@5=71%、P@10=74%が得られる。 トランスフォーマーベースのリランカは同等のパフォーマンスを実現するが、コストは2倍である。 より多くのデータを収集し、ユーザー体験のためにシステムをテストします。

In the past decade, many scientific news media that report scientific breakthroughs and discoveries emerged, bringing science and technology closer to the general public. However, not all scientific news article cites proper sources, such as original scientific papers. A portion of scientific news articles contain misinterpreted, exaggerated, or distorted information that deviates from facts asserted in the original papers. Manually identifying proper citations is laborious and costly. Therefore, it is necessary to automatically search for pertinent scientific papers that could be used as evidence for a given piece of scientific news. We propose a system called SciEv that searches for scientific evidence papers given a scientific news article. The system employs a 2-stage query paradigm with the first stage retrieving candidate papers and the second stage reranking them. The key feature of SciEv is it uses domain knowledge entities (DKEs) to find candidates in the first stage, which proved to be more effective than regular keyphrases. In the reranking stage, we explore different document representations for news articles and candidate papers. To evaluate our system, we compiled a pilot dataset consisting of 100 manually curated (news,paper) pairs from ScienceAlert and similar websites. To our best knowledge, this is the first dataset of this kind. Our experiments indicate that the transformer model performs the best for DKE extraction. The system achieves a P@1=50%, P@5=71%, and P@10=74% when it uses a TFIDF-based text representation. The transformer-based re-ranker achieves a comparable performance but costs twice as much time. We will collect more data and test the system for user experience.
翻訳日:2022-05-03 16:09:31 公開日:2022-04-30
# 人工知能と医学:文献レビュー

Artificial Intelligence and Medicine: A literature review ( http://arxiv.org/abs/2205.00322v1 )

ライセンス: Link先を確認
Chottiwatt Jittprasong (Biomedical Robotics Laboratory, Department of Biomedical Engineering, City University of Hong Kong)(参考訳) 今日のあらゆる産業において、人工知能は機械が人間を助ける最も効果的な方法の1つである。 誕生以来、世界中の多くの研究者が医学における人工知能の応用を開拓してきた。 人工知能は21世紀の概念のようだが、アラン・チューリングは1940年代に最初の基礎概念を開拓した。 医学における人工知能は、研究者が継続的に探究している様々な応用がある。 コンピューターと人的資源の大幅な増加は、21世紀には急速に進歩し、これからも何年も続くだろう。 この文献のレビューは、医学における人工知能の新たな分野とその発展のレベルを強調します。

In practically every industry today, artificial intelligence is one of the most effective ways for machines to assist humans. Since its inception, a large number of researchers throughout the globe have been pioneering the application of artificial intelligence in medicine. Although artificial intelligence may seem to be a 21st-century concept, Alan Turing pioneered the first foundation concept in the 1940s. Artificial intelligence in medicine has a huge variety of applications that researchers are continually exploring. The tremendous increase in computer and human resources has hastened progress in the 21st century, and it will continue to do so for many years to come. This review of the literature will highlight the emerging field of artificial intelligence in medicine and its current level of development.
翻訳日:2022-05-03 16:09:08 公開日:2022-04-30
# ビデオ検索における否定の理解

Learn to Understand Negation in Video Retrieval ( http://arxiv.org/abs/2205.00132v1 )

ライセンス: Link先を確認
Ziyue Wang, Aozhu Chen, Fan Hu and Xirong Li(参考訳) 否定(negation)は、人間が望まないことを表現できる共通の言語スキルである。 当然、ビデオ検索は、例えば床に座って犬と遊んでいない子供のショットを見つけるなど、否定を伴う自然言語クエリをサポートするだろう。 しかし、最先端のディープラーニングに基づくビデオ検索モデルは、通常、否定的な記述を持たないMSR-VTTやVATEXのようなビデオ記述データセットで訓練されるため、そのような能力に欠ける。 検索結果は基本的に、サンプルクエリのネゲーターを無視し、犬と遊ぶ子供たちのビデオを誤って返します。 本稿では,映像検索における否定を理解するための学習に関する最初の研究を行い,次のような貢献を行う。 まず、MSR-VTTとVATEXの2つの既存のデータセットを再取得することにより、否定を伴うビデオ検索をテストするための新しい評価プロトコルを提案する。 第2に,否定認識ビデオ検索モデルを学習ベースで学習する手法を提案する。 鍵となるアイデアは、まず特定のトレーニングビデオのソフトな否定的なキャプションを構築し、元のキャプションを部分的に否定し、それから三重項の双方向に制約された損失を計算することである。 そして、この補助損失を標準検索損失に重み付けする。 提案手法によるCLIP(Contrastive Language- Image Pre-Training)モデルの再学習により,否定によるクエリ処理能力が向上した。 さらに、オリジナルのベンチマークのパフォーマンスも改善されている。 データとソースコードがリリースされます。

Negation is a common linguistic skill that allows human to express what we do NOT want. Naturally, one might expect video retrieval to support natural-language queries with negation, e.g., finding shots of kids sitting on the floor and not playing with the dog. However, the state-of-the-art deep learning based video retrieval models lack such ability, as they are typically trained on video description datasets such as MSR-VTT and VATEX that lack negated descriptions. Their retrieved results basically ignore the negator in the sample query, incorrectly returning videos showing kids playing with the dog. In this paper, we present the first study on learning to understand negation in video retrieval and make contributions as follows. First, by re-purposing two existing datasets, i.e. MSR-VTT and VATEX, we propose a new evaluation protocol for testing video retrieval with negation. Second, we propose a learning based method for training a negation-aware video retrieval model. The key idea is to first construct a soft negative caption for a specific training video by partially negating its original caption, and then compute a bidirectionally constrained loss on the triplet. This auxiliary loss is then weightedly added to a standard retrieval loss. Experiments on the re-purposed benchmarks show that re-training the CLIP (Contrastive Language-Image Pre-Training) model by the proposed method clearly improves its ability to handle queries with negation. In addition, its performance on the original benchmarks is also improved. Data and source code will be released.
翻訳日:2022-05-03 16:05:44 公開日:2022-04-30
# スケーラブル5,6-QubitGroverの量子探索アルゴリズム

A Scalable 5,6-Qubit Grover's Quantum Search Algorithm ( http://arxiv.org/abs/2205.00117v1 )

ライセンス: Link先を確認
Dinesh Reddy Vemula, Debanjan Konar, Sudeep Satheesan, Sri Mounica Kalidasu, and Attila Cangi(参考訳) 最近の研究は、古典的ハードウェア上の量子コンピュータシミュレーションの開発に繋がる高度な量子コンピューティング技術の約束によって進められている。 グローバーの量子探索アルゴリズムは量子コンピューティングのよく知られた応用の1つであり、量子コンピュータがデータベース検索(配列を並べ替えた配列)を実行し、時間の観点から古典的アルゴリズムを2乗的に上回っている。 オラクルモデル(ブラックボックス)のデータベース検索が制限されていることから、研究者はGroverの回路を2から4キュービットで様々なプラットフォームで実装した。 しかし、大きな探索空間はまだ検討されていない。 本稿では,5量子ビットおよび6量子ビットの量子回路を用いて,スケーラブルな量子グローバー探索アルゴリズムを導入し,実装する。 我々の実装では、正しい実体を見つける確率は高い90年代にある。 提案した5-qubitと6-qubitの回路の精度を3-qubitと4-qubitの最先端実装と比較した。 さらに、提案したサブルーチンを用いた量子回路の再利用性も、将来量子アルゴリズムの大規模実装の機会として示される。

Recent studies have been spurred on by the promise of advanced quantum computing technology, which has led to the development of quantum computer simulations on classical hardware. Grover's quantum search algorithm is one of the well-known applications of quantum computing, enabling quantum computers to perform a database search (unsorted array) and quadratically outperform their classical counterparts in terms of time. Given the restricted access to database search for an oracle model (black-box), researchers have demonstrated various implementations of Grover's circuit for two to four qubits on various platforms. However, larger search spaces have not yet been explored. In this paper, a scalable Quantum Grover Search algorithm is introduced and implemented using 5-qubit and 6-qubit quantum circuits, along with a design pattern for ease of building an Oracle for a higher order of qubits. For our implementation, the probability of finding the correct entity is in the high nineties. The accuracy of the proposed 5-qubit and 6-qubit circuits is benchmarked against the state-of-the-art implementations for 3-qubit and 4-qubit. Furthermore, the reusability of the proposed quantum circuits using subroutines is also illustrated by the opportunity for large-scale implementation of quantum algorithms in the future.
翻訳日:2022-05-03 16:03:15 公開日:2022-04-30
# 人間とAIのインタラクションにおける信頼--モデル、尺度、方法の抽出

Trust in Human-AI Interaction: Scoping Out Models, Measures, and Methods ( http://arxiv.org/abs/2205.00189v1 )

ライセンス: Link先を確認
Takane Ueno, Yuto Sawa, Yeongdae Kim, Jacqueline Urakami, Hiroki Oura, Katie Seaborn(参考訳) AIに注入されたシステムとのインタラクションにおいて、信頼が重要な要因として浮上している。 しかし、信頼のモデルや、ロボット、バーチャルキャラクタ、スマート車、意思決定支援など、どのようなシステムで使われているのかについては、ほとんど分かっていない。 さらに、AIの信頼を測定するための標準的なアプローチはまだ知られていない。 このスコーピングレビューは、モデル、測度、方法の観点から、人間とAIの相互作用(HAII)に対する信頼の状況を示す。 信頼はHAIIの文脈における重要かつ多面的な研究のトピックであることを示している。 しかし、ほとんどの作品は理論上は未発表であり、一般的に確立された信頼モデルやメソッド、特にozのウィザードの詳細は使用されていない。 我々は,体系的レビュー作業のための目標と,その強みを結合し,現在の文献の弱さに対処するための研究課題を提案する。

Trust has emerged as a key factor in people's interactions with AI-infused systems. Yet, little is known about what models of trust have been used and for what systems: robots, virtual characters, smart vehicles, decision aids, or others. Moreover, there is yet no known standard approach to measuring trust in AI. This scoping review maps out the state of affairs on trust in human-AI interaction (HAII) from the perspectives of models, measures, and methods. Findings suggest that trust is an important and multi-faceted topic of study within HAII contexts. However, most work is under-theorized and under-reported, generally not using established trust models and missing details about methods, especially Wizard of Oz. We offer several targets for systematic review work as well as a research agenda for combining the strengths and addressing the weaknesses of the current literature.
翻訳日:2022-05-03 16:02:56 公開日:2022-04-30
# 高次元データとヘテロケシュタリティを用いた過度同定制限の検証

Testing Overidentifying Restrictions with High-Dimensional Data and Heteroskedasticity ( http://arxiv.org/abs/2205.00171v1 )

ライセンス: Link先を確認
Qingliang Fan, Zijian Guo, Ziwei Mei(参考訳) 本稿では,高次元データを用いた過剰識別制約(Qテスト)を提案する。 このテストは、高次元パラメータの二次形式の推定と推定に基づいている。 測定器数や共変量のサイズがサンプルサイズよりも大きい場合でも, ヘテロスクレースティック性下では所望の漸近的サイズと電力特性を有することが示されている。 シミュレーションの結果、既存の代替テスト(Chao et al., 2014; Kolesar, 2018; Carrasco and Doukali, 2021)と比較して、これらのテストが実現可能かどうかのシナリオ下で、新しいテストが好適に動作することが示された。 貿易・経済成長ネクサスの実証的な例は、提案試験の有用性を示している。

This paper proposes a new test of overidentifying restrictions (called the Q test) with high-dimensional data. This test is based on estimation and inference for a quadratic form of high-dimensional parameters. It is shown to have the desired asymptotic size and power properties under heteroskedasticity, even if the number of instruments and covariates is larger than the sample size. Simulation results show that the new test performs favorably compared to existing alternative tests (Chao et al., 2014; Kolesar, 2018; Carrasco and Doukali, 2021) under the scenarios when those tests are feasible or not. An empirical example of the trade and economic growth nexus manifests the usefulness of the proposed test.
翻訳日:2022-05-03 16:01:23 公開日:2022-04-30
# コロイド粒子のブラウン動力学シミュレーションによる効率的なSDEの学習

Learning Effective SDEs from Brownian Dynamics Simulations of Colloidal Particles ( http://arxiv.org/abs/2205.00286v1 )

ライセンス: Link先を確認
Nikolaos Evangelou, Felix Dietrich, Juan M. Bello-Rivas, Alex Yeh, Rachel Stein, Michael A. Bevan, Ioannis G. Kevekidis(参考訳) ブラウン力学シミュレーションから得られたデータを用いて,電場媒介コロイド結晶化のための還元,データ駆動,パラメータ依存の有効確率微分方程式(esde)を構築した。 我々はDiffusion Maps(多様体学習アルゴリズム)を用いて、有用な潜在可観測物の集合を特定する。 この潜在空間では、数値確率積分器にインスパイアされたディープラーニングアーキテクチャを用いてeSDEを特定し、従来のクラマース・モヤル展開推定と比較する。 得られた変数と学習したダイナミクスがブラウン力学シミュレーションの物理を正確にエンコードしていることを示す。 さらに, 縮小モデルが対応する実験データのダイナミクスを捉えていることを示す。 次元縮小/縮小モデル同定アプローチは, 粒子系の動力学実験/模型の幅広いクラスに容易に移植できる。

We construct a reduced, data-driven, parameter dependent effective Stochastic Differential Equation (eSDE) for electric-field mediated colloidal crystallization using data obtained from Brownian Dynamics Simulations. We use Diffusion Maps (a manifold learning algorithm) to identify a set of useful latent observables. In this latent space we identify an eSDE using a deep learning architecture inspired by numerical stochastic integrators and compare it with the traditional Kramers-Moyal expansion estimation. We show that the obtained variables and the learned dynamics accurately encode the physics of the Brownian Dynamic Simulations. We further illustrate that our reduced model captures the dynamics of corresponding experimental data. Our dimension reduction/reduced model identification approach can be easily ported to a broad class of particle systems dynamics experiments/models.
翻訳日:2022-05-03 16:01:07 公開日:2022-04-30
# 符号付き累積分布変換空間における終端信号分類

End-to-End Signal Classification in Signed Cumulative Distribution Transform Space ( http://arxiv.org/abs/2205.00348v1 )

ライセンス: Link先を確認
Abu Hasnat Mohammad Rubaiyat, Shiying Li, Xuwang Yin, Mohammad Shifat E Rabbi, Yan Zhuang, Gustavo K. Rohde(参考訳) 本稿では,符号付き累積分布変換(SCDT)を用いたエンドツーエンド信号分類手法を提案する。 分類問題を定義するためにトランスポート型生成モデルを採用する。 次に、SCDTの数学的特性を利用して、変換領域の問題をより容易に表現し、SCDT領域の局所部分空間(NLS)探索アルゴリズムを用いて未知サンプルのクラスを解く。 実験により,提案手法はデータ効率が高く,分布外サンプルに頑健であり,深層学習のエンドツーエンドの分類法に関して計算複雑性の点で競争力があることがわかった。 Python言語で提案されたメソッドの実装は、PyTransKit(https://github.com/rohdelab/PyTransKit)の一部として統合されている。

This paper presents a new end-to-end signal classification method using the signed cumulative distribution transform (SCDT). We adopt a transport-based generative model to define the classification problem. We then make use of mathematical properties of the SCDT to render the problem easier in transform domain, and solve for the class of an unknown sample using a nearest local subspace (NLS) search algorithm in SCDT domain. Experiments show that the proposed method provides high accuracy classification results while being data efficient, robust to out-of-distribution samples, and competitive in terms of computational complexity with respect to the deep learning end-to-end classification methods. The implementation of the proposed method in Python language is integrated as a part of the software package PyTransKit (https://github.com/rohdelab/PyTransKit).
翻訳日:2022-05-03 16:00:55 公開日:2022-04-30
# 教育ニーズを満たすプロセス指向・モジュラー・多用途質問生成に向けて

Towards Process-Oriented, Modular, and Versatile Question Generation that Meets Educational Needs ( http://arxiv.org/abs/2205.00355v1 )

ライセンス: Link先を確認
Xu Wang, Simin Fan, Jessica Houghton, Lu Wang(参考訳) NLPを用いた自動質問生成(QG)技術は、教育者の時間を節約し、学生の学習に利益をもたらす大きな教育的可能性をもたらす。 しかし,これまでqgシステムは教室で広く採用されていない。 本研究の目的は,教官が質問をどのように構築するかを理解し,基礎となるnlpモデルを強化するためにタッチポイントを特定することで,教育目的のための自動qg手法のユーザビリティを向上させる方法を検討することである。 7つの大学にまたがる11人のインストラクターによる詳細な研究を行い,質問作成時の思考過程とニーズを要約した。 インストラクターは疑問設計を支援するためにNLPシステムを使うことに大きな関心を示しているが、実際にはそのようなツールを使用していない。 彼らは、ドメイン知識から学生の誤解まで、様々な情報ソースを利用しており、それらは今日のQGシステムから欠落している。 インストラクタ制御と説明可能性を重視した効果的な人間-nlp協調qgシステムの構築は,実世界導入に不可欠である。 我々はQGシステムにプロセス指向のサポートを提供し、モジュール設計を使用し、多様な入力源を扱うよう求めています。

NLP-powered automatic question generation (QG) techniques carry great pedagogical potential of saving educators' time and benefiting student learning. Yet, QG systems have not been widely adopted in classrooms to date. In this work, we aim to pinpoint key impediments and investigate how to improve the usability of automatic QG techniques for educational purposes by understanding how instructors construct questions and identifying touch points to enhance the underlying NLP models. We perform an in-depth need finding study with 11 instructors across 7 different universities, and summarize their thought processes and needs when creating questions. While instructors show great interests in using NLP systems to support question design, none of them has used such tools in practice. They resort to multiple sources of information, ranging from domain knowledge to students' misconceptions, all of which missing from today's QG systems. We argue that building effective human-NLP collaborative QG systems that emphasize instructor control and explainability is imperative for real-world adoption. We call for QG systems to provide process-oriented support, use modular design, and handle diverse sources of input.
翻訳日:2022-05-03 15:36:31 公開日:2022-04-30
# 弾性重み強化を用いたDNN分類器の動作適応

Operational Adaptation of DNN Classifiers using Elastic Weight Consolidation ( http://arxiv.org/abs/2205.00147v1 )

ライセンス: Link先を確認
Abanoub Ghobrial, Xuan Zheng, Darryl Hond, Hamid Asgari, Kerstin Eder(参考訳) 自律システム(AS)は、しばしばディープニューラルネットワーク(DNN)分類器を使用して、複雑な、高次元、非線形、動的に変化する環境で動作できるようにする。 これらの環境の複雑さのため、dnn分類器は、開発中に特定されなかった運用環境で新しいタスクを経験することによる誤分類を出力できる。 システムを運用から取り除き、新しい特定タスクを含むように再訓練することは、そのような自律的なシステムの数が増えるにつれて経済的に実現不可能になる。 さらに、このような誤分類は、ASやその環境における他の運用者に対する経済的損失や安全上の脅威を引き起こす可能性がある。 本稿では,dnn分類器がasの運用環境での新たな情報学習に知識を応用できるかどうかを,運用中に順次遭遇する限られた数の観測結果のみを用いて検証し,脅威を軽減することを提案する。 これにより、ASは新しい遭遇した情報に適応し、ASが正しい分類を行う際の信頼性を高めることができる。 しかし、以前の訓練で使用した異なる観察上のDNNの再訓練は、破滅的な忘れまたは重要なモデルドリフトを引き起こすことが知られている。 我々は,この問題を,限られた新しい観測結果から学習しながら,弾性重み統合(EWC)を用いて制御できるかどうかを検討する。 我々は、mnistデータセットのオリジナルおよびノイズバージョンを用いて、dnn分類器に既知のおよび新しい情報を表現するための実験を行う。 その結果,ewc を利用することにより,新たな情報への適応プロセスがより制御され,運用環境における新たな情報への ass の信頼性の高い適応が可能となった。

Autonomous systems (AS) often use Deep Neural Network (DNN) classifiers to allow them to operate in complex, high dimensional, non-linear, and dynamically changing environments. Due to the complexity of these environments, DNN classifiers may output misclassifications due to experiencing new tasks in their operational environments, which were not identified during development. Removing a system from operation and retraining it to include the new identified task becomes economically infeasible as the number of such autonomous systems increase. Additionally, such misclassifications may cause financial losses and safety threats to the AS or to other operators in its environment. In this paper, we propose to reduce such threats by investigating if DNN classifiers can adapt its knowledge to learn new information in the AS's operational environment, using only a limited number of observations encountered sequentially during operation. This allows the AS to adapt to new encountered information and hence increases the AS's reliability on doing correct classifications. However, retraining DNNs on different observations than used in prior training is known to cause catastrophic forgetting or significant model drift. We investigate if this problem can be controlled by using Elastic Weight Consolidation (EWC) whilst learning from limited new observations. We carry out experiments using original and noisy versions of the MNIST dataset to represent known and new information to DNN classifiers. Results show that using EWC does make the process of adaptation to new information a lot more controlled, and thus allowing for reliable adaption of ASs to new information in their operational environment.
翻訳日:2022-05-03 15:35:00 公開日:2022-04-30
# ガウス過程としての深いアンサンブル

Deep Ensemble as a Gaussian Process Approximate Posterior ( http://arxiv.org/abs/2205.00163v1 )

ライセンス: Link先を確認
Zhijie Deng, Feng Zhou, Jianfei Chen, Guoqiang Wu, Jun Zhu(参考訳) Deep Ensemble (DE)は、ディープラーニングにおける不確実性定量化のためのベイズニューラルネットワークの効果的な代替手段である。 deの不確実性は、通常、アンサンブルメンバー間の機能的不一致、例えばそれらの予測間の不一致によって伝達される。 しかし、機能的矛盾は管理不能なランダム性に起因し、特定のケースでは容易に崩壊する可能性がある。 de信頼性の不確実性を実現するために、機能的不整合を明示的に特徴付けるdeの改良を提案し、さらにトレーニングデータと特定の事前信念をw.r.t.に調整した。 具体的には,平均とともにガウス過程(gp)を定義するアンサンブルメンバによって指示される関数の経験的共分散と機能的不整合について述べる。 そして, 特定の事前不確実性が課されることにより, 機能的証拠を最大化し, gp をベイズ後方に近似させる。 このようにして、de とベイズ推論を関連付け、信頼できるベイズの不確実性を楽しむ。 さらに、トレーニングを効率的にするための戦略も提供します。 提案手法では,標準のDEよりもわずかにトレーニングコストを削減できるが,様々なシナリオにまたがるDEとその変種よりも不確実性の定量化を実現している。

Deep Ensemble (DE) is an effective alternative to Bayesian neural networks for uncertainty quantification in deep learning. The uncertainty of DE is usually conveyed by the functional inconsistency among the ensemble members, say, the disagreement among their predictions. Yet, the functional inconsistency stems from unmanageable randomness and may easily collapse in specific cases. To render the uncertainty of DE reliable, we propose a refinement of DE where the functional inconsistency is explicitly characterized, and further tuned w.r.t. the training data and certain priori beliefs. Specifically, we describe the functional inconsistency with the empirical covariance of the functions dictated by ensemble members, which, along with the mean, define a Gaussian process (GP). Then, with specific priori uncertainty imposed, we maximize functional evidence lower bound to make the GP specified by DE approximate the Bayesian posterior. In this way, we relate DE to Bayesian inference to enjoy reliable Bayesian uncertainty. Moreover, we provide strategies to make the training efficient. Our approach consumes only marginally added training cost than the standard DE, but achieves better uncertainty quantification than DE and its variants across diverse scenarios.
翻訳日:2022-05-03 15:34:34 公開日:2022-04-30
# NeuralEF: ディープニューラルネットワークによるカーネルの分解

NeuralEF: Deconstructing Kernels by Deep Neural Networks ( http://arxiv.org/abs/2205.00165v1 )

ライセンス: Link先を確認
Zhijie Deng, Jiaxin Shi, Jun Zhu(参考訳) カーネルとデータ分散によって定義される積分演算子の主固有関数を学習することは、多くの機械学習問題の中核にある。 nystr{\"o}mの公式に基づく従来の非パラメトリックなソリューションはスケーラビリティの問題に苦しむ。 最近の研究はパラメトリックなアプローチ、すなわち固有関数を近似するためにニューラルネットワークを訓練している。 しかし、既存の手法は高価な直交化ステップに依存しており、実装は困難である。 これらの問題は、固有ゲーム~\citep{gemp2020eigengame} を関数空間に一般化する新しい客観的関数を用いて解決できることを示す。 本手法を様々な教師付き・教師なし学習問題で検証し,多項式,ラジアル基底,ニューラルネットワークガウス過程,および神経接核の固有関数に対する近似精度を示す。 最後に,gauss-newton行列を近似することにより,ディープニューラルネットワークの線形ラプラス近似を現代画像分類データセットにスケールアップできることを実証する。

Learning the principal eigenfunctions of an integral operator defined by a kernel and a data distribution is at the core of many machine learning problems. Traditional nonparametric solutions based on the Nystr{\"o}m formula suffer from scalability issues. Recent work has resorted to a parametric approach, i.e., training neural networks to approximate the eigenfunctions. However, the existing method relies on an expensive orthogonalization step and is difficult to implement. We show that these problems can be fixed by using a new series of objective functions that generalizes the EigenGame~\citep{gemp2020eigengame} to function space. We test our method on a variety of supervised and unsupervised learning problems and show it provides accurate approximations to the eigenfunctions of polynomial, radial basis, neural network Gaussian process, and neural tangent kernels. Finally, we demonstrate our method can scale up linearised Laplace approximation of deep neural networks to modern image classification datasets through approximating the Gauss-Newton matrix.
翻訳日:2022-05-03 15:34:14 公開日:2022-04-30
# FEDIC:校正蒸留による非IID・長期データのフェデレーション学習

FEDIC: Federated Learning on Non-IID and Long-Tailed Data via Calibrated Distillation ( http://arxiv.org/abs/2205.00172v1 )

ライセンス: Link先を確認
Xinyi Shang, Yang Lu, Yiu-ming Cheung, Hanzi Wang(参考訳) フェデレーション学習は、さまざまな種類のデータで分散クライアント上で優れたディープラーニングモデルを生成するためのプライバシー保証を提供する。 しかし、非IIDデータを扱うことは、連合学習において最も難しい問題の一つである。 研究者たちは、非IID性による負の影響を排除する様々な方法を提案している。 しかし、普遍クラス分布が平衡であるような非IIDデータのみに焦点を当てている。 多くの実世界の応用において、普遍クラス分布は長い尾を持つため、モデルに深刻なバイアスがかかる。 そこで本稿では, フェデレート学習における非IIDデータとロングテールデータの結合問題について検討し, フェデレート・アンサンブル蒸留と不均衡校正という対応ソリューションを提案する。 非IIDデータを扱うために、FEDICはモデルアンサンブルを使用して、非IIDデータでトレーニングされたモデルの多様性を利用する。 そこで, ロージット調整とキャリブレーションゲーティングネットワークを用いた新しい蒸留法を提案し, ロングテール問題を効果的に解決した。 本研究では,cifar-10-lt,cifar-100-lt,imagenet-ltにおけるfederated learningおよびlong-tail learningの最先端手法との比較検討を行った。 私たちのコードはhttps://github.com/shangxinyi/FEDICで利用可能です。

Federated learning provides a privacy guarantee for generating good deep learning models on distributed clients with different kinds of data. Nevertheless, dealing with non-IID data is one of the most challenging problems for federated learning. Researchers have proposed a variety of methods to eliminate the negative influence of non-IIDness. However, they only focus on the non-IID data provided that the universal class distribution is balanced. In many real-world applications, the universal class distribution is long-tailed, which causes the model seriously biased. Therefore, this paper studies the joint problem of non-IID and long-tailed data in federated learning and proposes a corresponding solution called Federated Ensemble Distillation with Imbalance Calibration (FEDIC). To deal with non-IID data, FEDIC uses model ensemble to take advantage of the diversity of models trained on non-IID data. Then, a new distillation method with logit adjustment and calibration gating network is proposed to solve the long-tail problem effectively. We evaluate FEDIC on CIFAR-10-LT, CIFAR-100-LT, and ImageNet-LT with a highly non-IID experimental setting, in comparison with the state-of-the-art methods of federated learning and long-tail learning. Our code is available at https://github.com/shangxinyi/FEDIC.
翻訳日:2022-05-03 15:33:57 公開日:2022-04-30
# 自己教師付き相互学習を用いた不均一グラフニューラルネットワーク

Heterogeneous Graph Neural Networks using Self-supervised Reciprocally Contrastive Learning ( http://arxiv.org/abs/2205.00256v1 )

ライセンス: Link先を確認
Di Jin, Cuiying Huo, Jianwu Dang, Peican Zhu, Weixiong Zhang, Witold Pedrycz and Lingfei Wu(参考訳) 不均一グラフニューラルネットワーク(HGNN)は異種グラフのモデリングと解析において非常に一般的な手法である。 既存のHGNNベースのアプローチの多くは、グラフにアノテートを必要とする教師付きあるいは半教師付き学習手法である。 自己教師付きコントラスト学習は、与えられたデータ内に隠された本質的な情報をマイニングすることで、注釈付きデータを必要とする問題に対処するために提案されている。 しかし、既存のコントラスト学習法は、グラフデータ内のデータ摂動や事前定義された構造的性質(メタパスなど)に基づいてのみコントラストビューを構築し、ノード属性とグラフトポロジの両方に存在するノイズを無視しているため、ヘテロジニアスグラフでは不十分である。 ノード属性とグラフトポロジーの各ガイダンスについて2つの視点を導入し,相互に対比する機構によりそれらの統合と拡張を行い,不均一グラフのモデル化を改善するhgclという,新しいロバストなグラフコントラスト学習手法を初めて開発した。 この新しいアプローチでは,属性とトポロジに関連情報を別々にマイニングする手法として,異なるが最も適した属性とトポロジの融合機構を2つの視点に適用する。 さらに属性類似性とトポロジカル相関を併用して,高品質なコントラストサンプルを構築する。 3つの大きな実世界の異種グラフに対する大規模な実験は、最先端の手法よりもHGCLの優位性と堅牢性を示している。

Heterogeneous graph neural network (HGNN) is a very popular technique for the modeling and analysis of heterogeneous graphs. Most existing HGNN-based approaches are supervised or semi-supervised learning methods requiring graphs to be annotated, which is costly and time-consuming. Self-supervised contrastive learning has been proposed to address the problem of requiring annotated data by mining intrinsic information hidden within the given data. However, the existing contrastive learning methods are inadequate for heterogeneous graphs because they construct contrastive views only based on data perturbation or pre-defined structural properties (e.g., meta-path) in graph data while ignore the noises that may exist in both node attributes and graph topologies. We develop for the first time a novel and robust heterogeneous graph contrastive learning approach, namely HGCL, which introduces two views on respective guidance of node attributes and graph topologies and integrates and enhances them by reciprocally contrastive mechanism to better model heterogeneous graphs. In this new approach, we adopt distinct but most suitable attribute and topology fusion mechanisms in the two views, which are conducive to mining relevant information in attributes and topologies separately. We further use both attribute similarity and topological correlation to construct high-quality contrastive samples. Extensive experiments on three large real-world heterogeneous graphs demonstrate the superiority and robustness of HGCL over state-of-the-art methods.
翻訳日:2022-05-03 15:33:27 公開日:2022-04-30
# グラフ異方性拡散

Graph Anisotropic Diffusion ( http://arxiv.org/abs/2205.00354v1 )

ライセンス: Link先を確認
Ahmed A. A. Elhag, Gabriele Corso, Hannes St\"ark, Michael M. Bronstein(参考訳) 従来のグラフニューラルネットワーク(GNN)はメッセージパッシングに依存しており、近隣特徴の置換不変局所集約に相当する。 そのような過程は等方的であり、グラフ上の「方向」の概念は存在しない。 グラフ異方性拡散と呼ばれる新しいGNNアーキテクチャを提案する。 我々のモデルは、閉形式解が利用できる線形拡散と、効率的なマルチホップ異方性カーネルを得るための局所異方性フィルタを交互に行う。 本稿では,分子特性予測ベンチマーク(ZINCとQM9)を用いて,その競合性能を示す。

Traditional Graph Neural Networks (GNNs) rely on message passing, which amounts to permutation-invariant local aggregation of neighbour features. Such a process is isotropic and there is no notion of `direction' on the graph. We present a new GNN architecture called Graph Anisotropic Diffusion. Our model alternates between linear diffusion, for which a closed-form solution is available, and local anisotropic filters to obtain efficient multi-hop anisotropic kernels. We test our model on two common molecular property prediction benchmarks (ZINC and QM9) and show its competitive performance.
翻訳日:2022-05-03 15:32:49 公開日:2022-04-30
# 実世界領域における集団形成のための注意モデル

An attention model for the formation of collectives in real-world domains ( http://arxiv.org/abs/2205.00215v1 )

ライセンス: Link先を確認
Adri\`a Fenoy, Filippo Bistaffa, Alessandro Farinelli(参考訳) 我々は,持続可能な開発目標(共有モビリティ,協調学習など)に沿った実世界のアプリケーションのためのエージェントの集合体形成の問題を考える。 本稿では,注意モデルと整数線形プログラム(ilp)の新たな組み合わせに基づく集団形成のための一般的なアプローチを提案する。 より詳しくは、集合生成インスタンスを重み付けされたパッキング問題に変換するアテンションエンコーダ・デコーダモデルを提案し、それをICPで解いた。 2つの現実世界のドメイン(つまり、ライドシェアリングと協調学習のためのチーム形成)の結果から、我々のアプローチは、各ドメイン特有の最先端のアプローチによって生み出されるソリューションと(品質の観点から)同等のソリューションを提供することがわかった。 さらに,モンテカルロ木探索に基づく集合体形成に対する最近の一般的なアプローチを上回っている。

We consider the problem of forming collectives of agents for real-world applications aligned with Sustainable Development Goals (e.g., shared mobility, cooperative learning). We propose a general approach for the formation of collectives based on a novel combination of an attention model and an integer linear program (ILP). In more detail, we propose an attention encoder-decoder model that transforms a collective formation instance to a weighted set packing problem, which is then solved by an ILP. Results on two real-world domains (i.e., ridesharing and team formation for cooperative learning) show that our approach provides solutions that are comparable (in terms of quality) to the ones produced by state-of-the-art approaches specific to each domain. Moreover, our solution outperforms the most recent general approach for forming collectives based on Monte Carlo tree search.
翻訳日:2022-05-03 15:25:57 公開日:2022-04-30
# 機械物語読解の包括的評価に関する調査

A Survey of Machine Narrative Reading Comprehension Assessments ( http://arxiv.org/abs/2205.00299v1 )

ライセンス: Link先を確認
Yisi Sang, Xiangyang Mou, Jing Li, Jeffrey Stanton, Mo Yu(参考訳) 機械物語理解研究の主体が拡大するにつれて、様々なベンチマークタスクの深さと範囲だけでなく、性能評価戦略について考慮する必要がある。 物語理論,読み解き理論,および既存の機械物語読解タスクとデータセットに基づいて,評価課題の主な類似点と相違点を捉え,新たなタスク設計における私たちのタイプがもたらす意味と,物語読解の課題について議論する。

As the body of research on machine narrative comprehension grows, there is a critical need for consideration of performance assessment strategies as well as the depth and scope of different benchmark tasks. Based on narrative theories, reading comprehension theories, as well as existing machine narrative reading comprehension tasks and datasets, we propose a typology that captures the main similarities and differences among assessment tasks; and discuss the implications of our typology for new task design and the challenges of narrative reading comprehension.
翻訳日:2022-05-03 15:25:41 公開日:2022-04-30
# 改善に近づいた:コンポーネントベース識別器によるワンショットフォント生成

Look Closer to Supervise Better: One-Shot Font Generation via Component-Based Discriminator ( http://arxiv.org/abs/2205.00146v1 )

ライセンス: Link先を確認
Yuxin Kong, Canjie Luo, Weihong Ma, Qiyuan Zhu, Shenggao Zhu, Nicholas Yuan, Lianwen Jin(参考訳) 複雑な構造を持つ大量の文字のため、自動フォント生成はいまだに困難な研究課題である。 典型的には、少数のサンプルのみがスタイル/コンテンツ参照として機能し、局所的なスタイルパターンや詳細なグリフ構造を維持するのがさらに困難になる。 過去の研究の欠点を考察し,フォントジェネレータを監督するには粗粒度判別器が不十分であることを示す。 この目的のために、我々は、コンポーネントレベルであるよりきめ細かいレベルでコンテンツとスタイルを分離するジェネレータを監督する新しいComponent-Aware Module (CAM)を提案する。 ジェネレータの複雑さの増大に苦しむこれまでの研究とは異なり、我々は比較的単純なジェネレータの完全な可能性を達成するためにより効果的な監督を行うことを目標としている。 フレームワーク全体では,コンポーネントレベルの監視と逆学習を結合することで,優れた結果が得られる。 広範な実験により,我々のアプローチは最先端のワンショットフォント生成手法よりも優れていることが示された。 さらに,手書きの単語合成やテキスト画像編集にも適用可能であり,このアプローチの一般化を示唆する。

Automatic font generation remains a challenging research issue due to the large amounts of characters with complicated structures. Typically, only a few samples can serve as the style/content reference (termed few-shot learning), which further increases the difficulty to preserve local style patterns or detailed glyph structures. We investigate the drawbacks of previous studies and find that a coarse-grained discriminator is insufficient for supervising a font generator. To this end, we propose a novel Component-Aware Module (CAM), which supervises the generator to decouple content and style at a more fine-grained level, \textit{i.e.}, the component level. Different from previous studies struggling to increase the complexity of generators, we aim to perform more effective supervision for a relatively simple generator to achieve its full potential, which is a brand new perspective for font generation. The whole framework achieves remarkable results by coupling component-level supervision with adversarial learning, hence we call it Component-Guided GAN, shortly CG-GAN. Extensive experiments show that our approach outperforms state-of-the-art one-shot font generation methods. Furthermore, it can be applied to handwritten word synthesis and scene text image editing, suggesting the generalization of our approach.
翻訳日:2022-05-03 15:24:27 公開日:2022-04-30
# animaltrack:野生のマルチ動物追跡のための大規模ベンチマーク

AnimalTrack: A Large-scale Benchmark for Multi-Animal Tracking in the Wild ( http://arxiv.org/abs/2205.00158v1 )

ライセンス: Link先を確認
Libo Zhang, Junyuan Gao, Zhen Xiao, Heng Fan(参考訳) 多対象追跡(MOT)問題であるマルチアニマルトラッキング(MAT)は、動物の動きや行動解析に不可欠であり、生物学、生態学、動物保護など多くの重要な応用がある。 その重要性にもかかわらず、MATは大規模なベンチマークが不足しているため、マルチヒューマントラッキングのような他のMOT問題と比較してほとんど探索されていない。 この問題に対処するために,野生のマルチ動物追跡のための大規模ベンチマークであるanimaltrackを紹介する。 具体的には、animaltrackは10の共通動物カテゴリの多様な選択から58の配列からなる。 各シーケンスは、追跡対象の33のオブジェクトで構成される。 高品質を確保するために、AnimalTrackのすべてのフレームに、慎重に検査と精査を手動でラベル付けする。 われわれの知る限り、animaltrackはマルチ動物追跡に特化した最初のベンチマークだ。 さらに,既存のMOTアルゴリズムがAnimalTrack上でどのように機能するかを理解し,将来の比較のためのベースラインを提供するため,14の最先端の代表トラッカーを広範囲に評価した。 評価結果から, 歩行者と動物の違い(例えば, ポーズ, 動き, 外観など)により, トラッカーのほとんどが劣化し, マルチアニマルトラッキングの改善が望まれていることが明らかとなった。 animaltrackと評価と分析が、マルチアニマルトラッキングのさらなる進歩を促すことを期待している。 データセットと評価、そして私たちの分析は、受け入れ次第利用可能になります。

Multi-animal tracking (MAT), a multi-object tracking (MOT) problem, is crucial for animal motion and behavior analysis and has many crucial applications such as biology, ecology, animal conservation and so forth. Despite its importance, MAT is largely under-explored compared to other MOT problems such as multi-human tracking due to the scarcity of large-scale benchmark. To address this problem, we introduce AnimalTrack, a large-scale benchmark for multi-animal tracking in the wild. Specifically, AnimalTrack consists of 58 sequences from a diverse selection of 10 common animal categories. On average, each sequence comprises of 33 target objects for tracking. In order to ensure high quality, every frame in AnimalTrack is manually labeled with careful inspection and refinement. To our best knowledge, AnimalTrack is the first benchmark dedicated to multi-animal tracking. In addition, to understand how existing MOT algorithms perform on AnimalTrack and provide baselines for future comparison, we extensively evaluate 14 state-of-the-art representative trackers. The evaluation results demonstrate that, not surprisingly, most of these trackers become degenerated due to the differences between pedestrians and animals in various aspects (e.g., pose, motion, appearance, etc), and more efforts are desired to improve multi-animal tracking. We hope that AnimalTrack together with evaluation and analysis will foster further progress on multi-animal tracking. The dataset and evaluation as well as our analysis will be made available upon the acceptance.
翻訳日:2022-05-03 15:24:08 公開日:2022-04-30
# ディープニューラルネットワークによるセマンティックセグメンテーションにおける雑音ラベルのメタ構造解明

Elucidating Meta-Structures of Noisy Labels in Semantic Segmentation by Deep Neural Networks ( http://arxiv.org/abs/2205.00160v1 )

ライセンス: Link先を確認
Yaoru Luo, Guole Liu, Yuanhao Guo, Ge Yang(参考訳) ノイズラベルによるディープニューラルネットワーク(DNN)の教師付きトレーニングは、画像分類において広く研究されているが、画像セグメント化でははるかに少ない。 これまでのところ,ノイズセグメンテーションラベルで学習したdnnの学習行動の理解は限られている。 本研究では,生体顕微鏡画像のバイナリセグメンテーションと自然画像のマルチクラスセグメンテーションの両方において,この欠陥に対処する。 雑音遷移行列 (ntm) に従ってセグメント化ラベルを分類し, 異なる種類のラベルで訓練されたdnnの性能を比較する。 ランダムに少数のサンプル(例:10%)をサンプリングしたり、DNNを訓練するために接地トラスラベルの大部分(例:90%)を反転させたりした場合、そのセグメンテーション性能はほとんど変わらない。 このことは、DNNがセマンティックセグメンテーションのための教師付きトレーニングにおいて、各ピクセルレベルのラベルではなくラベルに隠された構造を学ぶことを示している。 これらの隠された構造を「メタ構造」と呼ぶ。 メタ構造に異なる摂動を持つラベルを用いてDNNを訓練すると、特徴抽出とセグメンテーションのパフォーマンスは一貫して低下する。 対照的に、メタ構造情報の追加は、二項意味セグメンテーションにおける教師なしモデルの性能を実質的に改善する。 メタ構造を空間密度分布として数学的に定式化し,異なる種類のラベルの意味情報を定量化する。 本論文では,dnnの重要な学習行動について理論的および実験的に解説する。

The supervised training of deep neural networks (DNNs) by noisy labels has been studied extensively in image classification but much less in image segmentation. So far, our understanding of the learning behavior of DNNs trained by noisy segmentation labels remains limited. In this study, we address this deficiency in both binary segmentation of biological microscopy images and multi-class segmentation of natural images. We classify segmentation labels according to their noise transition matrices (NTM) and compare performance of DNNs trained by different types of labels. When we randomly sample a small fraction (e.g., 10%) or flipping a large fraction (e.g., 90%) of the ground-truth labels to train DNNs, their segmentation performance remains largely the same. This indicates that DNNs learn structures hidden in labels rather than pixel-level labels per se in their supervised training for semantic segmentation. We call these hidden structures "meta-structures". When we use labels with different perturbations to the meta-structures to train DNNs, their performance in feature extraction and segmentation degrades consistently. In contrast, addition of meta-structure information substantially improves performance of an unsupervised model in binary semantic segmentation. We formulate meta-structures mathematically as spatial density distributions and quantify semantic information of different types of labels, which we find to correlate strongly with ranks of their NTM. We show theoretically and experimentally how this formulation explains key observed learning behavior of DNNs.
翻訳日:2022-05-03 15:22:55 公開日:2022-04-30
# ClusterQ: データフリー量子化のための意味的特徴分散アライメント

ClusterQ: Semantic Feature Distribution Alignment for Data-Free Quantization ( http://arxiv.org/abs/2205.00179v1 )

ライセンス: Link先を確認
Yangcheng Gao, Zhao Zhang, Richang Hong, Haijun Zhang, Jicong Fan, Shuicheng Yan, Meng Wang(参考訳) ネットワーク量子化はモデル圧縮と推論の高速化に有望な方法として登場した。 しかし、トラジショナル量子化法(量子化対応トレーニングやポストトレーニング量子化など)は、量子化モデルの微調整や校正のためにオリジナルのデータを必要とするため、プライバシやセキュリティのために元のデータがアクセスできない場合にも適用できない。 これにより、合成データ生成によるデータフリー量子化が生まれる。 現在のdfqメソッドは、セマンティクスのクラス間分離性が低いため、モデルを低ビットに定量化する際にも、パフォーマンスが著しく低下する。 そこで本研究では,合成データ生成に意味的特徴分布アライメントを利用するClusterQという,データフリーな量子化手法を提案する。 セマンティックな特徴のクラス間分離性を高めるため,特徴分布統計をクラスタ化し,実際のデータの分布を模倣するように調整し,性能劣化を軽減する。 さらに,クラス内分散を取り入れ,クラス毎のモード崩壊を解消した。 また、指数移動平均を用いて各クラスタのセントロイドを更新し、さらなる特徴分布の改善を図る。 ImageNetデータセットに対するさまざまなディープモデル(ResNet-18やMobileNet-V2など)にわたる大規模な実験は、ClusterQが最先端のパフォーマンスを得ることを示す。

Network quantization has emerged as a promising method for model compression and inference acceleration. However, tradtional quantization methods (such as quantization aware training and post training quantization) require original data for the fine-tuning or calibration of quantized model, which makes them inapplicable to the cases that original data are not accessed due to privacy or security. This gives birth to the data-free quantization with synthetic data generation. While current DFQ methods still suffer from severe performance degradation when quantizing a model into lower bit, caused by the low inter-class separability of semantic features. To this end, we propose a new and effective data-free quantization method termed ClusterQ, which utilizes the semantic feature distribution alignment for synthetic data generation. To obtain high inter-class separability of semantic features, we cluster and align the feature distribution statistics to imitate the distribution of real data, so that the performance degradation is alleviated. Moreover, we incorporate the intra-class variance to solve class-wise mode collapse. We also employ the exponential moving average to update the centroid of each cluster for further feature distribution improvement. Extensive experiments across various deep models (e.g., ResNet-18 and MobileNet-V2) over the ImageNet dataset demonstrate that our ClusterQ obtains state-of-the-art performance.
翻訳日:2022-05-03 15:22:30 公開日:2022-04-30
# 信頼度の高いラベル修正は、非常にノイズの多いラベルで学習する時に役立つ

Reliable Label Correction is a Good Booster When Learning with Extremely Noisy Labels ( http://arxiv.org/abs/2205.00186v1 )

ライセンス: Link先を確認
Kai Wang, Xiangyu Peng, Shuo Yang, Jianfei Yang, Zheng Zhu, Xinchao Wang and Yang You(参考訳) ノイズの多いラベルで学ぶことは、データアノテーション、特に大規模データセットが必然的に不完全なため、多くの研究の関心を喚起している。 最近のアプローチでは、トレーニングサンプルをクリーンでノイズの多い集合に分割することで、半教師付き学習問題に取り組んでいる。 しかし、このパラダイムは、従来の手法がうまく振る舞うには、クリーンサンプルの数が小さすぎるため、重ラベルノイズの下で大幅に劣化する傾向にある。 本稿では,極音下での学習に明示的に取り組むための,LC-Boosterと呼ばれる新しいフレームワークを提案する。 lc-boosterの核となる考え方は、ラベル修正をサンプル選択に組み込むことで、より純度の高いサンプルを信頼できるラベル修正を通じてトレーニングに活用し、確認バイアスを軽減することである。 LC-BoosterはCIFAR-10, CIFAR-100, Clothing1M, WebVisionなど,いくつかのノイズラベルベンチマークで最先端の結果が得られた。 CIFAR-10 と CIFAR-100 では、極端に 90 % のノイズ比で 93.5 % と 48.4 % の精度を達成し、それぞれ 1.6 % と 7.2 % を上回っている。

Learning with noisy labels has aroused much research interest since data annotations, especially for large-scale datasets, may be inevitably imperfect. Recent approaches resort to a semi-supervised learning problem by dividing training samples into clean and noisy sets. This paradigm, however, is prone to significant degeneration under heavy label noise, as the number of clean samples is too small for conventional methods to behave well. In this paper, we introduce a novel framework, termed as LC-Booster, to explicitly tackle learning under extreme noise. The core idea of LC-Booster is to incorporate label correction into the sample selection, so that more purified samples, through the reliable label correction, can be utilized for training, thereby alleviating the confirmation bias. Experiments show that LC-Booster advances state-of-the-art results on several noisy-label benchmarks, including CIFAR-10, CIFAR-100, Clothing1M and WebVision. Remarkably, under the extreme 90\% noise ratio, LC-Booster achieves 93.5\% and 48.4\% accuracy on CIFAR-10 and CIFAR-100, surpassing the state-of-the-art by 1.6\% and 7.2\% respectively.
翻訳日:2022-05-03 15:22:05 公開日:2022-04-30
# DefakeHop++: 軽量なディープフェイク検出器

DefakeHop++: An Enhanced Lightweight Deepfake Detector ( http://arxiv.org/abs/2205.00211v1 )

ライセンス: Link先を確認
Hong-Shuo Chen, Shuowen Hu, Suya You and C.-C. Jay Kuo(参考訳) DefakeHopをベースとして、DefakeHop++と呼ばれる軽量なDeepfake検出器が提案されている。 改善は2つの領域にある。 最初にDefakeHopは3つの顔領域(すなわち2つの目と口)を検査するが、DefakeHop++にはさらに8つの目印が含まれている。 第二に、識別機能選択では、DefakeHop++は教師なしのアプローチを使用し、DFT(Dis discriminant Feature Test)と呼ばれる、より効果的な監視アプローチを採用する。 defakehop++では、リッチな空間的およびスペクトル的特徴は、最初に顔領域とランドマークから導出される。 次に、DFTを用いて識別器訓練のための識別機能のサブセットを選択する。 MobileNet v3(モバイルアプリケーションを対象とした1.5Mパラメータの軽量CNNモデル)と比較して、DefakeHop++は238Kパラメータのモデルを持ち、MobileNet v3の16%である。 さらにDefakeHop++は、Deepfakeイメージ検出性能において、弱教師付き環境でMobileNet v3を上回っている。

On the basis of DefakeHop, an enhanced lightweight Deepfake detector called DefakeHop++ is proposed in this work. The improvements lie in two areas. First, DefakeHop examines three facial regions (i.e., two eyes and mouth) while DefakeHop++ includes eight more landmarks for broader coverage. Second, for discriminant features selection, DefakeHop uses an unsupervised approach while DefakeHop++ adopts a more effective approach with supervision, called the Discriminant Feature Test (DFT). In DefakeHop++, rich spatial and spectral features are first derived from facial regions and landmarks automatically. Then, DFT is used to select a subset of discriminant features for classifier training. As compared with MobileNet v3 (a lightweight CNN model of 1.5M parameters targeting at mobile applications), DefakeHop++ has a model of 238K parameters, which is 16% of MobileNet v3. Furthermore, DefakeHop++ outperforms MobileNet v3 in Deepfake image detection performance in a weakly-supervised setting.
翻訳日:2022-05-03 15:21:39 公開日:2022-04-30
# 二段式空間チャネル変換器による細粒度ビデオデノイジング

Coarse-to-Fine Video Denoising with Dual-Stage Spatial-Channel Transformer ( http://arxiv.org/abs/2205.00214v1 )

ライセンス: Link先を確認
Wulian Yun, Mengshi Qi, Chuanming Wang, Huiyuan Fu, Huadong Ma(参考訳) Video Denoisingは、ノイズの多いビデオから高品質なフレームを復元することを目的としている。 既存のほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、元の視覚的コンテンツからノイズを分離するが、CNNはローカル情報に焦点を当て、長距離領域間の相互作用を無視する。 さらに、ほとんどの関連する研究は、時空間復調後の出力を直接最終結果としており、微粒化復調過程を無視している。 本稿では,2段式空間チャネルトランスフォーマ(dsct)による細粒度ビデオデノイジングを提案し,トランスフォーマとcnnの両方の利点を継承する。 具体的には, 動的特徴と静的特徴をそれぞれ抽出するための粗レベルと細レベルという, 進歩的二段階アーキテクチャに基づいてdsctを提案する。 どちらの段階でも、空間チャネル符号化モジュール(SCEM)は空間およびチャネルレベルでの長距離コンテキスト依存をモデル化するために設計されている。 一方,動的表現を要約する時間的特徴集約モジュール(tfam)を含む,情報の多面的な側面を異なる段階に保持するマルチスケール残差構造を設計する。 4つの公開データセットに対する大規模な実験により、提案したDSCTは最先端の手法と比較して大幅に改善された。

Video denoising aims to recover high-quality frames from the noisy video. While most existing approaches adopt convolutional neural networks(CNNs) to separate the noise from the original visual content, however, CNNs focus on local information and ignore the interactions between long-range regions. Furthermore, most related works directly take the output after spatio-temporal denoising as the final result, neglecting the fine-grained denoising process. In this paper, we propose a Dual-stage Spatial-Channel Transformer (DSCT) for coarse-to-fine video denoising, which inherits the advantages of both Transformer and CNNs. Specifically, DSCT is proposed based on a progressive dual-stage architecture, namely a coarse-level and a fine-level to extract dynamic feature and static feature, respectively. At both stages, a Spatial-Channel Encoding Module(SCEM) is designed to model the long-range contextual dependencies at spatial and channel levels. Meanwhile, we design a Multi-scale Residual Structure to preserve multiple aspects of information at different stages, which contains a Temporal Features Aggregation Module(TFAM) to summarize the dynamic representation. Extensive experiments on four publicly available datasets demonstrate our proposed DSCT achieves significant improvements compared to the state-of-the-art methods.
翻訳日:2022-05-03 15:21:22 公開日:2022-04-30
# デュアルモダリティカメラによる非教師なし可視光画像のクロススペクトル深度推定

Unsupervised Visible-light Images Guided Cross-Spectrum Depth Estimation from Dual-Modality Cameras ( http://arxiv.org/abs/2205.00257v1 )

ライセンス: Link先を確認
Yubin Guo, Haobo Jiang, Xinlei Qi, Jin Xie, Cheng-Zhong Xu and Hui Kong(参考訳) クロススペクトル深度推定は、対のデュアルスペクトル画像による全ての照明条件の深度マップを提供することを目的としている。 異なるモードの2つのカメラを搭載している場合、自動運転車の用途に有用である。 しかし、異なるモダリティカメラによって撮影された画像は、写真量的にはかなり異なる。 したがって、スペクトル間深さ推定は非常に難しい問題である。 さらに、大規模なオープンソースデータセットの不足は、この分野のさらなる研究を遅らせている。 本稿では,一対のRGBと熱画像と,可視光カメラとサーマルカメラから撮像した熱画像とが与えられた,教師なしの可視光画像誘導クロススペクトル(即ち熱・可視光,TIR-VIS)の深度推定フレームワークを提案する。 まず,RGB画像ペアを用いたベース深度推定ネットワークを提案する。 そこで本研究では,TIR-VISドメインからVISドメインへ,トレーニングした深度推定ネットワークに適合する機能伝達ネットワークを提案する。 最後に,デュアルスペクトラム画像対の奥行き結果を改善するために,クロススペクトラム深度サイクルの一貫性を提案する。 一方,視光と遠赤外線のステレオ画像が社会に異なる場面で撮影された,大型の二重スペクトル深度推定データセットをリリースする。 実験結果から,本手法は既存手法よりも優れた性能を示すことがわかった。 データセットはhttps://github.com/whitecrow1027/VIS-TIR-Datasetsで公開されています。

Cross-spectrum depth estimation aims to provide a depth map in all illumination conditions with a pair of dual-spectrum images. It is valuable for autonomous vehicle applications when the vehicle is equipped with two cameras of different modalities. However, images captured by different-modality cameras can be photometrically quite different. Therefore, cross-spectrum depth estimation is a very challenging problem. Moreover, the shortage of large-scale open-source datasets also retards further research in this field. In this paper, we propose an unsupervised visible-light image guided cross-spectrum (i.e., thermal and visible-light, TIR-VIS in short) depth estimation framework given a pair of RGB and thermal images captured from a visible-light camera and a thermal one. We first adopt a base depth estimation network using RGB-image pairs. Then we propose a multi-scale feature transfer network to transfer features from the TIR-VIS domain to the VIS domain at the feature level to fit the trained depth estimation network. At last, we propose a cross-spectrum depth cycle consistency to improve the depth result of dual-spectrum image pairs. Meanwhile, we release a large dual-spectrum depth estimation dataset with visible-light and far-infrared stereo images captured in different scenes to the society. The experiment result shows that our method achieves better performance than the compared existing methods. Our datasets is available at https://github.com/whitecrow1027/VIS-TIR-Datasets.
翻訳日:2022-05-03 15:20:58 公開日:2022-04-30
# 視覚言語検証と反復推論による視覚接地の改善

Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning ( http://arxiv.org/abs/2205.00272v1 )

ライセンス: Link先を確認
Li Yang, Yan Xu, Chunfeng Yuan, Wei Liu, Bing Li, Weiming Hu(参考訳) ビジュアルグラウンドティングは、自然言語表現によって示されるターゲットを特定するタスクである。 既存のメソッドはジェネリックオブジェクト検出フレームワークをこの問題に拡張している。 それらは、事前に生成された提案やアンカーの機能をベースにして、これらの機能とテキスト埋め込みを融合して、テキストで言及されたターゲットを見つける。 しかし、事前に定義された場所から視覚的特徴をモデル化することは、テキストクエリの視覚的コンテキストと属性情報を十分に活用することができず、パフォーマンスが制限される。 本稿では,テキストコンディショニングによる判別機能を確立し,多段クロスモーダル推論を行うことにより,高精度な視覚グラウンディングを実現するトランスフォーマティブフレームワークを提案する。 具体的には,非関連領域を抑圧しながら,テキスト記述に関連する領域に視覚特徴を集中させる視覚言語的検証モジュールを開発した。 言語誘導機能エンコーダは、対象オブジェクトの視覚的コンテキストを集約して、オブジェクトの特異性を改善するように設計されている。 符号化された視覚特徴からターゲットを抽出するために,画像とテキストの相関関係を反復的に推測する多段クロスモーダルデコーダを提案する。 広く使用されている5つのデータセットに関する広範な実験により、提案するコンポーネントの有効性が検証され、最先端のパフォーマンスが実証された。 私たちのコードはhttps://github.com/yangli18/vltvgで公開しています。

Visual grounding is a task to locate the target indicated by a natural language expression. Existing methods extend the generic object detection framework to this problem. They base the visual grounding on the features from pre-generated proposals or anchors, and fuse these features with the text embeddings to locate the target mentioned by the text. However, modeling the visual features from these predefined locations may fail to fully exploit the visual context and attribute information in the text query, which limits their performance. In this paper, we propose a transformer-based framework for accurate visual grounding by establishing text-conditioned discriminative features and performing multi-stage cross-modal reasoning. Specifically, we develop a visual-linguistic verification module to focus the visual features on regions relevant to the textual descriptions while suppressing the unrelated areas. A language-guided feature encoder is also devised to aggregate the visual contexts of the target object to improve the object's distinctiveness. To retrieve the target from the encoded visual features, we further propose a multi-stage cross-modal decoder to iteratively speculate on the correlations between the image and text for accurate target localization. Extensive experiments on five widely used datasets validate the efficacy of our proposed components and demonstrate state-of-the-art performance. Our code is public at https://github.com/yangli18/VLTVG.
翻訳日:2022-05-03 15:20:33 公開日:2022-04-30
# 野生における大類検出のための動的カリキュラム学習

Dynamic Curriculum Learning for Great Ape Detection in the Wild ( http://arxiv.org/abs/2205.00275v1 )

ライセンス: Link先を確認
Xinyu Yang, Tilo Burghardt, Majid Mirmehdi(参考訳) 本研究では,実世界のジャングル環境における教師付き種検出器の構成を改善するために,無防備な大型apeカメラトラップ映像を活用したエンド・ツー・エンドのカリキュラム学習手法を提案する。 従来の半教師付き手法とは対照的に,本手法は頑健な自己強化に向けての訓練によって,検出品質を徐々に向上させる。 そこで本稿では,疑似ラベルと動的カリキュラム学習ポリシーの統合を提案する。 このようなダイナミクスと制御は、学習の崩壊を回避し、検出器の調整をより高いモデル品質に徐々に結びつけることができる。 我々は理論的な議論と改善を提案し、数千のカメラトラップビデオを持つ拡張パンアフリカデータセットの評価において、様々な最先端システムに対する大幅な性能向上を確認した。 システム性能は,生態学的な応用に共通する,より小さなラベル付き比率に対して最強である。 提案手法は野生生物データを念頭に置いて設計されているが,MS-COCOデータセットにおけるジェネリックオブジェクト検出のための競合ベンチマークを示す。 コードはhttps://github.com/youshyee/dcl-detectionで入手できる。

We propose a novel end-to-end curriculum learning approach that leverages large volumes of unlabelled great ape camera trap footage to improve supervised species detector construction in challenging real-world jungle environments. In contrast to previous semi-supervised methods, our approach gradually improves detection quality by steering training towards virtuous self-reinforcement. To achieve this, we propose integrating pseudo-labelling with dynamic curriculum learning policies. We show that such dynamics and controls can avoid learning collapse and gradually tie detector adjustments to higher model quality. We provide theoretical arguments and ablations, and confirm significant performance improvements against various state-of-the-art systems when evaluating on the Extended PanAfrican Dataset holding several thousand camera trap videos of great apes. We note that system performance is strongest for smaller labelled ratios, which are common in ecological applications. Our approach, although designed with wildlife data in mind, also shows competitive benchmarks for generic object detection in the MS-COCO dataset, indicating wider applicability of introduced concepts. The code is available at https://github.com/youshyee/DCL-Detection.
翻訳日:2022-05-03 15:20:09 公開日:2022-04-30
# ONCE-3DLanes:モノクロ3Dレーン検出の構築

ONCE-3DLanes: Building Monocular 3D Lane Detection ( http://arxiv.org/abs/2205.00301v1 )

ライセンス: Link先を確認
Fan Yan, Ming Nie, Xinyue Cai, Jianhua Han, Hang Xu, Zhen Yang, Chaoqiang Ye, Yanwei Fu, Michael Bi Mi, Li Zhang(参考訳) OnCE-3DLanesは3次元空間にレーンレイアウトアノテーションを付加した実世界の自動運転データセットである。 単眼画像からの従来の2次元レーン検出は、不均一道路の場合の自動運転における計画・制御タスクの追従性能が低下する。 したがって、3Dレーンレイアウトを予測し、効果的で安全な運転を可能にする必要がある。 しかし、既存の3Dレーン検出データセットは、模擬環境から未発表または合成され、この分野の発展を著しく妨げている。 本稿では,これらの課題に取り組むための一歩を踏み出す。 ポイントクラウドと画像ピクセル間の明示的な関係を利用して、データセットアノテーションパイプラインは、211kの道路シーンで2dレーンアノテーションから高品質な3dレーンロケーションを自動的に生成するように設計されている。 さらに,SALADと呼ばれる外因性のないアンカーフリーな手法を提案し,特徴マップを鳥眼ビュー(BEV)に変換することなく,画像ビューにおけるレーンの3次元座標を回帰する。 3次元車線検出の今後の研究を容易にするため,提案手法と提案手法の併用により,データセットをベンチマークし,新しい評価指標を提供する。 私たちの研究の目的は、現実世界のシナリオで3dレーン検出の関心を復活させることです。 私たちの仕事が、学界と産業の両方で予期せぬ革新に繋がると信じています。

We present ONCE-3DLanes, a real-world autonomous driving dataset with lane layout annotation in 3D space. Conventional 2D lane detection from a monocular image yields poor performance of following planning and control tasks in autonomous driving due to the case of uneven road. Predicting the 3D lane layout is thus necessary and enables effective and safe driving. However, existing 3D lane detection datasets are either unpublished or synthesized from a simulated environment, severely hampering the development of this field. In this paper, we take steps towards addressing these issues. By exploiting the explicit relationship between point clouds and image pixels, a dataset annotation pipeline is designed to automatically generate high-quality 3D lane locations from 2D lane annotations in 211K road scenes. In addition, we present an extrinsic-free, anchor-free method, called SALAD, regressing the 3D coordinates of lanes in image view without converting the feature map into the bird's-eye view (BEV). To facilitate future research on 3D lane detection, we benchmark the dataset and provide a novel evaluation metric, performing extensive experiments of both existing approaches and our proposed method. The aim of our work is to revive the interest of 3D lane detection in a real-world scenario. We believe our work can lead to the expected and unexpected innovations in both academia and industry.
翻訳日:2022-05-03 15:19:52 公開日:2022-04-30
# RADNet: 移動自律システムにおけるロバスト知覚のためのディープニューラルネットワークモデル

RADNet: A Deep Neural Network Model for Robust Perception in Moving Autonomous Systems ( http://arxiv.org/abs/2205.00364v1 )

ライセンス: Link先を確認
Burhan A. Mudassar, Sho Ko, Maojingjing Li, Priyabrata Saha, Saibal Mukhopadhyay(参考訳) インタラクティブな自律アプリケーションは、制約のないビデオのアーティファクトに対する知覚エンジンの堅牢性を必要とする。 本稿では,カメラの動きが行動検出の課題に与える影響について検討する。 グローバルなカメラ動作の程度に基づいて,ビデオのランク付けを行う新しいランキング手法を開発した。 上位のカメラビデオでは、アクション検出の精度が低下している。 本稿では,カメラの動作効果に頑健な動作検出パイプラインを提案し,実験的に検証する。 具体的には、フレーム間でアクタ機能アライメントを行い、グローバルシーン機能をローカルアクタ特有の機能と組み合わせます。 時空間サンプリングネットワーク(STSN)の新規な定式化による特徴アライメントを行うが,ピラミッド構造を用いたマルチスケールオフセット予測と改善を行う。 また,局所的およびグローバル的特徴を融合するための新しい入力依存平均化戦略を提案する。 移動カメラビデオ(MOVEデータセット)のデータセットにネットワークの適用性を示し,フレームmAPが4.1%増加し,ビデオmAPが17%増加した。

Interactive autonomous applications require robustness of the perception engine to artifacts in unconstrained videos. In this paper, we examine the effect of camera motion on the task of action detection. We develop a novel ranking method to rank videos based on the degree of global camera motion. For the high ranking camera videos we show that the accuracy of action detection is decreased. We propose an action detection pipeline that is robust to the camera motion effect and verify it empirically. Specifically, we do actor feature alignment across frames and couple global scene features with local actor-specific features. We do feature alignment using a novel formulation of the Spatio-temporal Sampling Network (STSN) but with multi-scale offset prediction and refinement using a pyramid structure. We also propose a novel input dependent weighted averaging strategy for fusing local and global features. We show the applicability of our network on our dataset of moving camera videos with high camera motion (MOVE dataset) with a 4.1% increase in frame mAP and 17% increase in video mAP.
翻訳日:2022-05-03 15:19:12 公開日:2022-04-30
# Wasserstein分布ロバスト最適化のための簡単な双対証明

A Simple Duality Proof for Wasserstein Distributionally Robust Optimization ( http://arxiv.org/abs/2205.00362v1 )

ライセンス: Link先を確認
Luhao Zhang, Jincheng Yang, Rui Gao(参考訳) 本稿では,任意のカントロビッチ輸送距離,任意の可測損失関数,任意の有意な有意な有意な有意な確率分布を,ある可換性原理が成り立つ限り保持するワッサーシュタインの分布的ロバストな最適化の双対性に関する短小かつ初等的な証明を示す。

We present a short and elementary proof of the duality for Wasserstein distributionally robust optimization, which holds for any arbitrary Kantorovich transport distance, any arbitrary measurable loss function, and any arbitrary nominal probability distribution, as long as certain interchangeability principle holds.
翻訳日:2022-05-03 14:34:36 公開日:2022-04-30
# あり得なかった」:不変ニューロン変換によるホワイトボックスdnnウォーターマークのクラック

"And Then There Were None": Cracking White-box DNN Watermarks via Invariant Neuron Transforms ( http://arxiv.org/abs/2205.00199v1 )

ライセンス: Link先を確認
Yifan Yan, Xudong Pan, Yining Wang, Mi Zhang, Min Yang(参考訳) 近年、ディープニューラルネットワーク(DNN)の知的財産権(IP)を保護する方法は、AI産業にとって大きな関心事となっている。 潜在的なモデルの海賊行為に対抗するため、近年の研究は、標的モデルの予測行動や内部(例えば重みやニューロンの活性化)に秘密のアイデンティティメッセージを埋め込む様々な透かし戦略を探求している。 少ない機能とターゲットモデルに関するより多くの知識を犠牲にして、後者のウォーターマーキングスキーム(すなわちホワイトボックスモデルウォーターマーキング)は、業界における新たな研究活動と応用によって、ほとんどの既知のウォーターマーキング除去攻撃に対して正確で信頼性が高く安全であると主張している。 本稿では,既存のホワイトボックス透かしスキームのほとんどをクラックし,性能上のオーバーヘッドを無くし,事前知識を必要としない,最初の効果的な除去攻撃を提案する。 これらのIP保護機構を神経細胞の粒度で解析することにより、局所ニューロン群の脆弱な特徴の集合への共通の依存を初めて発見し、これら全ては、提案された不変ニューロン変換の連鎖によって任意に阻害される。 9ドルの最先端のホワイトボックス透かしスキームと、業界レベルのDNNアーキテクチャの幅広いセットで、当社の攻撃は、保護されたモデルに埋め込まれたアイデンティティメッセージをほとんどランダムに減らした。 一方、既知の削除攻撃とは異なり、我々の攻撃はトレーニングデータ分布や採用済みのウォーターマークアルゴリズムに関する事前知識を必要とせず、モデル機能を完全に残します。

Recently, how to protect the Intellectual Property (IP) of deep neural networks (DNN) becomes a major concern for the AI industry. To combat potential model piracy, recent works explore various watermarking strategies to embed secret identity messages into the prediction behaviors or the internals (e.g., weights and neuron activation) of the target model. Sacrificing less functionality and involving more knowledge about the target model, the latter branch of watermarking schemes (i.e., white-box model watermarking) is claimed to be accurate, credible and secure against most known watermark removal attacks, with emerging research efforts and applications in the industry. In this paper, we present the first effective removal attack which cracks almost all the existing white-box watermarking schemes with provably no performance overhead and no required prior knowledge. By analyzing these IP protection mechanisms at the granularity of neurons, we for the first time discover their common dependence on a set of fragile features of a local neuron group, all of which can be arbitrarily tampered by our proposed chain of invariant neuron transforms. On $9$ state-of-the-art white-box watermarking schemes and a broad set of industry-level DNN architectures, our attack for the first time reduces the embedded identity message in the protected models to be almost random. Meanwhile, unlike known removal attacks, our attack requires no prior knowledge on the training data distribution or the adopted watermark algorithms, and leaves model functionality intact.
翻訳日:2022-05-03 14:33:26 公開日:2022-04-30
# 新しい評価方法:中国語文法誤り訂正のための評価データとメトリクス

A New Evaluation Method: Evaluation Data and Metrics for Chinese Grammar Error Correction ( http://arxiv.org/abs/2205.00217v1 )

ライセンス: Link先を確認
Nankai Lin, Nankai Lin, Xiaotian Lin, Ziyu Yang, Shengyi Jiang(参考訳) 自然言語処理の基本課題として,中国語文法誤り訂正(CGEC)が次第に注目され,研究ホットスポットとなっている。 しかし,既存のCGEC評価システムにおいて明らかな欠点は,評価値が中国語の単語分割結果や異なる言語モデルに大きく影響されることである。 同じ誤り訂正モデルの評価値は、異なる単語分割システムや異なる言語モデルの下で大きく変化する可能性がある。 しかし,これらの指標は単語分割結果と言語モデルとは独立にすべきであり,異なる手法の評価において特異性やコンパラビリティが欠如している可能性がある。 そこで本研究では,CGECを基準ベースと基準レスの2次元で評価する手法を提案する。 基準に基づく計量では,訂正文を評価するために文レベル精度とチャレベルBLEUを導入する。 また、基準のないメートル法では、修正文の意味保存度を測定するために、チャレベル意味保存を採用する。 提案した3つの指標の妥当性と妥当性を深く評価・分析し,CGECの新たな標準となることを期待する。

As a fundamental task in natural language processing, Chinese Grammatical Error Correction (CGEC) has gradually received widespread attention and become a research hotspot. However, one obvious deficiency for the existing CGEC evaluation system is that the evaluation values are significantly influenced by the Chinese word segmentation results or different language models. The evaluation values of the same error correction model can vary considerably under different word segmentation systems or different language models. However, it is expected that these metrics should be independent of the word segmentation results and language models, as they may lead to a lack of uniqueness and comparability in the evaluation of different methods. To this end, we propose three novel evaluation metrics for CGEC in two dimensions: reference-based and reference-less. In terms of the reference-based metric, we introduce sentence-level accuracy and char-level BLEU to evaluate the corrected sentences. Besides, in terms of the reference-less metric, we adopt char-level meaning preservation to measure the semantic preservation degree of the corrected sentences. We deeply evaluate and analyze the reasonableness and validity of the three proposed metrics, and we expect them to become a new standard for CGEC.
翻訳日:2022-05-03 14:30:42 公開日:2022-04-30
# EasyNLP: 自然言語処理のための総合的で使いやすいツールキット

EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing ( http://arxiv.org/abs/2205.00258v1 )

ライセンス: Link先を確認
Chengyu Wang, Minghui Qiu, Taolin Zhang, Tingting Liu, Lei Li, Jianing Wang, Ming Wang, Jun Huang, Wei Lin(参考訳) PTM(Pre-Trained Models)の成功は、自然言語処理(NLP)の発展を形変えた。 しかし、高いパフォーマンスのモデルを取得して、それを産業従事者にオンラインに展開するのは容易ではない。 このギャップを埋めるため、EasyNLPは、NLPアルゴリズムの包括的なスイートをサポートするNLPアプリケーションの構築を容易にするように設計されている。 さらに、知識強化事前トレーニング、知識蒸留、大規模ptmのための数少ない学習機能、実世界のアプリケーションのためのモデルトレーニング、推論、デプロイの統一フレームワークを提供する。 現在EasyNLPはAlibaba Group内の10以上のビジネスユニットを運用しており、Alibaba Cloud上のPlatform of AI(PAI)製品にシームレスに統合されている。 EasyNLPツールキットのソースコードはGitHubで公開されている(https://github.com/alibaba/EasyNLP)。

The success of Pre-Trained Models (PTMs) has reshaped the development of Natural Language Processing (NLP). Yet, it is not easy to obtain high-performing models and deploy them online for industrial practitioners. To bridge this gap, EasyNLP is designed to make it easy to build NLP applications, which supports a comprehensive suite of NLP algorithms. It further features knowledge-enhanced pre-training, knowledge distillation and few-shot learning functionalities for large-scale PTMs, and provides a unified framework of model training, inference and deployment for real-world applications. Currently, EasyNLP has powered over ten business units within Alibaba Group and is seamlessly integrated to the Platform of AI (PAI) products on Alibaba Cloud. The source code of our EasyNLP toolkit is released at GitHub (https://github.com/alibaba/EasyNLP).
翻訳日:2022-05-03 14:29:06 公開日:2022-04-30
# トックスコーパスを用いた言語モデルのデトックス化

Detoxifying Language Models with a Toxic Corpus ( http://arxiv.org/abs/2205.00320v1 )

ライセンス: Link先を確認
Yoon A Park, Frank Rudzicz(参考訳) 既存の研究は、望ましくないバイアスや毒性を示す文脈を生成するための自己回帰言語モデルの傾向を調査している。 様々なデバイアス手法が提案されており、主にデータベースとデコードベースに分類される。 本研究では,2つの脱バイアスパラダイムの合理化について検討し,毒性低減のための追加資源として有毒コーパスの利用を提案する。 以上の結果から, 有害コーパスは言語生成過程の毒性を大幅に低下させ, 既存の嫌悪法を補完すると考えられる。

Existing studies have investigated the tendency of autoregressive language models to generate contexts that exhibit undesired biases and toxicity. Various debiasing approaches have been proposed, which are primarily categorized into data-based and decoding-based. In our study, we investigate the ensemble of the two debiasing paradigms, proposing to use toxic corpus as an additional resource to reduce the toxicity. Our result shows that toxic corpus can indeed help to reduce the toxicity of the language generation process substantially, complementing the existing debiasing methods.
翻訳日:2022-05-03 14:28:53 公開日:2022-04-30
# HateCheckHIn:Hindi Hate音声検出モデルの評価

HateCheckHIn: Evaluating Hindi Hate Speech Detection Models ( http://arxiv.org/abs/2205.00328v1 )

ライセンス: Link先を確認
Mithun Das and Punyajoy Saha and Binny Mathew and Animesh Mukherjee(参考訳) ネット上の憎しみの量が多いため、AIとNLPコミュニティは、このような憎しみのあるコンテンツを検出するモデルを構築し始めている。 近年、多言語ヘイトは、複数の言語がソーシャルメディアで会話に使われている自動検出において、大きな課題となっている。 通常、ヘイトスピーチ検出モデルは、精度やF1スコアなどの指標を用いて、ホールドアウトテストデータ上での性能を測定することで評価される。 これらのメトリクスは役に立つが、モデルが失敗した場所やそれを解決する方法を特定するのは難しい。 このような多言語ヘイトスピーチモデルのよりターゲット的な診断的洞察を可能にするために,評価のための機能セットを導入する。 私たちは、ソーシャルメディア上の現実世界の会話に基づいて、このような機能をデザインすることにインスピレーションを受けています。 Hindiをベース言語として考えると、各機能のテストケースを作成します。 評価データセットのhatcheckhinを名付けます。 これらの機能の有用性を説明するため,m-BERTモデルとパースペクティブAPIを検証した。

Due to the sheer volume of online hate, the AI and NLP communities have started building models to detect such hateful content. Recently, multilingual hate is a major emerging challenge for automated detection where code-mixing or more than one language have been used for conversation in social media. Typically, hate speech detection models are evaluated by measuring their performance on the held-out test data using metrics such as accuracy and F1-score. While these metrics are useful, it becomes difficult to identify using them where the model is failing, and how to resolve it. To enable more targeted diagnostic insights of such multilingual hate speech models, we introduce a set of functionalities for the purpose of evaluation. We have been inspired to design this kind of functionalities based on real-world conversation on social media. Considering Hindi as a base language, we craft test cases for each functionality. We name our evaluation dataset HateCheckHIn. To illustrate the utility of these functionalities , we test state-of-the-art transformer based m-BERT model and the Perspective API.
翻訳日:2022-05-03 14:28:43 公開日:2022-04-30
# スペクトルクラスタリングアルゴリズムの一般化性能の理解

Understanding the Generalization Performance of Spectral Clustering Algorithms ( http://arxiv.org/abs/2205.00281v1 )

ライセンス: Link先を確認
Shaojie Li, Sheng Ouyang and Yong Liu(参考訳) スペクトルクラスタリングの理論解析は主に一貫性に焦点を当てているが、その一般化性能に関する研究は少ない。 本稿では,一般的なスペクトルクラスタリングアルゴリズム, \emph{relaxed} RatioCut と \emph{relaxed} NCut の過剰なリスク境界について検討する。 まず、経験的連続最適解と人口レベルの連続最適解の間の過剰なリスク境界が$\mathcal{o}(1/\sqrt{n})$収束率を持つことを示す。 第2に,実証的離散最適解と集団レベルでの離散最適解との間の余剰リスクに影響を与える基本量を示す。 経験的なレベルでは、この量を減らすためにアルゴリズムを設計することができる。 理論的解析に基づき,この量をペナルライズするだけでなく,サンプル全体を再固有分解することなくサンプル外のデータをクラスタリングする2つの新しいアルゴリズムを提案する。 提案アルゴリズムの有効性を検証する実験を行った。

The theoretical analysis of spectral clustering mainly focuses on consistency, while there is relatively little research on its generalization performance. In this paper, we study the excess risk bounds of the popular spectral clustering algorithms: \emph{relaxed} RatioCut and \emph{relaxed} NCut. Firstly, we show that their excess risk bounds between the empirical continuous optimal solution and the population-level continuous optimal solution have a $\mathcal{O}(1/\sqrt{n})$ convergence rate, where $n$ is the sample size. Secondly, we show the fundamental quantity in influencing the excess risk between the empirical discrete optimal solution and the population-level discrete optimal solution. At the empirical level, algorithms can be designed to reduce this quantity. Based on our theoretical analysis, we propose two novel algorithms that can not only penalize this quantity, but also cluster the out-of-sample data without re-eigendecomposition on the overall sample. Experiments verify the effectiveness of the proposed algorithms.
翻訳日:2022-05-03 14:00:04 公開日:2022-04-30
# 理論誘導U-netによる3次元地下水汚染問題の物理過程の同定と未知パラメータ

Identification of Physical Processes and Unknown Parameters of 3D Groundwater Contaminant Problems via Theory-guided U-net ( http://arxiv.org/abs/2205.00134v1 )

ライセンス: Link先を確認
Tianhao He, Haibin Chang, Dongxiao Zhang(参考訳) 地下水汚染源の未知の物理過程とパラメータの同定は、その不適切な性質と非特異性のために難しい課題である。 モデル選択法による非線形物理過程の決定に多くの研究が注がれている。 しかし、数値的手法を用いて異なる物理現象に対する対応する非線形系を特定することは、計算的に禁止される。 機械学習(ML)アルゴリズムの出現により、ニューラルネットワーク(NN)に基づくより効率的な代理モデルが様々な分野で開発されている。 本研究では,3次元地下水汚染問題のモデル化を目的とした理論誘導型U-net(TgU-net)フレームワークを提案する。 TgU-net において、基礎となる支配方程式は、柔らかい制約として U-net の損失関数に埋め込まれる。 地下水汚染問題として, 吸着は不確実なタイプの潜在的過程と見なされ, 3種類の平衡吸着等温式(線形, フルントリッヒ, ラングミュア)が検討されている。 1つのモデルが1つの方程式に対応する従来のアプローチとは異なり、これらの3つの吸着型は1つのTgU-ネットサロゲートによってモデル化される。 上記の3つの吸着項は、指標を割り当てることで1つの方程式に統合される。 正確な予測は、構築されたTgU-netの十分な一般化性と外挿可能性を示している。 さらに、構築されたTgU-netサロゲートに基づいて、物理過程とパラメータを同時に識別するデータ同化法を用いる。 この研究は、深層学習とデータ同化法を用いて、複数の、あるいは不確実なプロセスを含む物理問題の方程式発見を行う可能性を示す。

Identification of unknown physical processes and parameters of groundwater contaminant sources is a challenging task due to their ill-posed and non-unique nature. Numerous works have focused on determining nonlinear physical processes through model selection methods. However, identifying corresponding nonlinear systems for different physical phenomena using numerical methods can be computationally prohibitive. With the advent of machine learning (ML) algorithms, more efficient surrogate models based on neural networks (NNs) have been developed in various disciplines. In this work, a theory-guided U-net (TgU-net) framework is proposed for surrogate modeling of three-dimensional (3D) groundwater contaminant problems in order to efficiently elucidate their involved processes and unknown parameters. In TgU-net, the underlying governing equations are embedded into the loss function of U-net as soft constraints. For the considered groundwater contaminant problem, sorption is considered to be a potential process of an uncertain type, and three equilibrium sorption isotherm types (i.e., linear, Freundlich, and Langmuir) are considered. Different from traditional approaches in which one model corresponds to one equation, these three sorption types are modeled through only one TgU-net surrogate. The three mentioned sorption terms are integrated into one equation by assigning indicators. Accurate predictions illustrate the satisfactory generalizability and extrapolability of the constructed TgU-net. Furthermore, based on the constructed TgU-net surrogate, a data assimilation method is employed to identify the physical process and parameters simultaneously. This work shows the possibility of governing equation discovery of physical problems that contain multiple and even uncertain processes by using deep learning and data assimilation methods.
翻訳日:2022-05-03 13:55:24 公開日:2022-04-30
# 重み空間における関数的不変経路を横断するフレキシブル機械学習システム

Engineering flexible machine learning systems by traversing functionally invariant paths in weight space ( http://arxiv.org/abs/2205.00334v1 )

ライセンス: Link先を確認
Guruprasad Raghavan, Matt Thomson(参考訳) ディープニューラルネットワークは、さまざまな知覚的および意思決定タスクで人間的なパフォーマンスを達成する。 しかし、深層ネットワークはタスクや目標の変更に直面すると性能が悪く、人間の知能の柔軟性や堅牢さと一致しない。 本稿では,ネットワーク重みを変調しながら与えられた機械学習タスクで同等の機能性能を達成し,二次目的の高性能を実現するパス接続型ニューラルネットワークセットを定義することにより,幅広い目的の深層ニューラルネットワークの連続的学習を可能にする数学的・アルゴリズム的枠組みを開発した。 ニューラルネットワークの重み空間を曲線リーマン多様体として捉え、重み空間内の関数不変経路に沿ってニューラルネットワークを移動させ、二次目的を満たすネットワークを探索する。 我々は,数百万の重みパラメータを持つネットワークを訓練し,性能損失を伴わずに一連の画像分類タスクを学習するパスサンプリングアルゴリズムを提案する。 本アルゴリズムは,重み付けと重みの多様化を含む2次目標の範囲を一般化し,ネットワーク圧縮と逆ロバスト性ベンチマークにおいて,技術性能の状態を提示する。 機械学習問題の本質的幾何学が、柔軟でロバストなニューラルネットワークを構築する上でどのように活用できるかを概説する。

Deep neural networks achieve human-like performance on a variety of perceptual and decision making tasks. However, deep networks perform poorly when confronted with changing tasks or goals, and broadly fail to match the flexibility and robustness of human intelligence. Here, we develop a mathematical and algorithmic framework that enables continual training of deep neural networks on a broad range of objectives by defining path connected sets of neural networks that achieve equivalent functional performance on a given machine learning task while modulating network weights to achieve high-performance on a secondary objective. We view the weight space of a neural network as a curved Riemannian manifold and move a neural network along a functionally invariant path in weight space while searching for networks that satisfy a secondary objective. We introduce a path-sampling algorithm that trains networks with millions of weight parameters to learn a series of image classification tasks without performance loss. The algorithm generalizes to accommodate a range of secondary objectives including weight-pruning and weight diversification and exhibits state of the art performance on network compression and adversarial robustness benchmarks. Broadly, we demonstrate how the intrinsic geometry of machine learning problems can be harnessed to construct flexible and robust neural networks.
翻訳日:2022-05-03 13:53:55 公開日:2022-04-30
# 自己一致損失を伴う直交統計的学習

Orthogonal Statistical Learning with Self-Concordant Loss ( http://arxiv.org/abs/2205.00350v1 )

ライセンス: Link先を確認
Lang Liu, Carlos Cinelli, Zaid Harchaoui(参考訳) 直交統計学習と二重機械学習は、ニュアンス成分の存在下での2段階統計予測の一般的なフレームワークとして登場した。 自己一致性を満たす損失関数を持つ直交統計学習法の過剰なリスクに対する漸近的境界を確立する。 我々の境界は、強い凸性の仮定を持ち上げながら、次元係数によって既存の境界を改善する。 本稿では,多重処理効果推定と一般化部分線形モデリングの例を示す。

Orthogonal statistical learning and double machine learning have emerged as general frameworks for two-stage statistical prediction in the presence of a nuisance component. We establish non-asymptotic bounds on the excess risk of orthogonal statistical learning methods with a loss function satisfying a self-concordance property. Our bounds improve upon existing bounds by a dimension factor while lifting the assumption of strong convexity. We illustrate the results with examples from multiple treatment effect estimation and generalized partially linear modeling.
翻訳日:2022-05-03 13:52:53 公開日:2022-04-30
# 文書レベルイベント引数抽出のための2ストリームamrエンハンスモデル

A Two-Stream AMR-enhanced Model for Document-level Event Argument Extraction ( http://arxiv.org/abs/2205.00241v1 )

ライセンス: Link先を確認
Runxin Xu, Peiyi Wang, Tianyu Liu, Shuang Zeng, Baobao Chang, Zhifang Sui(参考訳) 従来の研究は1つの文からイベントを抽出することを目的としていたが、文書レベルのイベント抽出はまだ未探索のままである。 本稿では、主に2つの重大な問題に直面している文書全体からイベント引数を抽出することに焦点を当てる。 a) 文に対する引き金と議論の間の長距離依存性 b) ドキュメント内のイベントに対する気を散らすコンテキスト。 これらの問題に対処するために,表現強化抽出モデル(TSAR: Two-Stream Abstract)を提案する。 TSARは、文書を異なる視点から2ストリーム符号化モジュールでエンコードし、局所的およびグローバルな情報を活用し、混乱するコンテキストの影響を低くする。 さらにTSARは、ローカルおよびグローバルに構築されたAMRセマンティックグラフに基づいて、文内および文間両方の特徴をキャプチャするAMR誘導相互作用モジュールを導入している。 テキストスパンの境界情報を明示的に強化するために補助境界損失を導入する。 広範な実験により、TSARは、公開RAMSとWikiEventsデータセットでそれぞれ2.54 F1と5.13 F1のパフォーマンス向上で、最先端の引数抽出における優位性を示している。 コードをhttps://github.com/PKUnlp-icler/TSARでリリースします。

Most previous studies aim at extracting events from a single sentence, while document-level event extraction still remains under-explored. In this paper, we focus on extracting event arguments from an entire document, which mainly faces two critical problems: a) the long-distance dependency between trigger and arguments over sentences; b) the distracting context towards an event in the document. To address these issues, we propose a Two-Stream Abstract meaning Representation enhanced extraction model (TSAR). TSAR encodes the document from different perspectives by a two-stream encoding module, to utilize local and global information and lower the impact of distracting context. Besides, TSAR introduces an AMR-guided interaction module to capture both intra-sentential and inter-sentential features, based on the locally and globally constructed AMR semantic graphs. An auxiliary boundary loss is introduced to enhance the boundary information for text spans explicitly. Extensive experiments illustrate that TSAR outperforms previous state-of-the-art by a large margin, with 2.54 F1 and 5.13 F1 performance gain on the public RAMS and WikiEvents datasets respectively, showing the superiority in the cross-sentence arguments extraction. We release our code in https://github.com/ PKUnlp-icler/TSAR.
翻訳日:2022-05-03 13:26:52 公開日:2022-04-30
# 肺結節検出のための教師なしコントラスト学習型トランス

Unsupervised Contrastive Learning based Transformer for Lung Nodule Detection ( http://arxiv.org/abs/2205.00122v1 )

ライセンス: Link先を確認
Chuang Niu and Ge Wang(参考訳) CTによる肺結節の早期発見は,肺癌患者の長期生存と生活の質の向上に不可欠である。 CAD (Computer-Aided Detection/diagnosis) はこの文脈において第2または同時読影器として有用である。 しかし, 肺結節の正確な検出は, 肺結節の大きさ, 位置, 出現の多様性だけでなく, 肺構造の複雑さから, CADシステムや放射線技師にとっても依然として困難である。 これはCADの偽陽性率が高く、臨床効果を阻害する。 近年のコンピュータビジョン技術に触発された本研究では,肺結節を同定する自己教師型領域ベース3Dトランスフォーマーモデルを提案する。 具体的には、CT画像量を非オーバーラップ立方体列に分割し、各立方体から埋め込み層で埋め込み特徴を抽出し、予測のための自己保持機構ですべての埋め込み特徴を解析する3D視覚変換器(ViT)を開発した。 比較的小さなデータセット上で変圧器モデルを効果的に訓練するために、領域ベースコントラスト学習法を用いて、3次元変圧器をパブリックCT画像で事前訓練することにより性能を向上させる。 提案手法は,一般的に使用される3次元畳み込みニューラルネットワークと比較して,肺結節スクリーニングの性能を著しく向上できることを示す。

Early detection of lung nodules with computed tomography (CT) is critical for the longer survival of lung cancer patients and better quality of life. Computer-aided detection/diagnosis (CAD) is proven valuable as a second or concurrent reader in this context. However, accurate detection of lung nodules remains a challenge for such CAD systems and even radiologists due to not only the variability in size, location, and appearance of lung nodules but also the complexity of lung structures. This leads to a high false-positive rate with CAD, compromising its clinical efficacy. Motivated by recent computer vision techniques, here we present a self-supervised region-based 3D transformer model to identify lung nodules among a set of candidate regions. Specifically, a 3D vision transformer (ViT) is developed that divides a CT image volume into a sequence of non-overlap cubes, extracts embedding features from each cube with an embedding layer, and analyzes all embedding features with a self-attention mechanism for the prediction. To effectively train the transformer model on a relatively small dataset, the region-based contrastive learning method is used to boost the performance by pre-training the 3D transformer with public CT images. Our experiments show that the proposed method can significantly improve the performance of lung nodule screening in comparison with the commonly used 3D convolutional neural networks.
翻訳日:2022-05-03 13:25:48 公開日:2022-04-30
# 自己プログラム型人工知能の初期展望

An Initial Look at Self-Reprogramming Artificial Intelligence ( http://arxiv.org/abs/2205.00167v1 )

ライセンス: Link先を確認
Alex Sheng(参考訳) ディープラーニング研究の急速な進歩は、人工知能技術の能力を大きく広げた。 従来のAIモデルは、明示的な人間設計アルゴリズムに制約されているが、メタラーニング、ニューラルアーキテクチャサーチ、関連するアプローチでは、ある程度の自己修正アルゴリズムが研究されている。 本稿では,最初の完全自己プログラム型AIシステムの開発と実験的検討を行う。 AIベースのコンピュータコード生成をAI自体に適用することで、ニューラルネットワークのソースコードを継続的に修正し書き換えるアルゴリズムを実装します。

Rapid progress in deep learning research has greatly extended the capabilities of artificial intelligence technology. Conventional AI models are constrained to explicit human-designed algorithms, although a growing body of work in meta-learning, neural architecture search, and related approaches have explored algorithms that self-modify to some extent. In this paper, we develop and experimentally validate the first fully self-reprogramming AI system. Applying AI-based computer code generation to AI itself, we implement an algorithm with the ability to continuously modify and rewrite its own neural network source code.
翻訳日:2022-05-03 13:20:30 公開日:2022-04-30
# PGD - データ駆動分析のための大規模プロフェッショナルGoデータセット

PGD: A Large-scale Professional Go Dataset for Data-driven Analytics ( http://arxiv.org/abs/2205.00254v1 )

ライセンス: Link先を確認
Yifan Gao(参考訳) リー・セドル選手は,AlphaGoとの競争の後,この伝説が再び盛り上がっている。キージー選手は世界選手権で無敵だ。今回はまだ優勝できるのか? goは東アジアで最も人気のあるボードゲームの一つで、中国、日本、韓国で何十年も続いている安定したプロスポーツシステムを備えている。 サッカー、バスケットボール、eスポーツなど、多くのスポーツには成熟したデータ駆動分析技術がある。 しかし、データセット、メタ情報、ゲーム内統計の欠如により、Goのこのようなテクノロジの開発は簡単で難しいままである。 本稿では1950年から2021年までの2,148人のプロ選手による98,043のゲームを含むプロフェッショナル囲碁データセット(PGD)を作成する。 手動のクリーニングとラベリングの後、プレイヤー、ゲーム、トーナメントごとに詳細なメタ情報を提供します。 さらに、データセットは、高度なalphazeroベースのaiによって評価されたマッチの各移動の分析結果を含む。 PGDのベンチマークを確立するために,ゲーム状態を示すGoに関する事前知識に基づいて,さらにデータを分析し,意味のあるゲーム内特徴を抽出する。 メタ情報の完全化とゲーム内機能の構築により,結果予測システムは75.30%の精度を達成し,最先端のアプローチ(64%-65%)よりもはるかに高い精度を実現した。 私たちが知る限り、PGDはGoやボードゲームにおけるデータ駆動分析のための最初のデータセットです。 この有望な結果に加えて、データセットの恩恵を受けるタスクの例も提供します。 本稿の最終的な目標は、この古代ゲームと現代のデータサイエンスコミュニティを橋渡しすることである。 Go関連の分析研究を進め、ファンエクスペリエンスを高め、プレイヤーの能力向上を支援し、他の有望な側面を促進する。 データセットは一般公開される予定だ。

Lee Sedol is on a winning streak--does this legend rise again after the competition with AlphaGo? Ke Jie is invincible in the world championship--can he still win the title this time? Go is one of the most popular board games in East Asia, with a stable professional sports system that has lasted for decades in China, Japan, and Korea. There are mature data-driven analysis technologies for many sports, such as soccer, basketball, and esports. However, developing such technology for Go remains nontrivial and challenging due to the lack of datasets, meta-information, and in-game statistics. This paper creates the Professional Go Dataset (PGD), containing 98,043 games played by 2,148 professional players from 1950 to 2021. After manual cleaning and labeling, we provide detailed meta-information for each player, game, and tournament. Moreover, the dataset includes analysis results for each move in the match evaluated by advanced AlphaZero-based AI. To establish a benchmark for PGD, we further analyze the data and extract meaningful in-game features based on prior knowledge related to Go that can indicate the game status. With the help of complete meta-information and constructed in-game features, our results prediction system achieves an accuracy of 75.30%, much higher than several state-of-the-art approaches (64%-65%). As far as we know, PGD is the first dataset for data-driven analytics in Go and even in board games. Beyond this promising result, we provide more examples of tasks that benefit from our dataset. The ultimate goal of this paper is to bridge this ancient game and the modern data science community. It will advance research on Go-related analytics to enhance the fan experience, help players improve their ability, and facilitate other promising aspects. The dataset will be made publicly available.
翻訳日:2022-05-03 13:20:21 公開日:2022-04-30
# 連続学習のための基礎モデル--潜在リプレイの実証的研究

Foundational Models for Continual Learning: An Empirical Study of Latent Replay ( http://arxiv.org/abs/2205.00329v1 )

ライセンス: Link先を確認
Oleksiy Ostapenko, Timothee Lesort, Pau Rodr\'iguez, Md Rifat Arefin, Arthur Douillard, Irina Rish, Laurent Charlin(参考訳) 大規模プレトレーニングの迅速な開発は、様々な下流タスクやドメインにおいて効果的な特徴抽出器として機能する基盤モデルをもたらす。 そこで我々は,下流連続学習(CL)の基盤として,事前学習型視覚モデルの有効性について検討した。 私たちの目標は2倍です。 まず、生データ空間におけるCLと事前学習エンコーダの潜在空間における計算精度のトレードオフを理解したい。 第2に,エンコーダの特性,事前学習アルゴリズム,データ,結果の潜在空間がcl性能に与える影響について検討する。 そこで本研究では,大規模ベンチマークシナリオにおける事前学習モデルの有効性を,潜時および生データ空間におけるバニラ再生設定と比較する。 特に本研究は,clアルゴリズムに必ずしも依存しない入力データ特性に,転送,忘れる,タスクの類似性,学習がどのように依存しているかを示す。 まず、ある状況下では、非パラメトリック分類器でCL性能が容易に実現できることを示す。 次に、より広いデータで事前トレーニングされたモデルが、様々なリプレイサイズのパフォーマンスを改善する方法を示す。 これらの表現の表現的類似性と伝達特性でこれを説明する。 最後に,事前学習領域と比較して,配信外である下流領域に対する自己指導型事前学習の有効性を示す。 我々は,表現のアンサンブルを含む潜在CLの有効性をさらに高めるいくつかの研究方向を指摘し,検証した。 この研究で使用される多様なデータセットは、さらなるCL研究のための計算効率の高い遊び場として機能する。 コードベースはhttps://github.com/oleksost/latent_clで利用可能である。

Rapid development of large-scale pre-training has resulted in foundation models that can act as effective feature extractors on a variety of downstream tasks and domains. Motivated by this, we study the efficacy of pre-trained vision models as a foundation for downstream continual learning (CL) scenarios. Our goal is twofold. First, we want to understand the compute-accuracy trade-off between CL in the raw-data space and in the latent space of pre-trained encoders. Second, we investigate how the characteristics of the encoder, the pre-training algorithm and data, as well as of the resulting latent space affect CL performance. For this, we compare the efficacy of various pre-trained models in large-scale benchmarking scenarios with a vanilla replay setting applied in the latent and in the raw-data space. Notably, this study shows how transfer, forgetting, task similarity and learning are dependent on the input data characteristics and not necessarily on the CL algorithms. First, we show that under some circumstances reasonable CL performance can readily be achieved with a non-parametric classifier at negligible compute. We then show how models pre-trained on broader data result in better performance for various replay sizes. We explain this with representational similarity and transfer properties of these representations. Finally, we show the effectiveness of self-supervised pre-training for downstream domains that are out-of-distribution as compared to the pre-training domain. We point out and validate several research directions that can further increase the efficacy of latent CL including representation ensembling. The diverse set of datasets used in this study can serve as a compute-efficient playground for further CL research. The codebase is available under https://github.com/oleksost/latent_CL.
翻訳日:2022-05-03 13:19:51 公開日:2022-04-30
# (参考訳) TJ4DRadSet:自動運転のための4Dレーダデータセット

TJ4DRadSet: A 4D Radar Dataset for Autonomous Driving ( http://arxiv.org/abs/2204.13483v2 )

ライセンス: CC BY 4.0
Lianqing Zheng, Zhixiong Ma, Xichan Zhu, Bin Tan, Sen Li, Kai Long, Weiqi Sun, Sihan Chen, Lu Zhang, Mengyue Wan, Libo Huang, Jie Bai(参考訳) 次世代の4D高解像度イメージングレーダーは、大量の点雲だけでなく、高度測定も可能で、自動運転における3Dセンシングの可能性が大きい。 本稿では,TJ4DRadSetという自律走行データセットを導入し,約40Kフレームの4次元レーダ,ライダー,カメラ,GNSSを含むマルチモーダルセンサについて述べる。 様々な運転シナリオにおける連続44列以内7757フレームは、3DバウンディングボックスとトラックIDでよく注釈付けされている。 4次元レーダーを用いた3次元物体検出ベースラインをデータセットに提供し,4次元レーダーポイントクラウドにおけるディープラーニング手法の有効性を実証した。

The new generation of 4D high-resolution imaging radar provides not only a huge amount of point cloud but also additional elevation measurement, which has a great potential of 3D sensing in autonomous driving. In this paper, we introduce an autonomous driving dataset named TJ4DRadSet, including multi-modal sensors that are 4D radar, lidar, camera and GNSS, with about 40K frames in total. 7757 frames within 44 consecutive sequences in various driving scenarios are well annotated with 3D bounding boxes and track id. We provide a 4D radar-based 3D object detection baseline for our dataset to demonstrate the effectiveness of deep learning methods for 4D radar point clouds.
翻訳日:2022-05-03 11:44:00 公開日:2022-04-30
# (参考訳) 機械の残存寿命予測のための説明可能な回帰フレームワーク

An Explainable Regression Framework for Predicting Remaining Useful Life of Machines ( http://arxiv.org/abs/2204.13574v2 )

ライセンス: CC BY 4.0
Talhat Khan, Kashif Ahmad, Jebran Khan, Imran Khan, Nasir Ahmad(参考訳) 機械の残留実用寿命(RUL)の予測は、予測保守における重要なタスクの1つである。 このタスクは、機械学習(ML)アルゴリズムを使用してマシンコンポーネントのRULを予測する回帰問題として扱われる。 これらのMLアルゴリズムは一般に、アルゴリズムの決定と動作メカニズムの背後にある潜在的な原因を特定することなく、パフォーマンスに全力を注ぐブラックボックスとして使用される。 私たちは、パフォーマンス(平均二乗誤差(MSE)など)だけでは、予測の背後にある原因に関する洞察よりも、ML予測における利害関係者の信頼を構築するには不十分だと信じています。 本稿では,機械のRUL予測のための説明可能な回帰フレームワークを提案することにより,説明可能なAI(XAI)技術の可能性を検討する。 また,そのタスクに対する古典的およびニューラルネットワーク(nns)ベースのソリューションを含む,いくつかのmlアルゴリズムを評価した。 説明のために、我々は2つのモデル非依存XAIメソッド、すなわちLocal Interpretable Model-Agnostic Explanations (LIME)とShapley Additive Explanations (SHAP)に依存している。 我々は、この研究が将来の研究のベースラインとなると信じている。

Prediction of a machine's Remaining Useful Life (RUL) is one of the key tasks in predictive maintenance. The task is treated as a regression problem where Machine Learning (ML) algorithms are used to predict the RUL of machine components. These ML algorithms are generally used as a black box with a total focus on the performance without identifying the potential causes behind the algorithms' decisions and their working mechanism. We believe, the performance (in terms of Mean Squared Error (MSE), etc.,) alone is not enough to build the trust of the stakeholders in ML prediction rather more insights on the causes behind the predictions are needed. To this aim, in this paper, we explore the potential of Explainable AI (XAI) techniques by proposing an explainable regression framework for the prediction of machines' RUL. We also evaluate several ML algorithms including classical and Neural Networks (NNs) based solutions for the task. For the explanations, we rely on two model agnostic XAI methods namely Local Interpretable Model-Agnostic Explanations (LIME) and Shapley Additive Explanations (SHAP). We believe, this work will provide a baseline for future research in the domain.
翻訳日:2022-05-03 11:18:12 公開日:2022-04-30