このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20220522)

# 周波数多重化に基づくフォトニック貯水池コンピュータ

Photonic reservoir computer based on frequency multiplexing ( http://arxiv.org/abs/2008.11247v2 )

ライセンス: Link先を確認
Lorenz Butschek, Akram Akrout, Evangelia Dimitriadou, Alessandro Lupo, Marc Haelterman, Serge Massar(参考訳) 貯水池コンピューティングは脳に触発された情報処理のアプローチであり、類似の実装に適している。 本稿では,周波数領域多重化を利用してニューロン状態を符号化するリザーバコンピュータのフォトニック実装について報告する。 このシステムは同時に25個のコムライン(すなわち25個のニューロン)を20MHzの速度で処理する。 我々は、チャネル等化と時系列予測という2つの標準ベンチマークタスクのパフォーマンスを示す。 また、周波数多重化により、光減衰により出力重みを光学領域に実装できることを示す。 高速高パフォーマンス低フットプリント実装の展望について考察する。

Reservoir computing is a brain inspired approach for information processing, well suited to analogue implementations. We report a photonic implementation of a reservoir computer that exploits frequency domain multiplexing to encode neuron states. The system processes 25 comb lines simultaneously (i.e. 25 neurons), at a rate of 20 MHz. We illustrate performances on two standard benchmark tasks: channel equalization and time series forecasting. We also demonstrate that frequency multiplexing allows output weights to be implemented in the optical domain, through optical attenuation. We discuss the perspectives for high speed high performance low footprint implementations.
翻訳日:2022-10-25 03:52:40 公開日:2022-05-22
# (参考訳) 社会実践:完全な形式化

Social Practices: a Complete Formalization ( http://arxiv.org/abs/2206.06088v1 )

ライセンス: CC BY 4.0
Frank Dignum(参考訳) マルチエージェントモデルは複雑な社会的相互作用をモデル化するのに適した出発点である。 しかし、システムの複雑さが増大するにつれて、多くの異種集団(ソフトウェアエージェント、ロボット、人間)が相互に相互作用し、反応している社会の様々なレベルにおける相互依存に対処できる新しいモデリングアプローチが必要であると論じる。 本稿では,社会的実践の概念に基づくエージェントのための社会的枠組みを,ある社会的文脈における正常な(予測された)行動の高レベルな仕様として定式化する。 社会的実践は、標準的な社会的相互作用におけるエージェントの実践的推論を促進する。 したがって、コンベンションや規範のように複雑な状況に対する審議を支援することができる。 しかし、それらはまた、通常の機能的審議の上に、社会的計画と審議のハンドルを与える社会的文脈も備えている。 本論文の主な目的は,社会学習を行うための基礎となる社会実践の形式化と,社会的学習を行うための正確な構造を定義することである。

Multi-agent models are a suitable starting point to model complex social interactions. However, as the complexity of the systems increase, we argue that novel modeling approaches are needed that can deal with inter-dependencies at different levels of society, where many heterogeneous parties (software agents, robots, humans) are interacting and reacting to each other. In this paper, we present a formalization of a social framework for agents based on the concept of Social Practices as high level specifications of normal (expected) behavior in a given social context. We argue that social practices facilitate the practical reasoning of agents in standard social interactions. Thus they can support deliberations for complex situations just like conventions and norms. However, they also come with a social context that gives handles for social planning and deliberation in top of the normal functional deliberation. The main goal of this paper is to give a formalization of social practices that can be used as a basis for implementations and defining precise structures within which social learning can take place.
翻訳日:2022-06-20 01:38:58 公開日:2022-05-22
# エッジグラフニューラルネットワークによる大規模mimo検出

Edge Graph Neural Networks for Massive MIMO Detection ( http://arxiv.org/abs/2206.06979v1 )

ライセンス: Link先を確認
Hongyi Li, Junxiang Wang, Yongchao Wang(参考訳) 無線通信システムにおけるMIMO(Massive Multiple-Input Multiple-Out)検出は重要な問題である。 従来のBreief Propagation(BP)検出器はループグラフでは性能が良くないが、最近のグラフニューラルネットワーク(GNN)ベースの手法はBPの欠点を克服し、優れた性能を実現することができる。 それでも、GNNの直接使用はエッジ属性の重要性を無視し、完全に連結されたグラフ構造を用いて高い計算オーバーヘッドを被る。 本稿では,EGNN(Edge Graph Neural Network)と呼ばれる,効率的なGNNインスパイアされたアルゴリズムを提案し,MIMO信号を検出する。 まず、チャネル相関を用いてグラフエッジ重みを計算し、得られた重みを計量として利用して各ノードの近傍の重要性を評価する。 さらに,計算コストを大幅に削減できるように,適応的なエッジドロップ(ED)方式を設計する。 実験結果から,提案したEGNNは,変調方式の異なるMIMO検出手法よりも優れた性能を示し,GNNベースの手法に比べて検出時間が短い。

Massive Multiple-Input Multiple-Out (MIMO) detection is an important problem in modern wireless communication systems. While traditional Belief Propagation (BP) detectors perform poorly on loopy graphs, the recent Graph Neural Networks (GNNs)-based method can overcome the drawbacks of BP and achieve superior performance. Nevertheless, direct use of GNN ignores the importance of edge attributes and suffers from high computation overhead using a fully connected graph structure. In this paper, we propose an efficient GNN-inspired algorithm, called the Edge Graph Neural Network (EGNN), to detect MIMO signals. We first compute graph edge weights through channel correlation and then leverage the obtained weights as a metric to evaluate the importance of neighbors of each node. Moreover, we design an adaptive Edge Drop (ED) scheme to sparsify the graph such that computational cost can be significantly reduced. Experimental results demonstrate that our proposed EGNN achieves better or comparable performance to popular MIMO detection methods for different modulation schemes and costs the least detection time compared to GNN-based approaches.
翻訳日:2022-06-19 23:29:40 公開日:2022-05-22
# (参考訳) ラベル保存によるフレーズレベルのテキスト・アタック

Phrase-level Textual Adversarial Attack with Label Preservation ( http://arxiv.org/abs/2205.10710v1 )

ライセンス: CC BY 4.0
Yibin Lei, Yu Cao, Dianqi Li, Tianyi Zhou, Meng Fang, Mykola Pechenizkiy(参考訳) 高品質なテキスト対逆例を生成することは、自然言語処理(NLP)モデルの落とし穴の調査と、その堅牢性の向上に不可欠である。 既存の攻撃は通常、単語レベルの摂動または文レベルの摂動によって実現され、摂動空間を制限するか、フラレンシーとテキストの質を犠牲にするかのどちらかであり、どちらも攻撃効果に影響を与える。 本稿では,語句レベルの摂動を通じて,対数サンプルを生成するPhrase-Level Textual Adversarial aTtack(PLAT)を提案する。 PLATはまず、構文解析器によって攻撃対象として脆弱なフレーズを抽出し、訓練済みの空白埋め込みモデルで摂動する。 このような柔軟な摂動設計は、多くの修正を加えることなく、より効果的な攻撃のための探索空間を実質的に拡大させ、一方で、周囲のテキストを用いた文脈化生成を通じて、テキストの流束性と文法性を維持する。 さらに、テキストの類似性ではなく、各クラスで微調整された言語モデルの可能性を利用したラベル保存フィルタを開発し、人間の元のクラスラベルを変更する可能性のある摂動を排除した。 広範囲な実験と人的評価により、PLATは強力なベースラインよりも優れた攻撃効果とラベル一貫性を有することが示された。

Generating high-quality textual adversarial examples is critical for investigating the pitfalls of natural language processing (NLP) models and further promoting their robustness. Existing attacks are usually realized through word-level or sentence-level perturbations, which either limit the perturbation space or sacrifice fluency and textual quality, both affecting the attack effectiveness. In this paper, we propose Phrase-Level Textual Adversarial aTtack (PLAT) that generates adversarial samples through phrase-level perturbations. PLAT first extracts the vulnerable phrases as attack targets by a syntactic parser, and then perturbs them by a pre-trained blank-infilling model. Such flexible perturbation design substantially expands the search space for more effective attacks without introducing too many modifications, and meanwhile maintaining the textual fluency and grammaticality via contextualized generation using surrounding texts. Moreover, we develop a label-preservation filter leveraging the likelihoods of language models fine-tuned on each class, rather than textual similarity, to rule out those perturbations that potentially alter the original class label for humans. Extensive experiments and human evaluation demonstrate that PLAT has a superior attack effectiveness as well as a better label consistency than strong baselines.
翻訳日:2022-05-30 07:14:18 公開日:2022-05-22
# (参考訳) アクティブソースフリードメイン適応

Active Source Free Domain Adaptation ( http://arxiv.org/abs/2205.10711v1 )

ライセンス: CC BY 4.0
Fan Wang, Zhongyi Han, Zhiyan Zhang, Yilong Yin(参考訳) source free domain adaptation (sfda) は、トレーニング済みのソースモデルを、ソースデータにアクセスせずにラベルなしのターゲットドメインに転送することを目的としている。 しかし,最新のsfda手法の性能向上が限定されたことが示されるように,ソースデータや対象情報の欠如により,sfda設定は効果ボトルネックに直面している。 本稿では,専門家によってラベル付けされる少数のターゲットデータを積極的に選択できる,ASFDA(Active Source Free Domain Adaptation)という,より実用的なシナリオを紹介した。 それを達成するために、まず、隣り合うカオス、個人差、ターゲットのような性質を満たすものが選択すべき最善の点であることを発見し、それらを最小幸福(mh)点と定義する。 次に,MHPLを積極的に探索し,活用するために,最小幸福点学習(MHPL)を提案する。 周辺環境の不確実性、近隣の多様性緩和、MH点探索のためのワンショットクエリという3つのユニークな戦略を設計する。 さらに,学習過程におけるMH点を完全に活用するために,重み付けされた近傍の純度をMH点のクロスエントロピー損失に割り当てた近傍の焦点損失を設計し,モデルがより重視されるようにした。 大規模な実験により、MHPLは様々な種類のベースラインを著しく超え、少量のラベリングコストで大幅な性能向上を実現している。

Source free domain adaptation (SFDA) aims to transfer a trained source model to the unlabeled target domain without accessing the source data. However, the SFDA setting faces an effect bottleneck due to the absence of source data and target supervised information, as evidenced by the limited performance gains of newest SFDA methods. In this paper, for the first time, we introduce a more practical scenario called active source free domain adaptation (ASFDA) that permits actively selecting a few target data to be labeled by experts. To achieve that, we first find that those satisfying the properties of neighbor-chaotic, individual-different, and target-like are the best points to select, and we define them as the minimum happy (MH) points. We then propose minimum happy points learning (MHPL) to actively explore and exploit MH points. We design three unique strategies: neighbor ambient uncertainty, neighbor diversity relaxation, and one-shot querying, to explore the MH points. Further, to fully exploit MH points in the learning process, we design a neighbor focal loss that assigns the weighted neighbor purity to the cross-entropy loss of MH points to make the model focus more on them. Extensive experiments verify that MHPL remarkably exceeds the various types of baselines and achieves significant performance gains at a small cost of labeling.
翻訳日:2022-05-30 06:50:03 公開日:2022-05-22
# (参考訳) housekeep:コモンセンス推論による仮想世帯の整理

Housekeep: Tidying Virtual Households using Commonsense Reasoning ( http://arxiv.org/abs/2205.10712v1 )

ライセンス: CC BY 4.0
Yash Kant, Arun Ramachandran, Sriram Yenamandra, Igor Gilitschenski, Dhruv Batra, Andrew Szot, Harsh Agrawal(参考訳) 本稿では,インボデードAIの家庭における常識推論を評価するためのベンチマークであるHousekeepを紹介する。 ハウスキープでは、具体化エージェントは、どのオブジェクトを再配置する必要があるかを明示的な指示なしで、配置のずれたオブジェクトを並べ替えることで、家を整列しなければならない。 その代わりに、エージェントは、汚れた家にある対象の人間の好みから学び、評価されなければならない。 具体的には、1799のオブジェクト、268のオブジェクトカテゴリ、585の配置、105の部屋からなる、整然とした家々にオブジェクトを配置するデータセットを収集します。 次に,計画,探索,ナビゲーションを統合したHousekeepのモジュールベースラインアプローチを提案する。 効果的な計画のために、インターネットテキストコーパスで訓練された微調整された大型言語モデル(LLM)を利用する。 ベースラインエージェントは未知の環境下で見えない物体を並べ替えることに一般化することを示す。 詳細はwebページhttps://yashkant.github.io/housekeep/を参照。

We introduce Housekeep, a benchmark to evaluate commonsense reasoning in the home for embodied AI. In Housekeep, an embodied agent must tidy a house by rearranging misplaced objects without explicit instructions specifying which objects need to be rearranged. Instead, the agent must learn from and is evaluated against human preferences of which objects belong where in a tidy house. Specifically, we collect a dataset of where humans typically place objects in tidy and untidy houses constituting 1799 objects, 268 object categories, 585 placements, and 105 rooms. Next, we propose a modular baseline approach for Housekeep that integrates planning, exploration, and navigation. It leverages a fine-tuned large language model (LLM) trained on an internet text corpus for effective planning. We show that our baseline agent generalizes to rearranging unseen objects in unknown environments. See our webpage for more details: https://yashkant.github.io/housekeep/
翻訳日:2022-05-30 06:31:40 公開日:2022-05-22
# (参考訳) 反復逆推論による解釈可能な証明生成

Interpretable Proof Generation via Iterative Backward Reasoning ( http://arxiv.org/abs/2205.10714v1 )

ライセンス: CC BY 4.0
Hanhao Qu, Yu Cao, Jun Gao, Liang Ding, Ruifeng Xu(参考訳) 本稿では,規則に基づく質問応答 (qa) における証明生成課題を解決するための反復的逆推論モデル ibr を提案する。 既存の作品の限界を2つの折りたたみで処理します。 1) 証明経路のノード及びエッジを問題から反復的に予測することにより,詳細な追跡による推論手順の解釈性を高めること。 2) 証明生成時に外部ノイズを発生させる可能性のある中間テキストなしで, ノードや履歴経路の精巧な表現を推論することで, 効率と精度を向上する。 ibr、qa、および証明戦略予測の3つの主要なモジュールがあり、回答を得て、以下の手順のためのガイダンスを提供する。 親ノード予測 新しい子ノードがリンクする既存の証明内のノードを決定するための親ノード予測、証明にどの新しいノードを追加するかを見つける子ノード予測。 合成データセットとパラフレッシュデータセットの両方の実験により、ibrは複数の強力なベースラインよりもドメイン内性能とクロスドメイン転送性が優れていることが示されている。 私たちのコードとモデルはhttps://github.com/find-knowledge/ibrで利用可能です。

We present IBR, an Iterative Backward Reasoning model to solve the proof generation tasks on rule-based Question Answering (QA), where models are required to reason over a series of textual rules and facts to find out the related proof path and derive the final answer. We handle the limitations of existed works in two folds: 1) enhance the interpretability of reasoning procedures with detailed tracking, by predicting nodes and edges in the proof path iteratively backward from the question; 2) promote the efficiency and accuracy via reasoning on the elaborate representations of nodes and history paths, without any intermediate texts that may introduce external noise during proof generation. There are three main modules in IBR, QA and proof strategy prediction to obtain the answer and offer guidance for the following procedure; parent node prediction to determine a node in the existing proof that a new child node will link to; child node prediction to find out which new node will be added to the proof. Experiments on both synthetic and paraphrased datasets demonstrate that IBR has better in-domain performance as well as cross-domain transferability than several strong baselines. Our code and models are available at https://github.com/find-knowledge/IBR .
翻訳日:2022-05-30 05:58:25 公開日:2022-05-22
# (参考訳) Convex Constrained Markov Decision Processsのポリシーに基づくPrimal-Dual法

Policy-based Primal-Dual Methods for Convex Constrained Markov Decision Processes ( http://arxiv.org/abs/2205.10715v1 )

ライセンス: CC0 1.0
Donghao Ying, Mengzi Guo, Yuhao Ding, Javad Lavaei, Zuo-Jun (Max) Shen(参考訳) 本研究では,目的が凹凸であり,制約が状態行動訪問分布において凸となる凸拘束マルコフ決定過程(cmdps)について検討する。 本稿では,ポリシー勾配上昇によるプライマリ変数の更新と,予測されたサブ段階降下によるデュアル変数の更新を提案する。 加法構造と非凸性が失われているにもかかわらず、一般のソフトマックスパラメータ化の下で問題内の隠れ凸性を利用して提案アルゴリズムのグローバル収束を確立し、最適性ギャップと制約違反の両方の観点から$\mathcal{O}\left(T^{-1/3}\right)$収束率を証明した。 目的が訪問分布において強凹であるとき、改善された収束率を$\mathcal{O}\left(T^{-1/2}\right)$とする。 制約に悲観的項を導入することにより、最適性ギャップに対して同じ収束率を維持しながら、ゼロ制約違反が達成可能であることを示す。 この研究は、無限ホリゾンディスカウント凸cmdpを解くためのポリシーに基づく原始的手法に対する非漸近収束保証を確立する最初の文献である。

We study convex Constrained Markov Decision Processes (CMDPs) in which the objective is concave and the constraints are convex in the state-action visitation distribution. We propose a policy-based primal-dual algorithm that updates the primal variable via policy gradient ascent and updates the dual variable via projected sub-gradient descent. Despite the loss of additivity structure and the nonconvex nature, we establish the global convergence of the proposed algorithm by leveraging a hidden convexity in the problem under the general soft-max parameterization, and prove the $\mathcal{O}\left(T^{-1/3}\right)$ convergence rate in terms of both optimality gap and constraint violation. When the objective is strongly concave in the visitation distribution, we prove an improved convergence rate of $\mathcal{O}\left(T^{-1/2}\right)$. By introducing a pessimistic term to the constraint, we further show that a zero constraint violation can be achieved while preserving the same convergence rate for the optimality gap. This work is the first one in the literature that establishes non-asymptotic convergence guarantees for policy-based primal-dual methods for solving infinite-horizon discounted convex CMDPs.
翻訳日:2022-05-30 05:26:49 公開日:2022-05-22
# (参考訳) 信頼とオフライン政策の比較:ベンチマークとベースライン

Offline Policy Comparison with Confidence: Benchmarks and Baselines ( http://arxiv.org/abs/2205.10739v1 )

ライセンス: CC BY 4.0
Anurag Koul, Mariano Phielipp and Alan Fern(参考訳) 意思決定者は、オフラインの履歴データを使用して、様々な世界の州のシーケンシャルアクションポリシーを比較することを望んでいる。 重要なことは、計算ツールが統計的分散と限られたデータカバレッジを考慮するために、そのようなオフラインポリシー比較(OPC)の信頼性値を生成することである。 それでも、OPCの信頼性値の質を直接評価する作業はほとんどない。 本研究では、オフライン強化学習からデータセットにポリシー比較クエリのセットを追加することで、OPCC(OPC with Confidence)のベンチマークを作成することでこの問題に対処する。 さらに,モデルベースラインのクラスに対して,リスクとカバレッジのトレードオフを実証的に評価する。 特に、ベースラインは動的モデルのアンサンブルを学習し、信頼性のあるクエリに応答するシミュレーションを作成するために様々な方法で使用される。 結果から,一定のベースライン変動の利点が示唆されるが,今後の作業改善の余地は大きいと思われる。

Decision makers often wish to use offline historical data to compare sequential-action policies at various world states. Importantly, computational tools should produce confidence values for such offline policy comparison (OPC) to account for statistical variance and limited data coverage. Nevertheless, there is little work that directly evaluates the quality of confidence values for OPC. In this work, we address this issue by creating benchmarks for OPC with Confidence (OPCC), derived by adding sets of policy comparison queries to datasets from offline reinforcement learning. In addition, we present an empirical evaluation of the risk versus coverage trade-off for a class of model-based baselines. In particular, the baselines learn ensembles of dynamics models, which are used in various ways to produce simulations for answering queries with confidence values. While our results suggest advantages for certain baseline variations, there appears to be significant room for improvement in future work.
翻訳日:2022-05-30 05:25:37 公開日:2022-05-22
# (参考訳) 平衡オプティマイザによる複数物体のリアルタイム検出フリートラッキング

Real Time Detection Free Tracking of Multiple Objects Via Equilibrium Optimizer ( http://arxiv.org/abs/2205.10756v1 )

ライセンス: CC BY 4.0
Djemai Charef-Khodja and Toumi Abida(参考訳) 複数オブジェクト追跡(MOT)は通常、特別なハードウェアと高い計算複雑性を必要とするため、難しい作業である。 本研究では、平衡オプティマイザ(EO)アルゴリズムを用いてMOTの新しいフレームワークを提案し、オブジェクトの境界ボックスの解像度を低減し、検出自由フレームワークにおけるそのような問題を解決する。 まず、最初のフレームで対象オブジェクトを初期化し、そのサイズを計算し、しきい値以上であればその解像度を減少させ、次にカーネルカラーヒストグラムでモデル化して特徴モデルを確立する。 対象モデルのヒストグラムと他の候補とのバッタチャリヤ距離を適合度関数として用いて最適化する。 複数のエージェントは、追跡対象のオブジェクトの数に応じてEOによって生成される。 EOアルゴリズムは、グローバル最適化における他のアルゴリズムと比較して効率と計算コストの低さから用いられる。 実験結果から,EO多対象トラッカーが他のトラッカーの追従結果を満たすことが確認された。

Multiple objects tracking (MOT) is a difficult task, as it usually requires special hardware and higher computation complexity. In this work, we present a new framework of MOT by using of equilibrium optimizer (EO) algorithm and reducing the resolution of the bounding boxes of the objects to solve such problems in the detection free framework. First, in the first frame the target objects are initialized and its size is computed, then its resolution is reduced if it is higher than a threshold, and then modeled by their kernel color histogram to establish a feature model. The Bhattacharya distances between the histogram of object models and other candidates are used as the fitness function to be optimized. Multiple agents are generated by EO, according to the number of the target objects to be tracked. EO algorithm is used because of its efficiency and lower computation cost compared to other algorithms in global optimization. Experimental results confirm that EO multi-object tracker achieves satisfying tracking results then other trackers.
翻訳日:2022-05-30 04:49:23 公開日:2022-05-22
# (参考訳) シーケンシャル/セッションベースのレコメンデーション:挑戦、アプローチ、アプリケーション、機会

Sequential/Session-based Recommendations: Challenges, Approaches, Applications and Opportunities ( http://arxiv.org/abs/2205.10759v1 )

ライセンス: CC BY 4.0
Shoujin Wang, Qi Zhang, Liang Hu, Xiuzhen Zhang, Yan Wang, Charu Aggarwal(参考訳) 近年,SRS とセッションベースレコメンデーションシステム (SBRS) は,よりタイムリーかつ正確なレコメンデーションを可能にするために,ユーザの短期的かつ動的な嗜好を捉えるため,RS の新しいパラダイムとして登場した。 SRSとSBRSは広く研究されているが、この領域には様々な説明、設定、仮定、アプリケーションドメインに起因する多くの矛盾がある。 SR/SBRの領域で一般的に存在する様々な矛盾を取り除くための統一されたフレームワークと問題ステートメントを提供する作業はない。 データ特性、鍵となる課題、最も代表的かつ最先端のアプローチ、典型的な実世界の応用、そしてこの分野における重要な研究の方向性を包括的かつ体系的に示すための作業が欠如している。 この研究は、このエキサイティングで活気ある領域のさらなる研究を促進するために、これらのギャップを埋めることを目的としている。

In recent years, sequential recommender systems (SRSs) and session-based recommender systems (SBRSs) have emerged as a new paradigm of RSs to capture users' short-term but dynamic preferences for enabling more timely and accurate recommendations. Although SRSs and SBRSs have been extensively studied, there are many inconsistencies in this area caused by the diverse descriptions, settings, assumptions and application domains. There is no work to provide a unified framework and problem statement to remove the commonly existing and various inconsistencies in the area of SR/SBR. There is a lack of work to provide a comprehensive and systematic demonstration of the data characteristics, key challenges, most representative and state-of-the-art approaches, typical real-world applications and important future research directions in the area. This work aims to fill in these gaps so as to facilitate further research in this exciting and vibrant area.
翻訳日:2022-05-30 04:35:15 公開日:2022-05-22
# (参考訳) CNNはMyopicです

CNNs are Myopic ( http://arxiv.org/abs/2205.10760v1 )

ライセンス: CC BY 4.0
Vamshi C. Madala and Shivkumar Chandrasekaran(参考訳) 畳み込みニューラルネットワーク(CNN)は、一見認識不能な小さなタイルのみを用いて画像を分類する。 このようなタイルのみを用いてトレーニングされたCNNが、フルイメージでトレーニングされたCNNのパフォーマンスにマッチしたり、超えたりできることを示す。 逆に、フルイメージでトレーニングされたCNNは、小さなタイル上で同様の予測を示す。 また,この振る舞いを説明するように,畳み込みデータセットに対する最初の事前理論モデルを提案する。 このことは、CNNが最先端の精度を達成するために、画像のグローバルな構造を理解する必要はないという長年の疑いをさらに支持する。 驚くことに、過度に適合する必要はない。

We claim that Convolutional Neural Networks (CNNs) learn to classify images using only small seemingly unrecognizable tiles. We show experimentally that CNNs trained only using such tiles can match or even surpass the performance of CNNs trained on full images. Conversely, CNNs trained on full images show similar predictions on small tiles. We also propose the first a priori theoretical model for convolutional data sets that seems to explain this behavior. This gives additional support to the long standing suspicion that CNNs do not need to understand the global structure of images to achieve state-of-the-art accuracies. Surprisingly it also suggests that over-fitting is not needed either.
翻訳日:2022-05-30 04:07:54 公開日:2022-05-22
# (参考訳) 余分な文脈に対する翻訳システムはどの程度敏感か? 関連文脈によるニューラルマシン翻訳モデルにおける性別バイアスの緩和

How sensitive are translation systems to extra contexts? Mitigating gender bias in Neural Machine Translation models through relevant contexts ( http://arxiv.org/abs/2205.10762v1 )

ライセンス: CC BY 4.0
Shanya Sharma and Manan Dey and Koustuv Sinha(参考訳) Transformerベースのアーキテクチャ上に構築されたニューラル機械翻訳システムは、ワードオーバーラップのメトリクスに従って、翻訳品質の最先端性を定期的に改善している。 しかし、多くの研究は、これらのモデルがトレーニング中に含んでいる固有の性別バイアスも強調している。 そこで本研究では,これらのモデルに対して,対象とした指導命令をコンテキストとして,推論中にバイアスを修正するように指示できるかどうかを検討する。 入力とともに、関連する文脈文を翻訳することにより、3つの一般的なテストスイート(WinoMT, BUG, SimpleGen)において、翻訳における性別バイアスの低減に大きな改善が見られた。 さらに、翻訳中にコンテキストを用いてバイアスを補正する際の感度に基づいて、いくつかの大きな事前学習モデル(OPUS-MT, M2M-100)を評価するための新しい指標を提案する。 当社の手法では微調整は必要とせず、生産システムではステレオタイプによる性別占有バイアスからの脱バイアスに容易に利用できる。 我々の手法は、我々の測定値とともに、より良いバイアスのない翻訳システムを構築するために利用できることを願っている。

Neural Machine Translation systems built on top of Transformer-based architectures are routinely improving the state-of-the-art in translation quality according to word-overlap metrics. However, a growing number of studies also highlight the inherent gender bias that these models incorporate during training, which reflects poorly in their translations. In this work, we investigate whether these models can be instructed to fix their bias during inference using targeted, guided instructions as contexts. By translating relevant contextual sentences during inference along with the input, we observe large improvements in reducing the gender bias in translations, across three popular test suites (WinoMT, BUG, SimpleGen). We further propose a novel metric to assess several large pretrained models (OPUS-MT, M2M-100) on their sensitivity towards using contexts during translation to correct their biases. Our approach requires no fine-tuning, and thus can be used easily in production systems to de-bias translations from stereotypical gender-occupation bias. We hope our method, along with our metric, can be used to build better, bias-free translation systems.
翻訳日:2022-05-30 03:47:13 公開日:2022-05-22
# (参考訳) マルチオブジェクトトラッキングのための埋め込み手法の最近の進歩:調査

Recent Advances in Embedding Methods for Multi-Object Tracking: A Survey ( http://arxiv.org/abs/2205.10766v1 )

ライセンス: CC BY 4.0
Gaoang Wang, Mingli Song, Jenq-Neng Hwang(参考訳) マルチオブジェクトトラッキング(mot:multi-object tracking)は、ビデオフレームにまたがる対象オブジェクトを関連付けることを目的としている。 ディープニューラルネットワークの進歩とインテリジェントビデオ分析の需要の増加により、MOTはコンピュータビジョンコミュニティへの関心を著しく高めている。 埋め込み法はMOTにおける物体の位置推定と時間的同一性関連において重要な役割を果たす。 画像分類、オブジェクト検出、再識別、セグメンテーションなどの他のコンピュータビジョンタスクとは異なり、motへの埋め込みメソッドには大きなバリエーションがあり、体系的に分析され、まとめられていない。 本稿では,まず,パッチレベルの組込み,シングルフレーム組込み,クロスフレームジョイント組込み,相関組込み,シーケンシャル組込み,トラックレット組込み,クロストラックリレーショナル組込みといった7つの視点から,motにおける組込みメソッドの詳細な解析を行う。 さらに,既存のmotデータセットを要約し,その組込み戦略に従って既存の最先端手法の利点を分析する。 最後に,批判的かつ未調査領域と今後の研究方向について述べる。

Multi-object tracking (MOT) aims to associate target objects across video frames in order to obtain entire moving trajectories. With the advancement of deep neural networks and the increasing demand for intelligent video analysis, MOT has gained significantly increased interest in the computer vision community. Embedding methods play an essential role in object location estimation and temporal identity association in MOT. Unlike other computer vision tasks, such as image classification, object detection, re-identification, and segmentation, embedding methods in MOT have large variations, and they have never been systematically analyzed and summarized. In this survey, we first conduct a comprehensive overview with in-depth analysis for embedding methods in MOT from seven different perspectives, including patch-level embedding, single-frame embedding, cross-frame joint embedding, correlation embedding, sequential embedding, tracklet embedding, and cross-track relational embedding. We further summarize the existing widely used MOT datasets and analyze the advantages of existing state-of-the-art methods according to their embedding strategies. Finally, some critical yet under-investigated areas and future research directions are discussed.
翻訳日:2022-05-30 03:32:08 公開日:2022-05-22
# (参考訳) インテントベースセマンティックコミュニケーションのためのニューロシンボリック人工知能(AI)

Neuro-Symbolic Artificial Intelligence (AI) for Intent based Semantic Communication ( http://arxiv.org/abs/2205.10768v1 )

ライセンス: CC BY 4.0
Christo Kurisummoottil Thomas, Walid Saad(参考訳) 高度な機械推論技術を統合するインテントベースのネットワークは、将来のワイヤレス6Gシステムの基盤となるだろう。 インテントベースの通信では、ネットワークがデータ送信のセマンティクス(意味)と有効性(エンドユーザ)を考慮する必要がある。 これは、6gシステムがより少ないビットで確実に通信し、同時にヘテロジニアスユーザとの接続を提供するために必要となる。 本稿では,データの説明性を欠いた最先端技術とは対照的に,ニューロシンボリック・人工知能(nesy ai)の枠組みを,観測データの背後にある因果構造を学ぶための柱として提案する。 特に、生成フローネットワーク(GFlowNet)という新たな概念は、無線システムにおいて初めて活用され、データを生成する確率構造を学習する。 さらに、最適な符号化および復号化関数を学習するための新しい最適化問題は、より高度なセマンティック信頼性を実現する意図で厳格に定式化される。 意味的メッセージ伝達のための重要な指標を定義するために、意味的歪み、意味的類似性、意味的信頼性を含む新しい分析式が開発された。 これらの意味測度関数は、知識基盤のセマンティックな内容の定義に依拠しており、この情報測度はノードの推論能力の反映である。 シミュレーションの結果, 推論能力を利用していない従来のシステムに比べ, 効率よく通信できる能力(ビットが少ないが, 意味が同じ)を検証した。

Intent-based networks that integrate sophisticated machine reasoning technologies will be a cornerstone of future wireless 6G systems. Intent-based communication requires the network to consider the semantics (meanings) and effectiveness (at end-user) of the data transmission. This is essential if 6G systems are to communicate reliably with fewer bits while simultaneously providing connectivity to heterogeneous users. In this paper, contrary to state of the art, which lacks explainability of data, the framework of neuro-symbolic artificial intelligence (NeSy AI) is proposed as a pillar for learning causal structure behind the observed data. In particular, the emerging concept of generative flow networks (GFlowNet) is leveraged for the first time in a wireless system to learn the probabilistic structure which generates the data. Further, a novel optimization problem for learning the optimal encoding and decoding functions is rigorously formulated with the intent of achieving higher semantic reliability. Novel analytical formulations are developed to define key metrics for semantic message transmission, including semantic distortion, semantic similarity, and semantic reliability. These semantic measure functions rely on the proposed definition of semantic content of the knowledge base and this information measure is reflective of the nodes' reasoning capabilities. Simulation results validate the ability to communicate efficiently (with less bits but same semantics) and significantly better compared to a conventional system which does not exploit the reasoning capabilities.
翻訳日:2022-05-30 02:25:48 公開日:2022-05-22
# (参考訳) 速い速度で高速な計器学習

Fast Instrument Learning with Faster Rates ( http://arxiv.org/abs/2205.10772v1 )

ライセンス: CC BY 4.0
Ziyu Wang, Yuhao Zhou, Jun Zhu(参考訳) 非線形インストゥルメンタル変数 (iv) の回帰を高次元の機器に与えて検討する。 ブラックボックスとしてアクセスされるカーネル化IV法と任意の適応回帰アルゴリズムを組み合わせた簡単なアルゴリズムを提案する。 このアルゴリズムは高速収束を享受し,情報的潜在特徴の次元性に適応する一方で,同様の保証を確立するために必要なコストのかかるミニマックス最適化手順を回避できる。 さらに、準ベイズの不確かさの定量化、確率に基づくモデル選択、モデルの平均化に柔軟な機械学習モデルの利点をもたらす。 シミュレーション研究は,本手法の競争力を示す。

We investigate nonlinear instrumental variable (IV) regression given high-dimensional instruments. We propose a simple algorithm which combines kernelized IV methods and an arbitrary, adaptive regression algorithm, accessed as a black box. Our algorithm enjoys faster-rate convergence and adapts to the dimensionality of informative latent features, while avoiding an expensive minimax optimization procedure, which has been necessary to establish similar guarantees. It further brings the benefit of flexible machine learning models to quasi-Bayesian uncertainty quantification, likelihood-based model selection, and model averaging. Simulation studies demonstrate the competitive performance of our method.
翻訳日:2022-05-30 02:13:03 公開日:2022-05-22
# (参考訳) ニュースにおける言語バイアス検出のためのドメイン適応事前学習手法

A Domain-adaptive Pre-training Approach for Language Bias Detection in News ( http://arxiv.org/abs/2205.10773v1 )

ライセンス: CC BY 4.0
Jan-David Krieger, Timo Spinde, Terry Ruas, Juhi Kulshrestha, Bela Gipp(参考訳) メディアバイアスは、個人の行動と集団的意思決定に影響を与える多面的な構成である。 Slanted News Reportは、様々な形式で起こりうる一方的な、偏極的な書き込みの結果である。 本研究では,メディアバイアスの重要な形式,すなわち単語選択によるバイアスに焦点を当てる。 偏りのある単語の選択の検出は、言語の複雑さと金の標準コーパスが欠如しているため、難しい課題である。 メディアバイアス領域に適応した新しい最先端トランスフォーマーモデルであるDA-RoBERTaについて,F1スコア0.814で文レベルのバイアスを識別する。 さらに、バイアス領域に適応した2つのトランスフォーマーモデルであるDA-BERTとDA-BARTもトレーニングします。 提案するドメイン適応モデルは,同一データに対する先行バイアス検出アプローチを上回っている。

Media bias is a multi-faceted construct influencing individual behavior and collective decision-making. Slanted news reporting is the result of one-sided and polarized writing which can occur in various forms. In this work, we focus on an important form of media bias, i.e. bias by word choice. Detecting biased word choices is a challenging task due to its linguistic complexity and the lack of representative gold-standard corpora. We present DA-RoBERTa, a new state-of-the-art transformer-based model adapted to the media bias domain which identifies sentence-level bias with an F1 score of 0.814. In addition, we also train, DA-BERT and DA-BART, two more transformer models adapted to the bias domain. Our proposed domain-adapted models outperform prior bias detection approaches on the same data.
翻訳日:2022-05-30 02:11:50 公開日:2022-05-22
# (参考訳) 運動データ拡張を用いた睡眠姿勢ワンショット学習フレームワーク--シリコとインヴィボのケーススタディ

Sleep Posture One-Shot Learning Framework Using Kinematic Data Augmentation: In-Silico and In-Vivo Case Studies ( http://arxiv.org/abs/2205.10778v1 )

ライセンス: CC BY 4.0
Omar Elnaggar, Frans Coenen, Andrew Hopkinson, Lyndon Mason, Paolo Paoletti(参考訳) 睡眠姿勢は、夜間クランプやより深刻な筋骨格障害などのいくつかの健康状態と関連している。 しかし、インクリニック睡眠アセスメントはバイタルサイン(例えば脳波)に限定されることが多い。 組み込み慣性測定装置を備えたウェアラブルセンサーは、睡眠姿勢分類に使われてきたが、以前の研究では、高度な臨床評価には不十分な4つの姿勢しか考慮されていない。 さらに、姿勢学習アルゴリズムは通常、縦方向のデータ収集を安定的に必要とし、しばしば臨床医になじみのない生の慣性センサーを読み取る。 本稿では,最小限の関節角度測定に基づく睡眠姿勢分類のための新しい枠組みを提案する。 提案手法は,合成姿勢データを取得するためのコンピュータアニメーションと,カスタムメイドのミニチュアウェアラブルセンサを用いた人間参加パイロット実験の2つの実験パイプラインにおいて,12種類の姿勢の豊富なセットで検証される。 実地慣性センサーを用いて手首と足首関節の相対的なセグメント方向のフィルタリング推定を計算することにより、身体姿勢を医療専門家にとって理解しやすい方法で特徴づけることができる。 提案する睡眠姿勢学習フレームワークは、姿勢ごとに1つのトレーニングサンプルしか必要としない新しい運動データ拡張手法を活用し、プラグアンドプレイ姿勢分類を提供する。 さらに、姿勢データセットから有意義な洞察を抽出し、データ拡張法の付加価値を実証し、分類性能を説明するために、データ可視化と共に新しいメトリクスを用いる。 提案手法は,合成データでは100%,実データでは92.7%と,文献で利用可能な技術データ格納アルゴリズムに匹敵する総合的精度を達成した。

Sleep posture is linked to several health conditions such as nocturnal cramps and more serious musculoskeletal issues. However, in-clinic sleep assessments are often limited to vital signs (e.g. brain waves). Wearable sensors with embedded inertial measurement units have been used for sleep posture classification; nonetheless, previous works consider only few (commonly four) postures, which are inadequate for advanced clinical assessments. Moreover, posture learning algorithms typically require longitudinal data collection to function reliably, and often operate on raw inertial sensor readings unfamiliar to clinicians. This paper proposes a new framework for sleep posture classification based on a minimal set of joint angle measurements. The proposed framework is validated on a rich set of twelve postures in two experimental pipelines: computer animation to obtain synthetic postural data, and human participant pilot study using custom-made miniature wearable sensors. Through fusing raw geo-inertial sensor measurements to compute a filtered estimate of relative segment orientations across the wrist and ankle joints, the body posture can be characterised in a way comprehensible to medical experts. The proposed sleep posture learning framework offers plug-and-play posture classification by capitalising on a novel kinematic data augmentation method that requires only one training example per posture. Additionally, a new metric together with data visualisations are employed to extract meaningful insights from the postures dataset, demonstrate the added value of the data augmentation method, and explain the classification performance. The proposed framework attained promising overall accuracy as high as 100% on synthetic data and 92.7% on real data, on par with state of the art data-hungry algorithms available in the literature.
翻訳日:2022-05-30 01:55:34 公開日:2022-05-22
# (参考訳) scmaシステムのためのユーザアクティビティ抽出ネットワークを用いたデータ支援アクティブユーザ検出

Data-aided Active User Detection with a User Activity Extraction Network for Grant-free SCMA Systems ( http://arxiv.org/abs/2205.10780v1 )

ライセンス: CC BY-SA 4.0
Minsig Han, Ameha T. Abebe, Chung G. Kang(参考訳) 許可なしスパースコード多重アクセスシステムでは、ユーザのための競合リソースと受信者のアクティブユーザ検出(aud)の協調最適化は複雑な組合せ問題である。 そこで本研究では,新しいユーザ活動抽出ネットワーク (uaen) を用いて,事前ユーザ活動情報を抽出する深層学習型データ支援 aud スキームを提案する。 これはオートエンコーダ(ae)のエンドツーエンドトレーニングによって実現され、競合リソース、すなわちプリアンブルシーケンスを最適化し、コードブックの1つに関連付け、プリアンブルとデータ送信の両方からユーザアクティビティ情報を抽出する。 さらに、オフラインエンドツーエンドトレーニングの収束を保証するUAENのための自己教師付き事前学習方式を提案する。 シミュレーションの結果,提案したAUD方式は,目標動作検出誤差率${10}^{-3}}$で3~5dBのゲインを達成した。

In grant-free sparse code multiple access system, joint optimization of contention resources for users and active user detection (AUD) at the receiver is a complex combinatorial problem. To this end, we propose a deep learning-based data-aided AUD scheme which extracts a priori user activity information via a novel user activity extraction network (UAEN). This is enabled by an end-to-end training of an autoencoder (AE), which simultaneously optimizes the contention resources, i.e., preamble sequences, each associated with one of the codebooks, and extraction of user activity information from both preamble and data transmission. Furthermore, we propose self-supervised pre-training scheme for the UAEN, which ensures the convergence of offline end-to-end training. Simulation results demonstrated that the proposed AUD scheme achieved 3 to 5dB gain at a target activity detection error rate of ${{10}^{-3}}$ compared to the state-of-the-art DL-based AUD schemes.
翻訳日:2022-05-30 01:18:44 公開日:2022-05-22
# (参考訳) インストラクション誘導:いくつかの例から自然言語タスク記述まで

Instruction Induction: From Few Examples to Natural Language Task Descriptions ( http://arxiv.org/abs/2205.10782v1 )

ライセンス: CC BY 4.0
Or Honovich, Uri Shaham, Samuel R. Bowman, Omer Levy(参考訳) 大規模な言語モデルは、いくつかの入出力デモ(in-context learningとして知られるパラダイム)を条件付けしてタスクを実行することができる。 実例に合致する自然言語命令を生成するように促すことで,いくつかの実演から基礎となるタスクを明示的に推論できることを示す。 そこで本研究では,24タスクからなるデータセットをコンパイルし,生成した命令の実行に基づいて新たな評価指標を定義する。 instructgptは、実行ベースのメトリクスで人間のパフォーマンスの65.7%を達成していますが、オリジナルのgpt-3モデルは人間のパフォーマンスの9.8%に達しています。 この驚くべき結果は、インストラクションインダクションが、データに潜在連続パラメータのセットを適合させる代わりに、自然言語仮説空間における最善の記述を探すという、それ自体において有効な学習パラダイムであることを示唆している。

Large language models are able to perform a task by conditioning on a few input-output demonstrations - a paradigm known as in-context learning. We show that language models can explicitly infer an underlying task from a few demonstrations by prompting them to generate a natural language instruction that fits the examples. To explore this ability, we introduce the instruction induction challenge, compile a dataset consisting of 24 tasks, and define a novel evaluation metric based on executing the generated instruction. We discover that, to a large extent, the ability to generate instructions does indeed emerge when using a model that is both large enough and aligned to follow instructions; InstructGPT achieves 65.7% of human performance in our execution-based metric, while the original GPT-3 model reaches only 9.8% of human performance. This surprising result suggests that instruction induction might be a viable learning paradigm in and of itself, where instead of fitting a set of latent continuous parameters to the data, one searches for the best description in the natural language hypothesis space.
翻訳日:2022-05-30 01:03:26 公開日:2022-05-22
# (参考訳) 責任ある人工知能 --原則から実践へ-

Responsible Artificial Intelligence -- from Principles to Practice ( http://arxiv.org/abs/2205.10785v1 )

ライセンス: CC BY 4.0
Virginia Dignum(参考訳) 人工知能の影響は基礎研究や技術開発に限らず、これらのシステムが社会にどのように導入され、日常的に使用されるかに大きく依存している。 aiは私たちの仕事のやり方を変え、生活し、問題を解決するが、公平性、透明性、プライバシーに関する懸念も高まっている。 責任の保証、倫理的AIは、結果が信頼できるシステムを設計する以上のものです。 設計の仕方、なぜ設計するのか、誰が設計に携わっているのか、といったことなのです。 aiを責任を持って開発し使用するためには、ai実践者に具体的なサポートを提供する技術的、社会的、制度的、法的な方法とツール、そしてすべての参加を可能にする意識と訓練に取り組んで、aiシステムの社会の原則と価値との整合を確保する必要があります。

The impact of Artificial Intelligence does not depend only on fundamental research and technological developments, but for a large part on how these systems are introduced into society and used in everyday situations. AI is changing the way we work, live and solve challenges but concerns about fairness, transparency or privacy are also growing. Ensuring responsible, ethical AI is more than designing systems whose result can be trusted. It is about the way we design them, why we design them, and who is involved in designing them. In order to develop and use AI responsibly, we need to work towards technical, societal, institutional and legal methods and tools which provide concrete support to AI practitioners, as well as awareness and training to enable participation of all, to ensure the alignment of AI systems with our societies' principles and values.
翻訳日:2022-05-30 00:42:30 公開日:2022-05-22
# (参考訳) プロシージャクローニングによる思考模倣の連鎖

Chain of Thought Imitation with Procedure Cloning ( http://arxiv.org/abs/2205.10816v1 )

ライセンス: CC BY 4.0
Mengjiao Yang, Dale Schuurmans, Pieter Abbeel, Ofir Nachum(参考訳) 模倣学習は、専門家行動のログ化されたデモンストレーションから高性能なポリシーを抽出することを目的としている。 模倣学習を、ログされたデモンストレーション(出力アクションに対する入力観察)によって示される入出力マッピングに近似関数を適合させる教師付き学習問題として捉えるのが一般的である。 教師付き入力出力学習問題としての模倣学習の枠組みは、幅広い設定で適用可能であるが、専門家のデモンストレーションが専門家の行動に対してより豊かな洞察を提供する状況において、問題を単純化した見解である。 例えば、パスナビゲーション、ロボット操作、戦略ゲームといったアプリケーションは、計画、探索、その他の多段階アルゴリズムを通じて専門家によるデモンストレーションを取得し、模倣される出力アクションだけでなく、このアクションを決定する手順も明らかにする。 これらの中間計算は推論中にエージェントが使用できないツール(例えば環境シミュレータ)を使用するが、専門家の状態とアクションのマッピングを説明する方法としては有益である。 専門家が使用していたであろう特権的ツールに頼らずに専門家手続き情報を適切に活用するために,一連の専門家計算を模倣するために教師付きシーケンス予測を適用した手順クローンを提案する。 このように、プロシージャのクローニングは何をすべきか(つまり、出力アクション)だけでなく、その方法と理由(つまり、手順)を学習する。 ナビゲーション,シミュレーションロボット操作,ゲームプレイ環境に関する経験的分析により,専門家の行動の中間計算を模倣することで,専門家の手順を直接実行するような構成を含む,未知の環境設定に対する重要な一般化を示すポリシーを手順クローンが学習できることが示されている。

Imitation learning aims to extract high-performance policies from logged demonstrations of expert behavior. It is common to frame imitation learning as a supervised learning problem in which one fits a function approximator to the input-output mapping exhibited by the logged demonstrations (input observations to output actions). While the framing of imitation learning as a supervised input-output learning problem allows for applicability in a wide variety of settings, it is also an overly simplistic view of the problem in situations where the expert demonstrations provide much richer insight into expert behavior. For example, applications such as path navigation, robot manipulation, and strategy games acquire expert demonstrations via planning, search, or some other multi-step algorithm, revealing not just the output action to be imitated but also the procedure for how to determine this action. While these intermediate computations may use tools not available to the agent during inference (e.g., environment simulators), they are nevertheless informative as a way to explain an expert's mapping of state to actions. To properly leverage expert procedure information without relying on the privileged tools the expert may have used to perform the procedure, we propose procedure cloning, which applies supervised sequence prediction to imitate the series of expert computations. This way, procedure cloning learns not only what to do (i.e., the output action), but how and why to do it (i.e., the procedure). Through empirical analysis on navigation, simulated robotic manipulation, and game-playing environments, we show that imitating the intermediate computations of an expert's behavior enables procedure cloning to learn policies exhibiting significant generalization to unseen environment configurations, including those configurations for which running the expert's procedure directly is infeasible.
翻訳日:2022-05-30 00:36:33 公開日:2022-05-22
# (参考訳) イベント予測のためのグラフ強化BERTモデル

A Graph Enhanced BERT Model for Event Prediction ( http://arxiv.org/abs/2205.10822v1 )

ライセンス: CC BY 4.0
Li Du, Xiao Ding, Yue Zhang, Kai Xiong, Ting Liu, Bing Qin(参考訳) イベント間の基盤となる関係を理解する必要があるため、既存のイベントコンテキストに対するその後のイベントの予測は重要だが難しい作業である。 これまでの手法では、イベント相関のモデリングを強化するために、イベントグラフからリレーショナル特徴を取得することを提案する。 しかし、イベントグラフの空間性は関連するグラフ情報の取得を制限するため、モデルの性能に影響を与える可能性がある。 この問題に対処するために,BERTモデルを用いたイベントグラフの自動構築を検討する。 この目的のために、トレーニングプロセスにおけるイベント接続を予測するために、BERTに追加の構造化変数を組み込む。 したがって、テストプロセスでは、未検出のイベントの関連関係を構造化変数によって予測することができる。 スクリプトイベント予測とストーリーエンド予測という2つのイベント予測タスクの結果は、我々のアプローチが最先端のベースラインメソッドを上回ることを示している。

Predicting the subsequent event for an existing event context is an important but challenging task, as it requires understanding the underlying relationship between events. Previous methods propose to retrieve relational features from event graph to enhance the modeling of event correlation. However, the sparsity of event graph may restrict the acquisition of relevant graph information, and hence influence the model performance. To address this issue, we consider automatically building of event graph using a BERT model. To this end, we incorporate an additional structured variable into BERT to learn to predict the event connections in the training process. Hence, in the test process, the connection relationship for unseen events can be predicted by the structured variable. Results on two event prediction tasks: script event prediction and story ending prediction, show that our approach can outperform state-of-the-art baseline methods.
翻訳日:2022-05-30 00:09:46 公開日:2022-05-22
# (参考訳) 圧縮多言語機械翻訳モデルとは何か?

What Do Compressed Multilingual Machine Translation Models Forget? ( http://arxiv.org/abs/2205.10828v1 )

ライセンス: CC BY 4.0
Alireza Mohammadshahi, Vassilina Nikoulina, Alexandre Berard, Caroline Brun, James Henderson, Laurent Besacier(参考訳) 近年,自然言語処理(nlp)タスクにおいて,非常に大規模に事前学習されたモデルが最先端の成果を達成している。 圧縮技術はモデルのサイズを劇的に削減し、その推論時間をトップクラスのメトリクスに無視できない影響を与える。 しかし、一般的な性能は、表現されていない特徴に劇的な性能低下を隠蔽し、モデルによって符号化されたバイアスの増幅をもたらす可能性がある。 本研究では,様々な言語群に対するMNMT(Multilingual Neural Machine Translation Model)に対する圧縮手法の影響を,FLORES-101,MT-Gender,DiBiMTなどの異なるNMTベンチマーク上での圧縮モデルの広範な解析により解析する。 実験の結果,低表現言語の性能は著しく低下し,平均bleuメトリックはわずかに低下した。 興味深いことに、圧縮によるノイズの記憶の除去は、中規模の言語で顕著な改善をもたらす。 最後に,この圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。

Recently, very large pre-trained models achieve state-of-the-art results in various natural language processing (NLP) tasks, but their size makes it more challenging to apply them in resource-constrained environments. Compression techniques allow to drastically reduce the size of the model and therefore its inference time with negligible impact on top-tier metrics. However, the general performance hides a drastic performance drop on under-represented features, which could result in the amplification of biases encoded by the model. In this work, we analyze the impacts of compression methods on Multilingual Neural Machine Translation models (MNMT) for various language groups and semantic features by extensive analysis of compressed models on different NMT benchmarks, e.g. FLORES-101, MT-Gender, and DiBiMT. Our experiments show that the performance of under-represented languages drops significantly, while the average BLEU metric slightly decreases. Interestingly, the removal of noisy memorization with the compression leads to a significant improvement for some medium-resource languages. Finally, we demonstrate that the compression amplifies intrinsic gender and semantic biases, even in high-resource languages.
翻訳日:2022-05-29 23:54:54 公開日:2022-05-22
# (参考訳) 神経逆運動学

Neural Inverse Kinematics ( http://arxiv.org/abs/2205.10837v1 )

ライセンス: CC BY 4.0
Raphael Bensadoun, Shir Gur, Nitsan Blau, Tom Shenkar, Lior Wolf(参考訳) 逆キネマティック (inverse kinematic, ik) 法は、キネマティックチェーン内の選択された要素の所望の位置から関節のパラメータを回復する。 問題はよく定義され、低次元であるが、複数の可能な解を考慮し、迅速に解かなければならない。 本研究では,その階層構造を利用して,所望位置およびチェーン沿いの先行関節に条件付された有効関節角度を逐次サンプリングするニューラルネットワークIK法を提案する。 この解において、ハイパーネットワーク $f$ は複数のプライマリネットワーク {$g_1,g_2,\dots,g_n$, ここで $n$ はジョイント数である) のパラメータを回復し、各$g_i$ は可能なジョイントアングルの分布を出力し、前のプライマリネットワークから得られたサンプル値 $g_j, j<i$ を条件とする。 ハイパーネットワークは、複数の解を観察することなく、容易に利用可能な関節角度と位置のペアで訓練することができる。 テスト時には、プライマリネットワークから順次サンプリングすることにより、高分散ジョイント分布を示す。 提案手法の利点は, IK の孤立例に対する他の IK 法との比較と,カルテシアン空間における終端エフェクタの経路に従うことの両方である。

Inverse kinematic (IK) methods recover the parameters of the joints, given the desired position of selected elements in the kinematic chain. While the problem is well-defined and low-dimensional, it has to be solved rapidly, accounting for multiple possible solutions. In this work, we propose a neural IK method that employs the hierarchical structure of the problem to sequentially sample valid joint angles conditioned on the desired position and on the preceding joints along the chain. In our solution, a hypernetwork $f$ recovers the parameters of multiple primary networks {$g_1,g_2,\dots,g_N$, where $N$ is the number of joints}, such that each $g_i$ outputs a distribution of possible joint angles, and is conditioned on the sampled values obtained from the previous primary networks $g_j, j<i$. The hypernetwork can be trained on readily available pairs of matching joint angles and positions, without observing multiple solutions. At test time, a high-variance joint distribution is presented, by sampling sequentially from the primary networks. We demonstrate the advantage of the proposed method both in comparison to other IK methods for isolated instances of IK and with regard to following the path of the end effector in Cartesian space.
翻訳日:2022-05-29 23:16:32 公開日:2022-05-22
# (参考訳) 視覚音声分析のためのディープラーニング:調査

Deep Learning for Visual Speech Analysis: A Survey ( http://arxiv.org/abs/2205.10839v1 )

ライセンス: CC BY 4.0
Changchong Sheng, Gangyao Kuang, Liang Bai, Chenping Hou, Yulan Guo, Xin Xu, Matti Pietik\"ainen, and Li Liu(参考訳) 音声の視覚領域を指す視覚音声は、公衆の安全、医療、軍事防衛、映画の娯楽といった幅広い応用により注目を集めている。 強力なAI戦略として、深層学習技術は視覚音声学習の発展を大いに促進してきた。 過去5年間で、この領域の様々な問題、特に自動視覚音声認識と生成に対処するために、多くのディープラーニングに基づく手法が提案されている。 本稿では,視覚音声に関する今後の研究を推し進めるために,視覚音声分析におけるディープラーニング手法の最近の進歩を概観する。 視覚音声の基本問題や課題,ベンチマークデータセット,既存手法の分類,最先端のパフォーマンスなど,視覚音声のさまざまな側面をカバーする。 また、現在の研究のギャップを特定し、今後の研究の方向性について論じる。

Visual speech, referring to the visual domain of speech, has attracted increasing attention due to its wide applications, such as public security, medical treatment, military defense, and film entertainment. As a powerful AI strategy, deep learning techniques have extensively promoted the development of visual speech learning. Over the past five years, numerous deep learning based methods have been proposed to address various problems in this area, especially automatic visual speech recognition and generation. To push forward future research on visual speech, this paper aims to present a comprehensive review of recent progress in deep learning methods on visual speech analysis. We cover different aspects of visual speech, including fundamental problems, challenges, benchmark datasets, a taxonomy of existing methods, and state-of-the-art performance. Besides, we also identify gaps in current research and discuss inspiring future research directions.
翻訳日:2022-05-29 22:41:22 公開日:2022-05-22
# (参考訳) スマートマニュファクチャリングのための位置決めフォグコンピューティング

Positioning Fog Computing for Smart Manufacturing ( http://arxiv.org/abs/2205.10860v1 )

ライセンス: CC BY 4.0
Jaakko Harjuhahto and Vesa Hirvisalo(参考訳) リアルタイム産業品質管理のための機械学習システムについて検討する。 多くの工場システムでは、生産プロセスは製品の品質を維持するために継続的に制御されなければならない。 特に難しいのは、厳格なリソース消費制約と欠陥のあるエンドユーザのリスクをリアルタイムでバランスしなければならないシステムです。 人間の制御が面倒でエラーを起こしやすいため、自動品質管理システムが必要である。 機械学習は自動品質管理システムを開発する上で有効な選択肢だと考えていますが、そのようなシステムを既存の工場自動化と統合することは依然として課題です。 本稿では,機械学習による品質管理の必要性を満たすため,自動化制御の標準階層に新しいフォグコンピューティング層を導入することを提案する。

We study machine learning systems for real-time industrial quality control. In many factory systems, production processes must be continuously controlled in order to maintain product quality. Especially challenging are the systems that must balance in real-time between stringent resource consumption constraints and the risk of defective end-product. There is a need for automated quality control systems as human control is tedious and error-prone. We see machine learning as a viable choice for developing automated quality control systems, but integrating such system with existing factory automation remains a challenge. In this paper we propose introducing a new fog computing layer to the standard hierarchy of automation control to meet the needs of machine learning driven quality control.
翻訳日:2022-05-29 21:50:34 公開日:2022-05-22
# (参考訳) フェデレーション学習アグリゲーション:保証付き新しいロバストアルゴリズム

Federated Learning Aggregation: New Robust Algorithms with Guarantees ( http://arxiv.org/abs/2205.10864v1 )

ライセンス: CC BY 4.0
Adnan Ben Mansour, Gaia Carenini, Alexandre Duplessis and David Naccache(参考訳) Federated Learningは、エッジでの分散モデルトレーニングのために最近提案されている。 このアプローチの原則は、分散クライアントで学んだモデルを集約して、より一般的な"平均"モデル(FedAvg)を得ることです。 得られたモデルは、さらなるトレーニングのためにクライアントに再配布される。 現在最も人気のあるフェデレーション学習アルゴリズムは、アグリゲーションのためのモデルパラメータの座標的平均化を用いている。 本稿では,連合学習フレームワークにおける集約戦略を評価するために,完全一般数学的収束解析を行う。 そこで我々は,損失の値に応じてクライアントのコントリビューションを識別することで,モデルアーキテクチャを変更可能な新しい集約アルゴリズムを導出する。 さらに,これらの戦略の性能を評価し,追加仮説を伴わずに iid と非 iid フレームワークの分類タスクで fedavg と比較することで,理論に導入された仮定を超越する。

Federated Learning has been recently proposed for distributed model training at the edge. The principle of this approach is to aggregate models learned on distributed clients to obtain a new more general "average" model (FedAvg). The resulting model is then redistributed to clients for further training. To date, the most popular federated learning algorithm uses coordinate-wise averaging of the model parameters for aggregation. In this paper, we carry out a complete general mathematical convergence analysis to evaluate aggregation strategies in a federated learning framework. From this, we derive novel aggregation algorithms which are able to modify their model architecture by differentiating client contributions according to the value of their losses. Moreover, we go beyond the assumptions introduced in theory, by evaluating the performance of these strategies and by comparing them with the one of FedAvg in classification tasks in both the IID and the Non-IID framework without additional hypothesis.
翻訳日:2022-05-29 21:43:55 公開日:2022-05-22
# (参考訳) 不完全なデータに対するfusion subspace clustering

Fusion Subspace Clustering for Incomplete Data ( http://arxiv.org/abs/2205.10872v1 )

ライセンス: CC BY 4.0
Usman Mahmood and Daniel Pimentel-Alarc\'on(参考訳) 本稿では,大規模かつ高度に不完全なデータを近似する低次元構造を学習するための新しい手法である「em fusion subspace clustering」を提案する。 主な考え方は、各ダタムを自身の部分空間に割り当て、すべてのデータの部分空間間の距離を最小にすることで、同じクラスタの部分空間が互いに融合するようにすることである。 提案手法は,低位,高位,さらにはフルランクのデータにも適用可能であり,ノイズを直接考慮し,そのサンプル複雑性は情報理論的な限界に近づく。 さらに,本手法は,クラスタパスの自然なモデル選択と直接補完法を提供する。 コンバージェンスを保証し、計算複雑性を分析し、実データおよび合成データに関する広範囲な実験を通して、我々のアプローチが完全なデータで最先端と同等に動作し、データが欠落した場合に劇的に改善することを示す。

This paper introduces {\em fusion subspace clustering}, a novel method to learn low-dimensional structures that approximate large scale yet highly incomplete data. The main idea is to assign each datum to a subspace of its own, and minimize the distance between the subspaces of all data, so that subspaces of the same cluster get {\em fused} together. Our method allows low, high, and even full-rank data; it directly accounts for noise, and its sample complexity approaches the information-theoretic limit. In addition, our approach provides a natural model selection {\em clusterpath}, and a direct completion method. We give convergence guarantees, analyze computational complexity, and show through extensive experiments on real and synthetic data that our approach performs comparably to the state-of-the-art with complete data, and dramatically better if data is missing.
翻訳日:2022-05-29 21:17:55 公開日:2022-05-22
# (参考訳) 高速視覚知覚のための動的クエリ選択

Dynamic Query Selection for Fast Visual Perceiver ( http://arxiv.org/abs/2205.10873v1 )

ライセンス: CC BY 4.0
Corentin Dancette and Matthieu Cord(参考訳) トランスフォーマーは近年,視覚アーキテクチャの深層畳み込みネットワークに対応している。 ほとんどの作業は大規模なベンチマークで最高の結果を得ることに重点を置いており、スケーリング法則が最も成功した戦略であるように思われる。 しかし、ネットワークの複雑さと推論時間の削減は未検討のままである。 Perceiver モデルはこの問題に対する解決策を提供する: まず、待ち行列トークンの固定数 Q でクロスアテンションを実行することにより、後続するL層トランスフォーマーネットワークの複雑さは O(LQ^2) によって制限される。 本研究では,精度低下を抑えつつ,推論中のクエリQ数を削減し,Perceiversをより効率的にする方法を検討する。

Transformers have been matching deep convolutional networks for vision architectures in recent works. Most work is focused on getting the best results on large-scale benchmarks, and scaling laws seem to be the most successful strategy: bigger models, more data, and longer training result in higher performance. However, the reduction of network complexity and inference time remains under-explored. The Perceiver model offers a solution to this problem: by first performing a Cross-attention with a fixed number Q of latent query tokens, the complexity of the L-layers Transformer network that follows is bounded by O(LQ^2). In this work, we explore how to make Perceivers even more efficient, by reducing the number of queries Q during inference while limiting the accuracy drop.
翻訳日:2022-05-29 20:34:43 公開日:2022-05-22
# (参考訳) シーケンス・ツー・アクション:アクション誘導シーケンス生成による文法的誤り訂正

Sequence-to-Action: Grammatical Error Correction with Action Guided Sequence Generation ( http://arxiv.org/abs/2205.10884v1 )

ライセンス: CC BY 4.0
Jiquan Li, Junliang Guo, Yongxin Zhu, Xin Sheng, Deqiang Jiang, Bo Ren, Linli Xu(参考訳) 近年,自然言語処理(NLP)において,文法的誤り訂正(GEC)の課題が注目されている。 GECの重要な原則の1つは、正しい部分をそのままにして過補正を避けることであるが、以前のシーケンス・ツー・シーケンス(seq2seq)モデルは、元の文構造に従うことが保証されていないスクラッチから結果を生成する。 一方,最近提案されたシーケンスタグ付けモデルでは,編集操作だけを生成するだけでオーバーコレクション問題を克服することができる。 本稿では,新しいSequence-to-Action~(S2A)モジュールを提案し,両モデルの欠点を緩和する。 S2Aモジュールはソースとターゲット文を共同で入力とし、各トークンを予測する前にトークンレベルのアクションシーケンスを自動的に生成し、各アクションはSKIP、COPY、Geneerateという3つの選択から生成される。 その後、アクションは基本的なseq2seqフレームワークと融合して最終的な予測を提供する。 我々は、英語と中国語のECタスクのベンチマークデータセットで実験を行う。 提案モデルはseq2seqのベースラインを一貫して上回っており、過度な修正問題を大幅に軽減できると同時に、シーケンスタグモデルと比較して、生成結果の汎用性と多様性も向上している。

The task of Grammatical Error Correction (GEC) has received remarkable attention with wide applications in Natural Language Processing (NLP) in recent years. While one of the key principles of GEC is to keep the correct parts unchanged and avoid over-correction, previous sequence-to-sequence (seq2seq) models generate results from scratch, which are not guaranteed to follow the original sentence structure and may suffer from the over-correction problem. In the meantime, the recently proposed sequence tagging models can overcome the over-correction problem by only generating edit operations, but are conditioned on human designed language-specific tagging labels. In this paper, we combine the pros and alleviate the cons of both models by proposing a novel Sequence-to-Action~(S2A) module. The S2A module jointly takes the source and target sentences as input, and is able to automatically generate a token-level action sequence before predicting each token, where each action is generated from three choices named SKIP, COPY and GENerate. Then the actions are fused with the basic seq2seq framework to provide final predictions. We conduct experiments on the benchmark datasets of both English and Chinese GEC tasks. Our model consistently outperforms the seq2seq baselines, while being able to significantly alleviate the over-correction problem as well as holding better generality and diversity in the generation results compared to the sequence tagging models.
翻訳日:2022-05-29 20:21:14 公開日:2022-05-22
# (参考訳) Thor: 言語モデルと自動定理プロデューサを統合するためのWielding Hammer

Thor: Wielding Hammers to Integrate Language Models and Automated Theorem Provers ( http://arxiv.org/abs/2205.10893v1 )

ライセンス: CC BY 4.0
Albert Q. Jiang, Wenda Li, Szymon Tworkowski, Konrad Czechowski, Tomasz Odrzyg\'o\'zd\'z, Piotr Mi{\l}o\'s, Yuhuai Wu, Mateja Jamnik(参考訳) 定理証明において、大きなライブラリから有用な前提を選択して与えられた予想の証明を解く作業は極めて重要である。 これは、すべての定理証明者、特に言語モデルに基づくものにとって、テキスト形式の膨大な前提を相対的に推論できないため、課題となる。 本稿では,この難易度を克服するために,言語モデルと自動定理証明器を統合するフレームワークであるThorを紹介する。 Thorでは、自動定理プローバーの力を利用するハンマーと呼ばれる手法のクラスが前提選択に使用され、他の全てのタスクは言語モデルに指定される。 Thor は PISA データセットにおける言語モデルの成功率を 39 %$ から 57 %$ に引き上げる一方で、言語モデルも自動定理証明者も自分では解けない問題の 8.2 %$ を解決している。 さらに、計算予算を大幅に小さくすることで、Torは、最高の既存のメソッドと同等のMiniF2Fデータセットで成功率を達成することができる。 Thorは、我々が提供する単純なプロトコルを通じて、人気のある対話的定理証明者の大半に対してインスタンス化することができる。

In theorem proving, the task of selecting useful premises from a large library to unlock the proof of a given conjecture is crucially important. This presents a challenge for all theorem provers, especially the ones based on language models, due to their relative inability to reason over huge volumes of premises in text form. This paper introduces Thor, a framework integrating language models and automated theorem provers to overcome this difficulty. In Thor, a class of methods called hammers that leverage the power of automated theorem provers are used for premise selection, while all other tasks are designated to language models. Thor increases a language model's success rate on the PISA dataset from $39\%$ to $57\%$, while solving $8.2\%$ of problems neither language models nor automated theorem provers are able to solve on their own. Furthermore, with a significantly smaller computational budget, Thor can achieve a success rate on the MiniF2F dataset that is on par with the best existing methods. Thor can be instantiated for the majority of popular interactive theorem provers via a straightforward protocol we provide.
翻訳日:2022-05-29 19:55:55 公開日:2022-05-22
# (参考訳) コンテキスト情報指向サンプリング

Contextual Information-Directed Sampling ( http://arxiv.org/abs/2205.10895v1 )

ライセンス: CC BY 4.0
Botao Hao, Tor Lattimore, Chao Qin(参考訳) 情報指向サンプリング(IDS)は近年,データ効率向上学習アルゴリズムとしての可能性を示している。 しかし, 文脈情報の提供時期を最適化する上で, 情報比の適切な形式が何かはいまだ不明である。 2つの文脈的バンディット問題(グラフフィードバックを伴う文脈的バンディットとスパースな線形文脈的バンディット)を通してids設計を検討する。 条件付きIDSよりもコンテキスト型IDSの利点を実証し,文脈分布を考慮することの重要性を強調した。 主なメッセージは、知的エージェントは、条件付きidが近視的でありながら、将来の目に見えないコンテキストに有益であるアクションにもっと投資すべきである。 さらに,Actor-Criticに基づく文脈IDSの計算効率の良いバージョンを提案し,ニューラルネットワークの文脈帯域で実証的に評価する。

Information-directed sampling (IDS) has recently demonstrated its potential as a data-efficient reinforcement learning algorithm. However, it is still unclear what is the right form of information ratio to optimize when contextual information is available. We investigate the IDS design through two contextual bandit problems: contextual bandits with graph feedback and sparse linear contextual bandits. We provably demonstrate the advantage of contextual IDS over conditional IDS and emphasize the importance of considering the context distribution. The main message is that an intelligent agent should invest more on the actions that are beneficial for the future unseen contexts while the conditional IDS can be myopic. We further propose a computationally-efficient version of contextual IDS based on Actor-Critic and evaluate it empirically on a neural network contextual bandit.
翻訳日:2022-05-29 19:37:57 公開日:2022-05-22
# (参考訳) 知覚システムのモニタリング:決定論的・確率的・学習的故障検出と同定

Monitoring of Perception Systems: Deterministic, Probabilistic, and Learning-based Fault Detection and Identification ( http://arxiv.org/abs/2205.10906v1 )

ライセンス: CC BY 4.0
Pasquale Antonante, Heath Nilsen, Luca Carlone(参考訳) 本稿では,認識システムの実行時モニタリングについて検討する。 認知は、自動運転車のようなロボットや自律システムにおける高統合性応用の重要な要素である。 これらの応用において、認識システムの故障は人間の生命を危険にさらす可能性があり、安全運転の保証と監視のための方法論の開発が必要である。 知覚の重要さにもかかわらず、システムレベルの知覚モニタリングには正式なアプローチは存在しない。 本稿では,認識システムにおけるランタイム障害検出と識別の問題を形式化し,診断グラフを用いて診断情報をモデル化する枠組みを提案する。 次に,診断グラフを用いて障害の検出と同定を行う決定論的,確率的,学習ベースのアルゴリズムセットを提供する。 さらに, 基本的限界を調査し, 故障検出および同定結果の確定的および確率的保証を提供する。 本論文は,lgsvlオープンソース自律運転シミュレータにおいて,いくつかの現実的な障害モードを再現し,提案するシステムモニタを最先端の自律運転ソフトウェアスタック(baiduのapollo auto)に適用する実験的な評価を行った。 その結果,提案システムはベースラインを上回っており,現実の自動運転シナリオでは事故を防止できる可能性があり,計算オーバーヘッドが無視できることがわかった。

This paper investigates runtime monitoring of perception systems. Perception is a critical component of high-integrity applications of robotics and autonomous systems, such as self-driving cars. In these applications, failure of perception systems may put human life at risk, and a broad adoption of these technologies requires the development of methodologies to guarantee and monitor safe operation. Despite the paramount importance of perception, currently there is no formal approach for system-level perception monitoring. In this paper, we formalize the problem of runtime fault detection and identification in perception systems and present a framework to model diagnostic information using a diagnostic graph. We then provide a set of deterministic, probabilistic, and learning-based algorithms that use diagnostic graphs to perform fault detection and identification. Moreover, we investigate fundamental limits and provide deterministic and probabilistic guarantees on the fault detection and identification results. We conclude the paper with an extensive experimental evaluation, which recreates several realistic failure modes in the LGSVL open-source autonomous driving simulator, and applies the proposed system monitors to a state-of-the-art autonomous driving software stack (Baidu's Apollo Auto). The results show that the proposed system monitors outperform baselines, have the potential of preventing accidents in realistic autonomous driving scenarios, and incur a negligible computational overhead.
翻訳日:2022-05-29 19:08:38 公開日:2022-05-22
# (参考訳) パーシステンスダイアグラムのモデリングの改善

Improved Modeling of Persistence Diagram ( http://arxiv.org/abs/2205.10907v1 )

ライセンス: CC BY 4.0
Sarit Agami(参考訳) 高次元還元法はビッグデータの主要なパターンを記述する強力なツールである。 これらの手法の1つは、トポロジカルデータ解析(TDA)であり、トポロジカル特性の観点からデータの形状をモデル化する。 本手法は,元のデータを「パーシステンス図」を用いてグラフィカルに表現した2次元システムに変換する。 この図の外れた点がデータパターンを示し、他の点がランダムノイズとして振る舞う。 どの点が重要な外れ値であるかを決定するには、元のデータセットのレプリケーションが必要である。 1つのオリジナルデータのみが利用可能になったら、永続化ダイアグラムのポイントをモデルに当てはめて、mcmcメソッドを使ってレプリケーションを作成することができる。 そのようなモデルの1つはRTT(Replicating Statistical Topology)である。 本稿では,rstモデルの修正を提案する。 シミュレーション実験により,修正rstは適合性の観点からrstの性能を向上させることを示した。 我々は、MCMCメトロポリス・ハスティングスアルゴリズムを用いて、適合モデルに従ってサンプリングを行う。

High-dimensional reduction methods are powerful tools for describing the main patterns in big data. One of these methods is the topological data analysis (TDA), which modeling the shape of the data in terms of topological properties. This method specifically translates the original data into two-dimensional system, which is graphically represented via the 'persistence diagram'. The outliers points on this diagram present the data pattern, whereas the other points behave as a random noise. In order to determine which points are significant outliers, replications of the original data set are needed. Once only one original data is available, replications can be created by fitting a model for the points on the persistence diagram, and then using the MCMC methods. One of such model is the RST (Replicating Statistical Topology). In this paper we suggest a modification of the RST model. Using a simulation study, we show that the modified RST improves the performance of the RST in terms of goodness of fit. We use the MCMC Metropolis-Hastings algorithm for sampling according to the fitted model.
翻訳日:2022-05-29 19:06:16 公開日:2022-05-22
# (参考訳) 環境政策における強化学習の力と説明責任

Power and accountability in reinforcement learning applications to environmental policy ( http://arxiv.org/abs/2205.10911v1 )

ライセンス: CC BY 4.0
Melissa Chapman, Caleb Scoville, Marcus Lapeyrolerie, Carl Boettiger(参考訳) 機械学習(ML)手法は、地球システム上の高次元データ処理から環境規制の遵守の監視まで、すでに環境決定に浸透している。 環境問題(例えば気候変動、生物多様性の喪失)に対処するためのML技術のうち、強化学習(Reinforcement Learning、RL)はどちらも最大の約束を持ち、最も圧力のかかる危険を提示する。 本稿では、RLによる政策が、環境領域における既存の電力関係にどのように影響するかを考察するとともに、公平で説明可能な環境決定プロセスの確保に固有の課題を提起する。 我々は、RLの適用例を気候変動対策や漁業管理に活用し、RL技術が資源使用者、行政機関、民間産業間の電力分配をどのようにシフトするかを探る。

Machine learning (ML) methods already permeate environmental decision-making, from processing high-dimensional data on earth systems to monitoring compliance with environmental regulations. Of the ML techniques available to address pressing environmental problems (e.g., climate change, biodiversity loss), Reinforcement Learning (RL) may both hold the greatest promise and present the most pressing perils. This paper explores how RL-driven policy refracts existing power relations in the environmental domain while also creating unique challenges to ensuring equitable and accountable environmental decision processes. We leverage examples from RL applications to climate change mitigation and fisheries management to explore how RL technologies shift the distribution of power between resource users, governing bodies, and private industry.
翻訳日:2022-05-29 19:05:20 公開日:2022-05-22
# (参考訳) 決定基準における遅いドリフトに対する補正提案の限界

Limitations of a proposed correction for slow drifts in decision criterion ( http://arxiv.org/abs/2205.10912v1 )

ライセンス: CC BY 4.0
Diksha Gupta and Carlos D. Brody(参考訳) 意思決定タスクにおける試行履歴バイアスは、決定変数の体系的な更新を反映していると考えられており、その正確な性質は、基礎となるヒューリスティック戦略と学習プロセスに関する結論を知らせる。 しかし、決定変数のランダムなドリフトは、体系的な更新のシグネチャを模倣することで、この推論を損なう可能性がある。 したがって、決定変数の試行的な進化を特定するには、そのようなドリフトをしっかりと説明できる方法が必要である。 最近の研究(Lak'20, Mendon\c{c}a'20)は、決定基準における遅いドリフトの影響を補正する便利な方法を提案することで、この方向に重要な進歩を遂げている。 ここでは,この補正を様々な更新シナリオに適用し,その性能評価を行う。 この修正は, 広く想定された体系的更新戦略では失敗し, 検証的戦略から限定的な部分集合への推論を歪めている。 これらの制約に対処するために,ランダムドリフトから体系的な更新を曖昧化するためのモデルベースアプローチを提案し,実データと合成データセットでの成功を実証する。 本手法は, 決定基準におけるドリフトの潜在軌道を正確に復元し, シミュレーションデータから生成的体系的更新を行うことを示す。 本研究は,歴史バイアスと緩やかなドリフトの相互作用を考慮に入れた手法を提案するとともに,生成過程の仮定を直接意思決定モデルに組み込むことの利点を強調した。

Trial history biases in decision-making tasks are thought to reflect systematic updates of decision variables, therefore their precise nature informs conclusions about underlying heuristic strategies and learning processes. However, random drifts in decision variables can corrupt this inference by mimicking the signatures of systematic updates. Hence, identifying the trial-by-trial evolution of decision variables requires methods that can robustly account for such drifts. Recent studies (Lak'20, Mendon\c{c}a'20) have made important advances in this direction, by proposing a convenient method to correct for the influence of slow drifts in decision criterion, a key decision variable. Here we apply this correction to a variety of updating scenarios, and evaluate its performance. We show that the correction fails for a wide range of commonly assumed systematic updating strategies, distorting one's inference away from the veridical strategies towards a narrow subset. To address these limitations, we propose a model-based approach for disambiguating systematic updates from random drifts, and demonstrate its success on real and synthetic datasets. We show that this approach accurately recovers the latent trajectory of drifts in decision criterion as well as the generative systematic updates from simulated data. Our results offer recommendations for methods to account for the interactions between history biases and slow drifts, and highlight the advantages of incorporating assumptions about the generative process directly into models of decision-making.
翻訳日:2022-05-29 18:55:08 公開日:2022-05-22
# (参考訳) フェデレーション学習のためのテスト時間ロバストパーソナライゼーション

Test-Time Robust Personalization for Federated Learning ( http://arxiv.org/abs/2205.10920v1 )

ライセンス: CC BY 4.0
Liangze Jiang, Tao Lin(参考訳) Federated Learning(FL)は、多くのクライアントが分散トレーニングデータで共有グローバルモデルを共同で学習する機械学習パラダイムである。 FLモデルのパーソナライゼーションは、グローバルモデルを異なるクライアントに適応させ、一貫したローカルトレーニングおよびテスト分布に関する有望な結果を達成する。 しかし、現実のパーソナライズされたFLアプリケーションにとって、さらに一歩進むことが重要である。様々な種類の分散シフトが発生するデプロイメント中に、ローカルテストセットの進化の下でFLモデルを堅牢化すること。 本研究では,テスト時分布シフトにおける既存の作業の落とし穴を特定し,フェデレートテスト時ヘッドアンサンブル+チューニング(FedTHE+)という新しいテスト時ロバストなパーソナライズ手法を提案する。 我々は、CIFAR10とImageNet上で様々なニューラルネットワーク(CNN、ResNet、Transformer)をトレーニングし、様々なテスト分布を評価するために、強力な競合相手に対してFedTHE+(および、その劣化した計算効率の悪いFedTHE)の進歩を説明する。 これに加えて、デプロイ時にパーソナライズしたflメソッドのパフォーマンスとロバスト性を評価するベンチマークを構築します。

Federated Learning (FL) is a machine learning paradigm where many clients collaboratively learn a shared global model with decentralized training data. Personalization on FL model additionally adapts the global model to different clients, achieving promising results on consistent local training & test distributions. However, for real-world personalized FL applications, it is crucial to go one step further: robustifying FL models under evolving local test set during deployment, where various types of distribution shifts can arise. In this work, we identify the pitfalls of existing works under test-time distribution shifts and propose a novel test-time robust personalization method, namely Federated Test-time Head Ensemble plus tuning (FedTHE+). We illustrate the advancement of FedTHE+ (and its degraded computationally efficient variant FedTHE) over strong competitors, for training various neural architectures (CNN, ResNet, and Transformer) on CIFAR10 and ImageNet and evaluating on diverse test distributions. Along with this, we build a benchmark for assessing performance and robustness of personalized FL methods during deployment.
翻訳日:2022-05-29 18:31:54 公開日:2022-05-22
# (参考訳) Fast ABC-Boost:マルチクラス分類におけるベースクラス選択のための統一フレームワーク

Fast ABC-Boost: A Unified Framework for Selecting the Base Class in Multi-Class Classification ( http://arxiv.org/abs/2205.10927v1 )

ライセンス: CC BY 4.0
Ping Li and Weijie Zhao(参考訳) ICML'09における研究は、古典的多クラスロジスティック回帰損失関数の導関数を「基底クラス」として書き直すことができ、新しい導関数を一般的なブースティングフレームワークに適用できることを示した。 新しいデリバティブを使用するには、各ブースティングイテレーションでベースクラスを識別/縮小する戦略を持つ必要がある。 ICML'09の"adaptive base class boost"(ABC-Boost)というアイデアは、各イテレーションでベースクラスに対して計算的に高価な"exhaustive search"戦略を採用した。 ABC-Boostが木と統合された場合、多くのクラス分類タスクにおいて大幅な改善が達成できることがよく示されている。 さらに,UAI'10における作業は,複数クラス・二階分類の作業において,二階分割情報のみを用いた場合と比較して,分類精度を著しく向上させる明示的な二階分割利得式を導出した。 本稿では,ABC-Boostの計算効率を向上させるための一連のアイデアを導入し,ベースクラスを効果的に選択するための統一的なフレームワークを開発する。 私たちのフレームワークにはパラメータ $(s,g,w)$ があります。 各イテレーションでは、ベースクラスを決定するために(すべてのクラスの代わりに)"$s$-worstクラス"を検索するだけです。 また、検索を行うときに"gap"$g$を許可します。 つまり、$g+1$のイテレーション毎にのみベースクラスを検索します。 さらに、w$の反復の後にのみ検索を開始することで、"ウォームアップ"ステージを許可します。 パラメータ $s$, $g$, $w$ は調整可能なパラメータと見なすことができ、$(s,g,w)$ の特定の組み合わせは "exhaustive search" 戦略よりもテストの精度が向上する可能性がある。 提案するフレームワークはABC-Boostを実際に実装するための堅牢で信頼性の高いスキームを提供する。

The work in ICML'09 showed that the derivatives of the classical multi-class logistic regression loss function could be re-written in terms of a pre-chosen "base class" and applied the new derivatives in the popular boosting framework. In order to make use of the new derivatives, one must have a strategy to identify/choose the base class at each boosting iteration. The idea of "adaptive base class boost" (ABC-Boost) in ICML'09, adopted a computationally expensive "exhaustive search" strategy for the base class at each iteration. It has been well demonstrated that ABC-Boost, when integrated with trees, can achieve substantial improvements in many multi-class classification tasks. Furthermore, the work in UAI'10 derived the explicit second-order tree split gain formula which typically improved the classification accuracy considerably, compared with using only the fist-order information for tree-splitting, for both multi-class and binary-class classification tasks. In this paper, we develop a unified framework for effectively selecting the base class by introducing a series of ideas to improve the computational efficiency of ABC-Boost. Our framework has parameters $(s,g,w)$. At each boosting iteration, we only search for the "$s$-worst classes" (instead of all classes) to determine the base class. We also allow a "gap" $g$ when conducting the search. That is, we only search for the base class at every $g+1$ iterations. We furthermore allow a "warm up" stage by only starting the search after $w$ boosting iterations. The parameters $s$, $g$, $w$, can be viewed as tunable parameters and certain combinations of $(s,g,w)$ may even lead to better test accuracy than the "exhaustive search" strategy. Overall, our proposed framework provides a robust and reliable scheme for implementing ABC-Boost in practice.
翻訳日:2022-05-29 17:45:01 公開日:2022-05-22
# (参考訳) AutoJoin:Denoising Autoencoderとジョイントラーニングによるロバストマニバリングのための効果的な対人訓練

AutoJoin: Efficient Adversarial Training for Robust Maneuvering via Denoising Autoencoder and Joint Learning ( http://arxiv.org/abs/2205.10933v1 )

ライセンス: CC BY 4.0
Michael Villarreal, Bibek Poudel, Ryan Wickman, Yu Shen, Weizi Li(参考訳) 機械学習アルゴリズムとユビキタスセンサーの採用により、様々な環境に「知覚制御システム」が多数導入されている。 これらのシステムが信頼できるためには、敵のトレーニングをひとつのアプローチにすることで、堅牢性を改善する必要があります。 本研究では, AutoJoin という, 勾配のない対向訓練手法を提案する。 AutoJoinは、画像ベースの自律操作のための堅牢なモデルを生成するための、非常に単純で効率的かつ効率的なアプローチである。 5M以上の摂動とクリーンなイメージでテストする他のSOTAメソッドと比較して、AutoJoinは、摂動データセットの40%の範囲まで大幅なパフォーマンス向上を実現し、テストされたほぼすべてのデータセットのクリーンパフォーマンスを改善している。 特にAutoJoinは、ShenらによるSOTAの作業と比べて、クリーンなパフォーマンスの改善を3倍にすることができる。 効率に関しては、AutoJoinは他のSOTA技術に対して、トレーニングのエポック毎に最大83%の時間を節約し、90%のトレーニングデータを節約することで、強力なアドバンテージを示している。 AutoJoinの中核となる考え方は、アーキテクチャ内でデノナイズされたオートエンコーダを作成するオリジナルの回帰モデルにデコーダアタッチメントを使用することである。 これにより、タスクの'ステアリング'と'センサ入力のデオライジング'が共同で学習でき、2つのタスクがお互いのパフォーマンスを強化できる。

As a result of increasingly adopted machine learning algorithms and ubiquitous sensors, many 'perception-to-control' systems have been deployed in various settings. For these systems to be trustworthy, we need to improve their robustness with adversarial training being one approach. In this work, we propose a gradient-free adversarial training technique, called AutoJoin. AutoJoin is a very simple yet effective and efficient approach to produce robust models for imaged-based autonomous maneuvering. Compared to other SOTA methods with testing on over 5M perturbed and clean images, AutoJoin achieves significant performance increases up to the 40% range under perturbed datasets while improving on clean performance for almost every dataset tested. In particular, AutoJoin can triple the clean performance improvement compared to the SOTA work by Shen et al. Regarding efficiency, AutoJoin demonstrates strong advantages over other SOTA techniques by saving up to 83% time per training epoch and 90% training data. The core idea of AutoJoin is to use a decoder attachment to the original regression model creating a denoising autoencoder within the architecture. This allows the tasks 'steering' and 'denoising sensor input' to be jointly learnt and enable the two tasks to reinforce each other's performance.
翻訳日:2022-05-29 17:39:42 公開日:2022-05-22
# (参考訳) muNet: トレーニング済みのディープニューラルネットワークをスケーラブルな自動チューニングマルチタスクシステムに進化させる

muNet: Evolving Pretrained Deep Neural Networks into Scalable Auto-tuning Multitask Systems ( http://arxiv.org/abs/2205.10937v1 )

ライセンス: CC BY 4.0
Andrea Gesmundo and Jeff Dean(参考訳) 今日の機械学習のほとんどの用途は、特定のタスクのスクラッチからモデルをトレーニングすることや、関連するタスクで事前訓練されたモデルから始め、ダウンストリームタスクで微調整することを含む。 どちらのアプローチも、異なるタスク間の限られた知識の伝達、個人タスクへの人間主導のカスタマイズ、特にランダムに初期化されたモデルから始める場合の高い計算コストを提供する。 本稿では、事前訓練されたディープニューラルネットワークの層をビルディングブロックとして利用し、任意のタスクを共同で解決できるMLシステムを構築する方法を提案する。 得られたシステムはクロスタスクの知識伝達を利用でき、破滅的な忘れ、勾配の干渉、負の伝達といったマルチタスクアプローチの共通の欠点に免疫を持つ。 我々は、各タスクに関連する事前知識を共同で選択し、モデルパラメータのサブセットを選択してトレーニングし、ハイパーパラメータを動的に自動調整するように設計された進化的アプローチを定義する。 さらに、一般的な微調整技術に勝る品質/サイズトレードオフを達成するために、新たなスケール制御手法が採用されている。 10種類の画像分類タスクのベンチマークの標準的な微調整と比較して、提案モデルは平均精度を2.39%改善し、タスク毎のパラメータを47%削減した。

Most uses of machine learning today involve training a model from scratch for a particular task, or sometimes starting with a model pretrained on a related task and then fine-tuning on a downstream task. Both approaches offer limited knowledge transfer between different tasks, time-consuming human-driven customization to individual tasks and high computational costs especially when starting from randomly initialized models. We propose a method that uses the layers of a pretrained deep neural network as building blocks to construct an ML system that can jointly solve an arbitrary number of tasks. The resulting system can leverage cross tasks knowledge transfer, while being immune from common drawbacks of multitask approaches such as catastrophic forgetting, gradients interference and negative transfer. We define an evolutionary approach designed to jointly select the prior knowledge relevant for each task, choose the subset of the model parameters to train and dynamically auto-tune its hyperparameters. Furthermore, a novel scale control method is employed to achieve quality/size trade-offs that outperform common fine-tuning techniques. Compared with standard fine-tuning on a benchmark of 10 diverse image classification tasks, the proposed model improves the average accuracy by 2.39% while using 47% less parameters per task.
翻訳日:2022-05-29 16:46:58 公開日:2022-05-22
# (参考訳) 型制御による多種多様なテーブル・ツー・テキスト生成

Diversity Enhanced Table-to-Text Generation via Type Control ( http://arxiv.org/abs/2205.10938v1 )

ライセンス: CC BY 4.0
Yotam Perlitz, Liat Ein-Dot, Dafna Sheinwald, Noam Slonim, Michal Shmueli-Scheuer(参考訳) 自然言語文を生成して表データから情報を伝えるプロセス(Table-to-text)は、1つの入力と様々な有効な出力を持つプロセスである。 この特徴は、生成を制御し、異なる出力セットを2つの重要な資産として生成する能力を強調している。 そこで本稿では,型制御テーブル・ツー・テキスト生成モデルを用いて,文の性質,すなわち論理型に基づく多様性向上手法を提案する。 ユーザは生成されたステートメントタイプを効果的にチューニングすることができ、異なるタイプをサンプリングすることで、与えられたテーブルに対して多様なステートメントセットを得ることができる。

Generating natural language statements to convey information from tabular data (i.e., Table-to-text) is a process with one input and a variety of valid outputs. This characteristic underscores the abilities to control the generation and produce a diverse set of outputs as two key assets. Thus, we propose a diversity enhancing scheme that builds upon an inherent property of the statements, namely, their logic-types, by using a type-controlled Table-to-text generation model. Employing automatic and manual tests, we prove its twofold advantage: users can effectively tune the generated statement type, and, by sampling different types, can obtain a diverse set of statements for a given table.
翻訳日:2022-05-29 16:07:24 公開日:2022-05-22
# (参考訳) スマートコンポジットを目指して:ソフトセンサ/アクチュエータシステムの小型・非テザリング予測と制御

Toward smart composites: small-scale, untethered prediction and control for soft sensor/actuator systems ( http://arxiv.org/abs/2205.10940v1 )

ライセンス: CC BY 4.0
Sarah Aguasvivas Manzano, Vani Sundaram, Artemis Xu, Khoi Ly, Mark Rentschler, Robert Shepherd, Nikolaus Correll(参考訳) 組込みマイクロコントローラユニット(MCU)を用いたセンサ/アクチュエータシステムのモデル予測制御のためのアルゴリズムとツールについて述べる。 これらのMCUはセンサーやアクチュエータと組み合わせることで、外部コンピュータを必要としない自律的な振る舞いが可能な新しいタイプのスマートコンポジットを可能にする。 このアプローチでは、キネマティクスはオフラインデータからニューラルネットワークモデルを使用して学習され、オープンソースツールであるnn4mcを使用してMCUコードにコンパイルされる。 オンラインニュートン・ラフソン最適化は制御入力を最適化する。 1次元センサ信号に適用された浅層ニューラルネットワークモデルでは、モデルサイズが小さくなり、制御ループ周波数が増加する。 本手法は,光レースセンサを組み込んだ腱型プラットフォームと磁気センサを組み込んだHASELベースのプラットフォームという,センサ,アクティベーション,計算ハードウェアの異なる2つの実験装置と,シミュレーションされた質量泉ダンパシステムを用いて検証する。 実験結果は、メモリフットプリントが小さい参照パス(120Hz以上)の有効帯域幅追跡(使用可能なフラッシュの6.4%以下)を示す。 測定されたパス追従誤差は腱ベースのプラットフォームでは2mmを超えず、予測されたパス追従誤差はhaselベースのプラットフォームでは1mmを超えない。 ARM Cortex-M4コンピュータにおけるこのコントローラコードの平均消費電力は45.4 mWである。 この制御アプローチはTensorflow Liteモデルや同等のコンパイラとも互換性がある。 複合材料に埋め込まれたインテリジェンスにより、構造やシステムにインテリジェンスを注入する新しい種類の複合材料が実現され、環境刺激に反応することができる。

We present a suite of algorithms and tools for model-predictive control of sensor/actuator systems with embedded microcontroller units (MCU). These MCUs can be colocated with sensors and actuators, thereby enabling a new class of smart composites capable of autonomous behavior that does not require an external computer. In this approach, kinematics are learned using a neural network model from offline data and compiled into MCU code using nn4mc, an open-source tool. Online Newton-Raphson optimization solves for the control input. Shallow neural network models applied to 1D sensor signals allow for reduced model sizes and increased control loop frequencies. We validate this approach on a simulated mass-spring-damper system and two experimental setups with different sensing, actuation, and computational hardware: a tendon-based platform with embedded optical lace sensors and a HASEL-based platform with magnetic sensors. Experimental results indicate effective high-bandwidth tracking of reference paths (120 Hz and higher) with a small memory footprint (less than or equal to 6.4% of available flash). The measured path following error does not exceed 2 mm in the tendon-based platform, and the predicted path following error does not exceed 1 mm in the HASEL-based platform. This controller code's mean power consumption in an ARM Cortex-M4 computer is 45.4 mW. This control approach is also compatible with Tensorflow Lite models and equivalent compilers. Embedded intelligence in composite materials enables a new class of composites that infuse intelligence into structures and systems, making them capable of responding to environmental stimuli using their proprioception.
翻訳日:2022-05-29 15:55:32 公開日:2022-05-22
# (参考訳) 高次元時系列解析のための深層識別直接デコーダ

Deep Discriminative Direct Decoders for High-dimensional Time-series Analysis ( http://arxiv.org/abs/2205.10947v1 )

ライセンス: CC BY 4.0
Mohammad R. Rezaei, Milos R. Popovic, Milad Lankarany, Ali Yousefi(参考訳) 動的潜在変数モデリングは、状態空間モデル(SSM)のような生成プロセスと、リカレントやディープニューラルネットワーク(DNN)のような識別プロセスを含む確立されたソリューションによって、ここ数十年間で著しく投資されている。 これらのソリューションは有望な結果をもたらす強力なツールであるが、驚くべきことに、複雑な多変量時系列データを分析する統一モデルに組み込まれなかった。 直接判別デコーダ(DDD)モデルと呼ばれる非常に最近のモデリングアプローチでは、SMMとDNNモデルを組み合わせるための主要なソリューションが提案されている。 DDDは a) 古典力学モデルに従って,状態遷移過程,及び b) DNNのように、状態の条件分布を現在の観測とその最近の歴史の関数として定義する識別過程。 DDDモデルの有望な結果にもかかわらず、DNNの文脈では、このモデルにトレーニングソリューションは使われていない。 本稿では,DNNパラメータと最適履歴項を同時にDDDモデルの一部として推定する方法を提案する。 DNNを識別プロセスとするDDDでは、D4の省略形を使用します。 シミュレーションと(相対的に)高次元ニューラルデータの両方においてD4復号性能を示した。 どちらのデータセットでも、D4パフォーマンスはSSMやDNNなど、最先端のデコードソリューションを上回っている。 DDDと潜在的D4の主な成功は、SSMまたはDNNソリューションで対処されていない長期的な情報を運ぶ状態プロセスとともに、最近の観察の歴史を効率的に活用することである。 我々はD4が高次元時系列データ解析の強力なツールであると主張する。

Dynamical latent variable modeling has been significantly invested over the last couple of decades with established solutions encompassing generative processes like the state-space model (SSM) and discriminative processes like a recurrent or a deep neural network (DNN). These solutions are powerful tools with promising results; however, surprisingly they were never put together in a unified model to analyze complex multivariate time-series data. A very recent modeling approach, called the direct discriminative decoder (DDD) model, proposes a principal solution to combine SMM and DNN models, with promising results in decoding underlying latent processes, e.g. rat movement trajectory, through high-dimensional neural recordings. The DDD consists of a) a state transition process, as per the classical dynamical models, and b) a discriminative process, like DNN, in which the conditional distribution of states is defined as a function of the current observations and their recent history. Despite promising results of the DDD model, no training solutions, in the context of DNN, have been utilized for this model. Here, we propose how DNN parameters along with an optimal history term can be simultaneously estimated as a part of the DDD model. We use the D4 abbreviation for a DDD with a DNN as its discriminative process. We showed the D4 decoding performance in both simulation and (relatively) high-dimensional neural data. In both datasets, D4 performance surpasses the state-of-art decoding solutions, including those of SSM and DNNs. The key success of DDD and potentially D4 is efficient utilization of the recent history of observation along with the state-process that carries long-term information, which is not addressed in either SSM or DNN solutions. We argue that D4 can be a powerful tool for the analysis of high-dimensional time-series data.
翻訳日:2022-05-29 15:33:31 公開日:2022-05-22
# (参考訳) アイスホッケー映像におけるプレイヤー追跡のためのディープトラッキングモデルの評価

Evaluating deep tracking models for player tracking in broadcast ice hockey video ( http://arxiv.org/abs/2205.10949v1 )

ライセンス: CC BY-SA 4.0
Kanav Vats, Mehrnaz Fani, David A. Clausi, John S. Zelek(参考訳) プレイヤーの追跡と識別は、コンピュータビジョンに基づくアイスホッケー分析において重要な問題である。 ホッケーの選手の動きは速いペースで非線形であるため、選手追跡は難しい問題である。 また、ホッケーの放送ビデオでは、プレイヤープレイヤーとプレイヤーボードのオクルージョン、カメラのパンニング、ズームも顕著である。 以前に公開された研究は、プレイヤーの検出と再識別のための手作り機能を使ってプレイヤー追跡を行う。 ホッケー選手追跡のための商用ソリューションは存在するが、私たちの知る限り、使用しているネットワークアーキテクチャやトレーニングデータ、パフォーマンスメトリクスは公開されていない。 現在、ディープラーニングの最近の進歩を活かしたホッケー選手追跡の成果は発表されていないが、文献で使われている現在の精度指標も報告している。 そこで本稿では,いくつかの最先端追跡アルゴリズムを比較して比較し,アイスホッケーにおけるその性能および故障モードを解析する。

Tracking and identifying players is an important problem in computer vision based ice hockey analytics. Player tracking is a challenging problem since the motion of players in hockey is fast-paced and non-linear. There is also significant player-player and player-board occlusion, camera panning and zooming in hockey broadcast video. Prior published research perform player tracking with the help of handcrafted features for player detection and re-identification. Although commercial solutions for hockey player tracking exist, to the best of our knowledge, no network architectures used, training data or performance metrics are publicly reported. There is currently no published work for hockey player tracking making use of the recent advancements in deep learning while also reporting the current accuracy metrics used in literature. Therefore, in this paper, we compare and contrast several state-of-the-art tracking algorithms and analyze their performance and failure modes in ice hockey.
翻訳日:2022-05-29 15:19:35 公開日:2022-05-22
# (参考訳) フェデレーション学習のインセンティブ

Incentivizing Federated Learning ( http://arxiv.org/abs/2205.10951v1 )

ライセンス: CC BY 4.0
Shuyu Kong, You Li and Hai Zhou(参考訳) フェデレートラーニング(Federated Learning)は、近年多くのアプリケーションで使われている分散コラボレーティブラーニングパラダイムである。 連合学習の有効性は、クライアントの集団的努力と地域データへの貢献意欲に依存している。 しかしながら、プライバシの懸念とデータ収集とモデルトレーニングのコストのために、クライアントは常に所有するすべてのデータに貢献するとは限らないため、グローバルモデルのパフォーマンスに悪影響を及ぼす可能性がある。 本稿では,顧客に対して可能な限り多くのデータ提供を促すインセンティブメカニズムを提案する。 従来のインセンティブメカニズムとは異なり、私たちのアプローチはデータを収益化しません。 代わりに、モデルパフォーマンスを報酬として暗黙的に使用します。 我々は,クライアントが一定の条件下でのフェデレーション学習に参加できる限り多くのデータを使用することを理論的に証明する。

Federated Learning is an emerging distributed collaborative learning paradigm used by many of applications nowadays. The effectiveness of federated learning relies on clients' collective efforts and their willingness to contribute local data. However, due to privacy concerns and the costs of data collection and model training, clients may not always contribute all the data they possess, which would negatively affect the performance of the global model. This paper presents an incentive mechanism that encourages clients to contribute as much data as they can obtain. Unlike previous incentive mechanisms, our approach does not monetize data. Instead, we implicitly use model performance as a reward, i.e., significant contributors are paid off with better models. We theoretically prove that clients will use as much data as they can possibly possess to participate in federated learning under certain conditions with our incentive mechanism
翻訳日:2022-05-29 15:10:42 公開日:2022-05-22
# (参考訳) 深層学習モデルの機能的ニューラルコードの解析

Analysis of functional neural codes of deep learning models ( http://arxiv.org/abs/2205.10952v1 )

ライセンス: CC BY 4.0
Jung Hoon Lee and Sujith Vijayan(参考訳) ディープラーニング(DL)エージェントであるディープニューラルネットワーク(DNN)は、大量の並列/シーケンス操作を必要とする。 これにより、DNNの操作を理解し、適切な診断を妨げることが極めて困難になる。 結果として、DNNは、誤った判断が破滅的な失敗につながるような、高い領域では簡単には使用できない。 したがって,より信頼性の高いDNN/DLを実世界の問題に展開するためには,DNNの内部動作をよりよく理解するための適切な解析ツールを開発することが不可欠である。 ここでは、自己組織化マップ(SOM)を用いて、意思決定に関連するDLモデルの内部コードを分析する。 分析の結果,隠れ層活性化パターンは限られたパターンにマッピングされ,DL予測と相関し,DLモデルの機能コードとして機能する可能性が示唆された。 本研究は,SOMを用いて,隠れ層に符号化された入力特徴を推定し,内部表現の進化とDLモデルにおける逆方向の摂動の伝播をよりよく理解するために,逆方向の入力の影響を分析した。

Deep neural networks (DNNs), the agents of deep learning (DL), require a massive number of parallel/sequential operations. This makes it extremely challenging to comprehend DNNs' operations and hinders proper diagnosis. Consequently, DNNs cannot be readily used in high-stakes domains, in which incorrect decisions can lead to catastrophic failures. Therefore, to build more reliable DNNs/DL to be deployed in high-stakes real-world problems, it is imperative that we develop proper analysis tools that will allow us to better understand DNNs' internal operations underlying their decision-making. Here, we used the self-organizing map (SOM) to analyze internal codes of DL models associated with their decision-making. Our analyses suggest that hidden layer activation patterns can be mapped onto a finite number of patterns and are correlated with DL predictions, raising the possibility that they could serve as functional codes of DL models. Encouraged by this observation, we further used SOM to estimate input features coded in hidden layers, analyzed the effects of adversarial inputs to better understand characterized internal representations' evolution and adversarial perturbations' propagation in DL models.
翻訳日:2022-05-29 15:01:56 公開日:2022-05-22
# (参考訳) CYRUS Soccer Simulation 2D Team Description Paper 2022

CYRUS Soccer Simulation 2D Team Description Paper 2022 ( http://arxiv.org/abs/2205.10953v1 )

ライセンス: CC BY 4.0
Nader Zare, Arad Firouzkouhi, Omid Amini, Mahtab Sarvmaili, Aref Sayareh, Saba Ramezani Rad, Stan Matwin, Amilcar Soares(参考訳) サッカーシミュレーション2Dリーグ(英語: Soccer Simulation 2D League)は、ロボカップのサッカーリーグである。 サッカーシミュレーション2D(SS2D)ゲームでは、11人の選手と1人のコーチのチームが互いに競い合う。 プレイヤーはサッカーシミュレーションサーバと呼ばれるサーバとしか通信できない。 本稿では,RoboCup 2021のチャンピオンであるCYRUSサッカーシミュレーションチームの前回および現在の研究を紹介する。 本稿では,Pass Prediction Deep Neural Network を用いたアンマーク決定と位置決めの改善について述べる。 実験結果から, このアイデアは, 対戦相手に対するサイラスの勝利率の向上に有効であることがわかった。

Soccer Simulation 2D League is one of the major leagues of RoboCup competitions. In a Soccer Simulation 2D (SS2D) game, two teams of 11 players and one coach compete against each other. The players are only allowed to communicate with the server that is called Soccer Simulation Server. This paper introduces the previous and current research of the CYRUS soccer simulation team, the champion of RoboCup 2021. We will present our idea about improving Unmarking Decisioning and Positioning by using Pass Prediction Deep Neural Network. Based on our experimental results, this idea proven to be effective on increasing the winning rate of Cyrus against opponents.
翻訳日:2022-05-29 14:48:13 公開日:2022-05-22
# (参考訳) 植物画像の自動生成とラベル付けのための分類学習曲線の検討

Investigating classification learning curves for automatically generated and labelled plant images ( http://arxiv.org/abs/2205.10955v1 )

ライセンス: CC BY-SA 4.0
Michael A. Beck, Christopher P. Bidinosti, Christopher J. Henry, Manisha Ajmani(参考訳) 教師あり機械学習の文脈において、学習曲線は、未知のデータに対するモデルの性能が、モデルを訓練するのに使用されるサンプルの量とどのように関連しているかを記述する。 本稿では,異なる生育段階のマニトバ草原に共通する作物や雑草を代表とする植物画像のデータセットを提案する。 本稿では、ResNetアーキテクチャを用いて、このデータに基づく分類タスクの学習曲線を決定する。 以上の結果から,学習曲線は大規模・応用・モデルに対する権力-法則関係によって支配されているという証拠が得られた。 さらに,ラベルノイズとトレーニング可能なパラメータの低減が,このデータセットの学習曲線に与える影響について検討する。 どちらの効果も、これらの効果なしで観察されるのと同じ分類性能を達成するために、不均等により大きなトレーニングセットを必要とするモデルに繋がる。

In the context of supervised machine learning a learning curve describes how a model's performance on unseen data relates to the amount of samples used to train the model. In this paper we present a dataset of plant images with representatives of crops and weeds common to the Manitoba prairies at different growth stages. We determine the learning curve for a classification task on this data with the ResNet architecture. Our results are in accordance with previous studies and add to the evidence that learning curves are governed by power-law relationships over large scales, applications, and models. We further investigate how label noise and the reduction of trainable parameters impacts the learning curve on this dataset. Both effects lead to the model requiring disproportionally larger training sets to achieve the same classification performance as observed without these effects.
翻訳日:2022-05-29 14:37:23 公開日:2022-05-22
# 半監督型分類のための深部低密度分離

Deep Low-Density Separation for Semi-Supervised Classification ( http://arxiv.org/abs/2205.11995v1 )

ライセンス: Link先を確認
Michael C. Burkhart and Kyle Shan(参考訳) ラベル付きデータの小さなセットとラベル付きデータの大規模なセットが与えられた後、半教師付き学習(SSL)はラベル付きデータポイントの位置を利用してラベル付きトレーニングセットにのみ適用された教師付きメソッドから得られるものよりも優れた分類器を作成する。 効率的なSSLはデータに構造的仮定を課し、例えば、近隣の人々は分類を共有しやすい、あるいは決定境界が低密度の領域にある、といったものである。 複雑で高次元のデータに対して、ニューラルネットワークは、従来のSSLメソッドがハイブリッドメソッドと呼ばれる方法で適用可能な機能埋め込みを学習することができる。 以前開発されたハイブリッド手法は、潜伏表現の精細化と、この表現上でグラフベースのSSLの実行を繰り返す。 本稿では,その代わりに低密度分離を組込み機能に適用する新しいハイブリッド手法を提案する。 グラフベースのアルゴリズムよりもニューラルネットワークベースの埋め込みにおいて、低密度分離がSSLに適している理由を詳細に説明し、議論する。 本手法は社内の顧客調査データを用いて検証し,他の最先端の学習手法と比較する。 本手法は比較的少数の手動分類例から数千の未ラベルユーザを効果的に分類する。

Given a small set of labeled data and a large set of unlabeled data, semi-supervised learning (SSL) attempts to leverage the location of the unlabeled datapoints in order to create a better classifier than could be obtained from supervised methods applied to the labeled training set alone. Effective SSL imposes structural assumptions on the data, e.g. that neighbors are more likely to share a classification or that the decision boundary lies in an area of low density. For complex and high-dimensional data, neural networks can learn feature embeddings to which traditional SSL methods can then be applied in what we call hybrid methods. Previously-developed hybrid methods iterate between refining a latent representation and performing graph-based SSL on this representation. In this paper, we introduce a novel hybrid method that instead applies low-density separation to the embedded features. We describe it in detail and discuss why low-density separation may be better suited for SSL on neural network-based embeddings than graph-based algorithms. We validate our method using in-house customer survey data and compare it to other state-of-the-art learning methods. Our approach effectively classifies thousands of unlabeled users from a relatively small number of hand-classified examples.
翻訳日:2022-05-25 15:12:02 公開日:2022-05-22
# 神経リプノフ微分予測制御

Neural Lyapunov Differentiable Predictive Control ( http://arxiv.org/abs/2205.10728v1 )

ライセンス: Link先を確認
Sayak Mukherjee, J\'an Drgo\v{n}a, Aaron Tuor, Mahantesh Halappanavar, Draguna Vrabie(参考訳) 本稿では,確率的lyapunovに基づく安定性保証を備えた微分可能プログラミングフレームワークを用いて,学習に基づく予測制御手法を提案する。 ニューラルリアプノフ微分可能予測制御(NLDPC)は、システムダイナミクス、状態および入力制約、必要なリアプノフ認証制約を含む計算グラフを構築し、その後、自動微分を使用して神経ポリシーパラメータを更新することによってポリシーを学習する。 ともなって、我々のアプローチは、状態空間の領域を安定なダイナミクスで証明するリアプノフ関数を共同で学習する。 また,初期条件の分布からNLDPCをトレーニングするためのサンプリングに基づく統計的保証も提供する。 当社のオフライントレーニングアプローチは,従来の明示的モデル予測制御ソリューションに代わる,計算効率とスケーラブルな選択肢を提供します。 二重積分器モデルの安定化と航空機モデル制御の例を用いて,提案手法の利点をシミュレーションにより検証する。

We present a learning-based predictive control methodology using the differentiable programming framework with probabilistic Lyapunov-based stability guarantees. The neural Lyapunov differentiable predictive control (NLDPC) learns the policy by constructing a computational graph encompassing the system dynamics, state and input constraints, and the necessary Lyapunov certification constraints, and thereafter using the automatic differentiation to update the neural policy parameters. In conjunction, our approach jointly learns a Lyapunov function that certifies the regions of state-space with stable dynamics. We also provide a sampling-based statistical guarantee for the training of NLDPC from the distribution of initial conditions. Our offline training approach provides a computationally efficient and scalable alternative to classical explicit model predictive control solutions. We substantiate the advantages of the proposed approach with simulations to stabilize the double integrator model and on an example of controlling an aircraft model.
翻訳日:2022-05-24 20:16:17 公開日:2022-05-22
# 線形系の反復解法における深い勾配補正法

A Deep Gradient Correction Method for Iteratively Solving Linear Systems ( http://arxiv.org/abs/2205.10763v1 )

ライセンス: Link先を確認
Ayano Kaneda, Osman Akar, Jingyu Chen, Victoria Kala, David Hyde, Joseph Teran(参考訳) 本稿では,方程式の大規模,スパース,対称,正定値線形系の解を近似する新しい深層学習手法を提案する。 これらの系は応用科学における多くの問題、例えば偏微分方程式の数値解法から生じる。 これらのシステムに対する解を近似するアルゴリズムは、その解を必要とする問題、特に数百万の未知数を必要とする現代のアプリケーションにおけるボトルネックとなることが多い。 実際、数値線形代数技術はこの計算負担を軽減するために何十年も研究されてきた。 近年、データ駆動技術もこれらの問題に期待している。 近似誤差の行列ノルムを最小化するために探索方向を反復的に選択する共役勾配アルゴリズムにより、深層ニューラルネットワークを用いて探索方向のデータ駆動改善による収束を加速するアプローチを設計する。 本手法は,線形作用素の逆作用を任意の定数まで近似するために,慎重に選択された畳み込みネットワークを利用する。 入力とシステム行列との$l^2$の差に等しい損失関数を持つ教師なし学習を用いてネットワークを訓練し、近似逆の未特定定数を計算した。 計算流体力学の応用において, 自由度数百万の空間離散ポアソン方程式に対する本手法の有効性を実証する。 最先端の学習手法とは異なり,本アルゴリズムは問題の大きさに依存しない少数の反復において,与えられた許容度に残留する線形系を低減できる。 さらに,本手法は,訓練中に遭遇するもの以外の様々なシステムに対して効果的に一般化する。

We present a novel deep learning approach to approximate the solution of large, sparse, symmetric, positive-definite linear systems of equations. These systems arise from many problems in applied science, e.g., in numerical methods for partial differential equations. Algorithms for approximating the solution to these systems are often the bottleneck in problems that require their solution, particularly for modern applications that require many millions of unknowns. Indeed, numerical linear algebra techniques have been investigated for many decades to alleviate this computational burden. Recently, data-driven techniques have also shown promise for these problems. Motivated by the conjugate gradients algorithm that iteratively selects search directions for minimizing the matrix norm of the approximation error, we design an approach that utilizes a deep neural network to accelerate convergence via data-driven improvement of the search directions. Our method leverages a carefully chosen convolutional network to approximate the action of the inverse of the linear operator up to an arbitrary constant. We train the network using unsupervised learning with a loss function equal to the $L^2$ difference between an input and the system matrix times the network evaluation, where the unspecified constant in the approximate inverse is accounted for. We demonstrate the efficacy of our approach on spatially discretized Poisson equations with millions of degrees of freedom arising in computational fluid dynamics applications. Unlike state-of-the-art learning approaches, our algorithm is capable of reducing the linear system residual to a given tolerance in a small number of iterations, independent of the problem size. Moreover, our method generalizes effectively to various systems beyond those encountered during training.
翻訳日:2022-05-24 20:16:02 公開日:2022-05-22
# 深層学習に基づくアップリンクNB-IoTの同期

Deep Learning-Based Synchronization for Uplink NB-IoT ( http://arxiv.org/abs/2205.10805v1 )

ライセンス: Link先を確認
Fay\c{c}al A\"it Aoudia and Jakob Hoydis and Sebastian Cammerer and Matthijs Van Keirsbilck and Alexander Keller(参考訳) 狭帯域モノのインターネット(NB-IoT)の狭帯域物理ランダムアクセスチャネル(NPRACH)に対するデバイス検出と到着時刻(ToA)とキャリア周波数オフセット(CFO)推定のためのニューラルネットワーク(NN)ベースのアルゴリズムを提案する。 導入されたNNアーキテクチャは、残余の畳み込みネットワークと、5Gニューラジオ(5G NR)仕様のプリアンブル構造に関する知識を利用する。 第3世代パートナーシッププロジェクト(3GPP)の都市マイクロセル(UMi)チャネルモデルと、最先端のベースラインに対してランダムにユーザを落としてベンチマークした結果、提案手法は偽陰性率(FNR)の最大8dBゲインと、偽陽性率(FPR)とToAおよびCFO推定精度の大幅な向上を可能にした。 さらに,提案アルゴリズムは,チャネル条件,CFO,送信確率の広い範囲での利得を可能にすることを示す。 導入された同期方式は基地局(BS)で動作し、ユーザデバイスに付加的な複雑さを導入することはない。 これは、プリアンブルの長さや送信電力を減らすことでバッテリー寿命を延ばす可能性がある。

We propose a neural network (NN)-based algorithm for device detection and time of arrival (ToA) and carrier frequency offset (CFO) estimation for the narrowband physical random-access channel (NPRACH) of narrowband internet of things (NB-IoT). The introduced NN architecture leverages residual convolutional networks as well as knowledge of the preamble structure of the 5G New Radio (5G NR) specifications. Benchmarking on a 3rd Generation Partnership Project (3GPP) urban microcell (UMi) channel model with random drops of users against a state-of-the-art baseline shows that the proposed method enables up to 8 dB gains in false negative rate (FNR) as well as significant gains in false positive rate (FPR) and ToA and CFO estimation accuracy. Moreover, our simulations indicate that the proposed algorithm enables gains over a wide range of channel conditions, CFOs, and transmission probabilities. The introduced synchronization method operates at the base station (BS) and, therefore, introduces no additional complexity on the user devices. It could lead to an extension of battery lifetime by reducing the preamble length or the transmit power.
翻訳日:2022-05-24 20:15:06 公開日:2022-05-22
# 音響波動方程式のための畳み込み拡散関係保存方式

A Convolutional Dispersion Relation Preserving Scheme for the Acoustic Wave Equation ( http://arxiv.org/abs/2205.10825v1 )

ライセンス: Link先を確認
Oded Ovadia and Adar Kahana and Eli Turkel(参考訳) 二次元音波問題の解を近似するための高精度な数値計算法を提案する。 我々は、高波数の存在下でも、機械学習を用いてステンシルを見つける。 提案手法は、最適化された数値スキームの分野からの物理情報要素を畳み込み最適化機械学習アルゴリズムに組み込む。

We propose an accurate numerical scheme for approximating the solution of the two dimensional acoustic wave problem. We use machine learning to find a stencil suitable even in the presence of high wavenumbers. The proposed scheme incorporates physically informed elements from the field of optimized numerical schemes into a convolutional optimization machine learning algorithm.
翻訳日:2022-05-24 20:14:38 公開日:2022-05-22
# 粗粒力場のコントラスト学習

Contrastive Learning of Coarse-Grained Force Fields ( http://arxiv.org/abs/2205.10861v1 )

ライセンス: Link先を確認
Xinqiang Ding and Bin Zhang(参考訳) 粗粒度モデルは、様々なプロセスに関する分子的な洞察を提供するために、長い時間スケールで複雑なシステムをシミュレートするのに役立つことが証明されている。 基礎となるエネルギー関数の体系的パラメータ化の手法、あるいはシステムの異なるコンポーネント間の相互作用を記述する力場は、シミュレーション精度を確保するために非常に興味深い。 そこで本研究では,全原子シミュレーションで生成したコンフォメーション分布を正確に再現できる力場を効率的に学習する手法を提案する。 ポテンシャルコントラストは、分子系の複雑なエネルギー環境をよりよく学習するために、ノイズコントラスト推定法と傘サンプリング法を一般化する。 trp-cageタンパク質に応用すると, 粗粒モデルにおいて$\alpha$-carbonsのみを使用しても, 折り畳み過程の熱力学を徹底的に捉える力場が生成することがわかった。 さらに,多くのタンパク質のコンフォメーションアンサンブルを組み合わせて粗粒の力場の移動性を確保する大規模データセットに対して,潜在的なコントラストが適用可能であることを示した。 我々は, 汎用粗粒力場構築のための強力なツールとして, 潜在的コントラストを期待する。

Coarse-grained models have proven helpful for simulating complex systems over long timescales to provide molecular insights into various processes. Methodologies for systematic parameterization of the underlying energy function, or force field that describes the interactions among different components of the system are of great interest for ensuring simulation accuracy. We present a new method, potential contrasting, to enable efficient learning of force fields that can accurately reproduce the conformational distribution produced with all-atom simulations. Potential contrasting generalizes the noise contrastive estimation method with umbrella sampling to better learn the complex energy landscape of molecular systems. When applied to the Trp-cage protein, we found that the technique produces force fields that thoroughly capture the thermodynamics of the folding process despite the use of only $\alpha$-Carbons in the coarse-grained model. We further showed that potential contrasting could be applied over large datasets that combine the conformational ensembles of many proteins to ensure the transferability of coarse-grained force fields. We anticipate potential contrasting to be a powerful tool for building general-purpose coarse-grained force fields.
翻訳日:2022-05-24 19:52:20 公開日:2022-05-22
# 逆強化学習。 敵の逆強化学習者から戦略を隠す方法

Inverse-Inverse Reinforcement Learning. How to Hide Strategy from an Adversarial Inverse Reinforcement Learner ( http://arxiv.org/abs/2205.10802v1 )

ライセンス: Link先を確認
Kunal Pattanayak and Vikram Krishnamurthy and Christopher Berry(参考訳) 逆強化学習(IRL)は、エージェントの実用機能をその動作から推定する。 本稿では、エージェントがその戦略を隠蔽し、敵のIRL攻撃を緩和する方法について考察し、これを逆IRL(I-IRL)と呼ぶ。 エージェントの戦略を見積もるためにIRLを行う敵による戦略の貧弱な再構築を確保するために、意思決定者はどのように対応するか。 まず,エージェントの効用関数を制御しながらエージェントの戦略を推定する逆irlアルゴリズムを提案する。 I-IRL結果に対する2つ目の結果は、敵が使用するIRLアルゴリズムをスプープする。 我々のI-IRL結果は、ミクロ経済学における明らかな嗜好理論に基づいている。 鍵となるアイデアは、エージェントが故意に、その真の戦略を十分に隠蔽する準最適応答を選択することである。 第3に, エージェントが敵特定ユーティリティ関数のノイズ推定値を持つ場合, 主i-irl結果のサンプル複雑性結果を与える。 最後に、メタ認知レーダーが対向目標を緩和しようとしているレーダ問題において、我々のI-IRLスキームを説明する。

Inverse reinforcement learning (IRL) deals with estimating an agent's utility function from its actions. In this paper, we consider how an agent can hide its strategy and mitigate an adversarial IRL attack; we call this inverse IRL (I-IRL). How should the decision maker choose its response to ensure a poor reconstruction of its strategy by an adversary performing IRL to estimate the agent's strategy? This paper comprises four results: First, we present an adversarial IRL algorithm that estimates the agent's strategy while controlling the agent's utility function. Our second result for I-IRL result spoofs the IRL algorithm used by the adversary. Our I-IRL results are based on revealed preference theory in micro-economics. The key idea is for the agent to deliberately choose sub-optimal responses that sufficiently masks its true strategy. Third, we give a sample complexity result for our main I-IRL result when the agent has noisy estimates of the adversary specified utility function. Finally, we illustrate our I-IRL scheme in a radar problem where a meta-cognitive radar is trying to mitigate an adversarial target.
翻訳日:2022-05-24 19:49:27 公開日:2022-05-22
# カテゴリー出力を持つシミュレーターベースモデルに対するJensen-Shannon発散による非パラメトリック測度自由推論

Nonparametric likelihood-free inference with Jensen-Shannon divergence for simulator-based models with categorical output ( http://arxiv.org/abs/2205.10890v1 )

ライセンス: Link先を確認
Jukka Corander and Ulpu Remes and Ida Holopainen and Timo Koski(参考訳) シミュレータに基づく統計モデルの確率論的推論は、機械学習と統計コミュニティの両方において、最近注目を集めている。 これらの研究分野の主な焦点は、様々な種類のモンテカルロサンプリングアルゴリズムまたはディープニューラルネットワークに基づくサロゲートモデルによって、モデルパラメータの後方分布を近似することである。 確率の暗黙の漸近近似が正確で計算効率のよい戦略を活用できるビッグデータのアプリケーションにとって特に適しているにもかかわらず、シミュレータベースのモデルの頻繁な推論は、これまであまり注目されていない。 ここでは、Jensen-Shannon発散の漸近特性を用いたモデルパラメータに対する推定、仮説テスト、信頼区間の構築を可能にする理論的結果のセットを導出する。 このような漸近近似は、より計算集約的なアプローチへの迅速な代替となり、シミュレータベースのモデルの多様な応用に魅力的である。 61

Likelihood-free inference for simulator-based statistical models has recently attracted a surge of interest, both in the machine learning and statistics communities. The primary focus of these research fields has been to approximate the posterior distribution of model parameters, either by various types of Monte Carlo sampling algorithms or deep neural network -based surrogate models. Frequentist inference for simulator-based models has been given much less attention to date, despite that it would be particularly amenable to applications with big data where implicit asymptotic approximation of the likelihood is expected to be accurate and can leverage computationally efficient strategies. Here we derive a set of theoretical results to enable estimation, hypothesis testing and construction of confidence intervals for model parameters using asymptotic properties of the Jensen--Shannon divergence. Such asymptotic approximation offers a rapid alternative to more computation-intensive approaches and can be attractive for diverse applications of simulator-based models. 61
翻訳日:2022-05-24 19:45:23 公開日:2022-05-22
# 自律探索とマルチゴール確率的最短経路の近似アルゴリズム

Near-Optimal Algorithms for Autonomous Exploration and Multi-Goal Stochastic Shortest Path ( http://arxiv.org/abs/2205.10729v1 )

ライセンス: Link先を確認
Haoyuan Cai, Tengyu Ma, Simon Du(参考訳) 我々はLim & Auer (2012) による漸進的な自律探査問題を再考する。 この設定において、エージェントは、$l$-controllable状態に到達するための最適に近い目標条件付きポリシーのセットを学習することを目指している: 初期状態から段階的に到達可能な状態は、$l$のステップで$s_0$である。 我々は既存のものよりも強いサンプル複雑性境界を持つ新しいアルゴリズムを導入する。 さらに,自律探査問題に対する最初の下限も証明した。 特に下界は,$L$制御可能な状態の数が$L$に対して多項式的に増加するとき,提案アルゴリズムであるValue-Aware Autonomous Explorationが最小値に近いことを意味する。 アルゴリズム設計における鍵となるのは、自律探索とマルチゴール確率的最短経路の接続であり、これは古典的確率的最短経路問題を自然に一般化する新しい問題である。 この新たな問題と自律探査との関係は、独立した関心事である。

We revisit the incremental autonomous exploration problem proposed by Lim & Auer (2012). In this setting, the agent aims to learn a set of near-optimal goal-conditioned policies to reach the $L$-controllable states: states that are incrementally reachable from an initial state $s_0$ within $L$ steps in expectation. We introduce a new algorithm with stronger sample complexity bounds than existing ones. Furthermore, we also prove the first lower bound for the autonomous exploration problem. In particular, the lower bound implies that our proposed algorithm, Value-Aware Autonomous Exploration, is nearly minimax-optimal when the number of $L$-controllable states grows polynomially with respect to $L$. Key in our algorithm design is a connection between autonomous exploration and multi-goal stochastic shortest path, a new problem that naturally generalizes the classical stochastic shortest path problem. This new problem and its connection to autonomous exploration can be of independent interest.
翻訳日:2022-05-24 19:27:31 公開日:2022-05-22
# GraB: ランダムリシャッフルよりもおそらく優れたデータ置換を見つける

GraB: Finding Provably Better Data Permutations than Random Reshuffling ( http://arxiv.org/abs/2205.10733v1 )

ライセンス: Link先を確認
Yucheng Lu, Wentao Guo, Christopher De Sa(参考訳) 各エポックごとにデータセットをランダムに置換するランダムなリシャッフルは、リプレースメントサンプリングよりも収束が速いため、モデルトレーニングで広く採用されている。 最近の研究では、厳格に選択されたデータ順序付けは、計算とメモリをより多く使用するコストで、経験的な収束をさらにスピードアップできることを示している。 しかし、欲望の順序付けは理論的正当性に欠けており、その非自明なメモリと計算オーバーヘッドのために有用性は限られている。 本稿では,まずherding という例順付けフレームワークを定式化し,sgd と herding の和は,ランダムな再帰によって得られる $o(n^{1/3}t^{-2/3})$ よりも高速で,滑らかな非凸目的に対して $o(t^{-2/3})$ で収束することを示す。 メモリオーバヘッドを低減するために、差分最小化理論を利用して、共有型グラディエント・バランシングアルゴリズム(GraB)を提案する。また、メモリ使用量を$O(nd)$から$O(d)$に、計算を$O(n^2)$から$O(n)$に減らし、$d$はモデル次元を表す。 我々は,MNIST, CIFAR10, WikiText, GLUEなどのアプリケーションにおいて,GraBがトレーニングと検証の両方のパフォーマンスにおいてランダムリシャッフルを上回り,また,100\times$以上のメモリ使用量を削減しつつ,最先端のgreedyオーダよりも優れていることを実証的に示す。

Random reshuffling, which randomly permutes the dataset each epoch, is widely adopted in model training because it yields faster convergence than with-replacement sampling. Recent studies indicate greedily chosen data orderings can further speed up convergence empirically, at the cost of using more computation and memory. However, greedy ordering lacks theoretical justification and has limited utility due to its non-trivial memory and computation overhead. In this paper, we first formulate an example-ordering framework named herding and answer affirmatively that SGD with herding converges at the rate $O(T^{-2/3})$ on smooth, non-convex objectives, faster than the $O(n^{1/3}T^{-2/3})$ obtained by random reshuffling, where $n$ denotes the number of data points and $T$ denotes the total number of iterations. To reduce the memory overhead, we leverage discrepancy minimization theory to propose an online Gradient Balancing algorithm (GraB) that enjoys the same rate as herding, while reducing the memory usage from $O(nd)$ to just $O(d)$ and computation from $O(n^2)$ to $O(n)$, where $d$ denotes the model dimension. We show empirically on applications including MNIST, CIFAR10, WikiText and GLUE that GraB can outperform random reshuffling in terms of both training and validation performance, and even outperform state-of-the-art greedy ordering while reducing memory usage over $100\times$.
翻訳日:2022-05-24 19:27:15 公開日:2022-05-22
# GraphMAE: 自己監督型マスクグラフオートエンコーダ

GraphMAE: Self-Supervised Masked Graph Autoencoders ( http://arxiv.org/abs/2205.10803v1 )

ライセンス: Link先を確認
Zhenyu Hou, Xiao Liu, Yuxiao Dong, Hongxia yang, Chunjie Wang, Jie Tang(参考訳) 自己教師付き学習(SSL)は近年広く研究されている。 特に、生成的なSSLは、自然言語処理やBERTやGPTの普及など、他の分野でも成功を収めている。 それにもかかわらず、構造的データ拡張と複雑なトレーニング戦略に大きく依存する対照的な学習は、グラフSSLにおいて支配的なアプローチであり、グラフ上の生成的SSLの進歩、特にグラフオートエンコーダ(GAE)は、他の分野で約束されているようなポテンシャルに達していない。 本稿では,GAEの再生目標,トレーニング堅牢性,エラーメトリクスなど,GAEの発達に悪影響を及ぼす問題を特定し,検討する。 本稿では,生成的自己教師付きグラフ学習におけるこれらの問題を緩和するマスクグラフオートエンコーダグラフメイを提案する。 構造を再構築する代わりに,GraphMAEの堅牢なトレーニングに役立つマスキング戦略とスケールドコサインエラーの両方による特徴再構成に着目することを提案する。 3つの異なるグラフ学習タスクに対して,21の公開データセットについて広範な実験を行う。 その結果,GraphMAEは簡単なグラフオートエンコーダであり,設計を慎重に行うことで,コントラストとジェネレーティブの両ベースラインにおけるパフォーマンスを常に向上させることができることがわかった。 本研究では,グラフオートエンコーダの理解と,グラフ上での自己教師型学習の可能性を示す。

Self-supervised learning (SSL) has been extensively explored in recent years. Particularly, generative SSL has seen emerging success in natural language processing and other fields, such as the wide adoption of BERT and GPT. Despite this, contrastive learning-which heavily relies on structural data augmentation and complicated training strategies-has been the dominant approach in graph SSL, while the progress of generative SSL on graphs, especially graph autoencoders (GAEs), has thus far not reached the potential as promised in other fields. In this paper, we identify and examine the issues that negatively impact the development of GAEs, including their reconstruction objective, training robustness, and error metric. We present a masked graph autoencoder GraphMAE that mitigates these issues for generative self-supervised graph learning. Instead of reconstructing structures, we propose to focus on feature reconstruction with both a masking strategy and scaled cosine error that benefit the robust training of GraphMAE. We conduct extensive experiments on 21 public datasets for three different graph learning tasks. The results manifest that GraphMAE-a simple graph autoencoder with our careful designs-can consistently generate outperformance over both contrastive and generative state-of-the-art baselines. This study provides an understanding of graph autoencoders and demonstrates the potential of generative self-supervised learning on graphs.
翻訳日:2022-05-24 19:26:39 公開日:2022-05-22
# ReLU Fields: 最小限の非線形性

ReLU Fields: The Little Non-linearity That Could ( http://arxiv.org/abs/2205.10824v1 )

ライセンス: Link先を確認
Animesh Karnewar and Tobias Ritschel and Oliver Wang and Niloy J. Mitra(参考訳) 近年の多くの研究において、多層知覚(mlps)は、画像や3dシーンを含む複雑な空間変動関数のモデリングに適していることが示されている。 MLPは、前例のない品質とメモリフットプリントを持つ複雑なシーンを表現できるが、MLPのこの表現力は、長いトレーニングと推論のコストがかかる。 一方、正規グリッドベース表現上の双線形/トリ線形補間は、高速なトレーニングと推論時間を与えるが、重要な追加メモリを必要とすることなく、MPPの品質にマッチすることができない。 そこで本研究では,MLPの高忠実度を保ちつつ,高速な再構成とレンダリングを可能としたグリッドベース表現の最小変化について検討する。 単純に補間されたグリッド値に固定された非線形性(relu)を許可するのです。 粗粒度最適化と組み合わせることで、そのようなアプローチが最先端技術と競合することを示す。 本報告では, 放射場, 占有場について報告し, 既存の複数の代替品との比較を行った。 この論文のコードとデータは、https://geometry.cs.ucl.ac.uk/projects/2022/relu_fieldsで入手できる。

In many recent works, multi-layer perceptions (MLPs) have been shown to be suitable for modeling complex spatially-varying functions including images and 3D scenes. Although the MLPs are able to represent complex scenes with unprecedented quality and memory footprint, this expressive power of the MLPs, however, comes at the cost of long training and inference times. On the other hand, bilinear/trilinear interpolation on regular grid based representations can give fast training and inference times, but cannot match the quality of MLPs without requiring significant additional memory. Hence, in this work, we investigate what is the smallest change to grid-based representations that allows for retaining the high fidelity result of MLPs while enabling fast reconstruction and rendering times. We introduce a surprisingly simple change that achieves this task -- simply allowing a fixed non-linearity (ReLU) on interpolated grid values. When combined with coarse to-fine optimization, we show that such an approach becomes competitive with the state-of-the-art. We report results on radiance fields, and occupancy fields, and compare against multiple existing alternatives. Code and data for the paper are available at https://geometry.cs.ucl.ac.uk/projects/2022/relu_fields.
翻訳日:2022-05-24 19:18:11 公開日:2022-05-22
# 関連網膜病変の同時同定によるAMD診断の改善

Improving AMD diagnosis by the simultaneous identification of associated retinal lesions ( http://arxiv.org/abs/2205.10885v1 )

ライセンス: Link先を確認
Jos\'e Morano, \'Alvaro S. Hervella, Jos\'e Rouco, Jorge Novo, Jos\'e I. Fern\'andez-Vigo, Marcos Ortega(参考訳) 加齢関連黄斑変性症(AMD)は、先進国、特に高齢者における視覚障害の主要な原因である。 また、世界人口の高齢化により人口増加傾向にある。 このシナリオでは、早期検出は後の視覚障害を回避するために不可欠である。 いずれにせよ,大規模検診プログラムの実施は,リスクが大きいため,専門医が実施しなければならないため,一般的には不可能である。 また、amdの診断は、多くの異なる病変が、多くの場合、他の黄斑病に類似していることが特徴であるため、特に難しいと考えられている。 これらの問題を克服するために、いくつかの研究が網膜画像におけるamdの自動検出法を提案している。 現在、これらの研究のほとんどは、画像のAMDおよび非AMDクラスへのバイナリ分類に畳み込みニューラルネットワーク(CNN)を使用している。 本研究では,AMDの診断と潜在的な病変の分類を同時に行うCNNに基づく新しいアプローチを提案する。 この後者の二次課題は、まだこの領域では解決されておらず、診断性能を改善し、意思決定を理解するのに役立つ補完的な有用な情報を提供している。 CNNモデルは、比較的容易に取得できるAMDと病変の有無の両方のイメージレベルラベルを持つ網膜画像を用いて訓練される。 いくつかの公開データセットで実施された実験により,提案手法はAMDの検出を改善するとともに,多くの病変の同定に良好な結果が得られた。

Age-related Macular Degeneration (AMD) is the predominant cause of blindness in developed countries, specially in elderly people. Moreover, its prevalence is increasing due to the global population ageing. In this scenario, early detection is crucial to avert later vision impairment. Nonetheless, implementing large-scale screening programmes is usually not viable, since the population at-risk is large and the analysis must be performed by expert clinicians. Also, the diagnosis of AMD is considered to be particularly difficult, as it is characterized by many different lesions that, in many cases, resemble those of other macular diseases. To overcome these issues, several works have proposed automatic methods for the detection of AMD in retinography images, the most widely used modality for the screening of the disease. Nowadays, most of these works use Convolutional Neural Networks (CNNs) for the binary classification of images into AMD and non-AMD classes. In this work, we propose a novel approach based on CNNs that simultaneously performs AMD diagnosis and the classification of its potential lesions. This latter secondary task has not yet been addressed in this domain, and provides complementary useful information that improves the diagnosis performance and helps understanding the decision. A CNN model is trained using retinography images with image-level labels for both AMD and lesion presence, which are relatively easy to obtain. The experiments conducted in several public datasets show that the proposed approach improves the detection of AMD, while achieving satisfactory results in the identification of most lesions.
翻訳日:2022-05-24 19:15:59 公開日:2022-05-22
# 臨床応用による病的人工知能のためのデータ準備

Preparing data for pathological artificial intelligence with clinical-grade performance ( http://arxiv.org/abs/2205.10748v1 )

ライセンス: Link先を確認
Yuanqing Yang (1), Kai Sun (1), Yanhua Gao (2), Kuangsong Wang (3 and 4), Gang Yu (1) ((1) Department of Biomedical Engineering, School of Basic Medical Sciences, Central South University, Changsha, China,(2) Department of Ultrasound, Shaanxi Provincial People's Hospital, Xi'an, China,(3) Department of Pathology, School of Basic Medical Sciences, Central South University, Changsha, China,(4) Department of Pathology, Xiangya Hospital, Central South University, Changsha, China)(参考訳) 目的] 病理は疾患診断に決定的だが, 経験豊富な病理学者に大きく依存する。 近年,病的人工知能 (PAI) は診断精度と効率を向上すると考えられている。 しかし,研究室での深層学習に基づくpaiの高性能化は,一般的には臨床では再現できない。 [方法]データ準備はPAIにとって重要であるため、2017年1月から2022年2月までに発行されたPubMedデータベースにおけるPAI関連の研究をレビューし、118の論文を含む。 病理組織のスライドの取得、クリーニング、スクリーニング、デジタイズを含む、データの準備方法の詳細な分析を行う。 エキスパートレビュー、画像アノテーション、モデルのトレーニングと検証のためのデータセット分割についても論じている。 さらに,臨床実践においてPAIのハイパフォーマンスが再現できない理由を考察し,PAIの臨床的パフォーマンスを改善するための効果的な方法を示す。 結果]PAIのロバスト性は,厳格な品質管理とスクリーニング,デジタル不一致の補正,合理的アノテーション,データ量など,多彩な疾患スライドのランダムな収集に依存している。 デジタル病理学は臨床段階のPAIの基礎であり,全スライド画像(WSI)に基づくデータ標準化と弱い教師付き学習手法は,パフォーマンス再現の障害を克服する有効な方法である。 [結論] 代表データ,マルチセンタからのラベリングと一貫性が,パフォーマンス再現の鍵となるのです。 WSIに基づく弱教師あり学習のデジタル診断、データ標準化、技術は、臨床レベルのPAIを構築することを願っている。 キーワード:病理人工知能、データ準備、臨床応用、ディープラーニング

[Purpose] The pathology is decisive for disease diagnosis, but relies heavily on the experienced pathologists. Recently, pathological artificial intelligence (PAI) is thought to improve diagnostic accuracy and efficiency. However, the high performance of PAI based on deep learning in the laboratory generally cannot be reproduced in the clinic. [Methods] Because the data preparation is important for PAI, the paper has reviewed PAI-related studies in the PubMed database published from January 2017 to February 2022, and 118 studies were included. The in-depth analysis of methods for preparing data is performed, including obtaining slides of pathological tissue, cleaning, screening, and then digitizing. Expert review, image annotation, dataset division for model training and validation are also discussed. We further discuss the reasons why the high performance of PAI is not reproducible in the clinical practices and show some effective ways to improve clinical performances of PAI. [Results] The robustness of PAI depend on randomized collection of representative disease slides, including rigorous quality control and screening, correction of digital discrepancies, reasonable annotation, and the amount of data. The digital pathology is fundamental of clinical-grade PAI, and the techniques of data standardization and weakly supervised learning methods based on whole slide image (WSI) are effective ways to overcome obstacles of performance reproduction. [Conclusion] The representative data, the amount of labeling and consistency from multi-centers is the key to performance reproduction. The digital pathology for clinical diagnosis, data standardization and technique of WSI-based weakly supervised learning hopefully build clinical-grade PAI. Keywords: pathological artificial intelligence; data preparation; clinical-grade; deep learning
翻訳日:2022-05-24 18:25:39 公開日:2022-05-22
# インテリジェント通信のためのマルチエージェントフィードバック型ニューラルネットワーク

Multi-Agent Feedback Enabled Neural Networks for Intelligent Communications ( http://arxiv.org/abs/2205.10750v1 )

ライセンス: Link先を確認
Fanglei Sun, Yang Li, Ying Wen, Jingchen Hu, Jun Wang, Yang Yang, Kai Li(参考訳) インテリジェントコミュニケーションの分野では、ディープラーニング(dl)が強固な適合能力とデータ駆動学習能力によって注目を集めている。 典型的なDLフィードフォワードネットワーク構造と比較して、直接データフィードバックによる拡張構造が研究され、フィードフォワードネットワークよりも優れた性能であることが証明された。 しかし、上記の単純なフィードバック手法では、フィードバックデータの解析や学習能力が不十分であるため、より複雑な非線形システムを扱うには不十分であり、さらなる改善のために性能が制限される。 本稿では,マルチエージェントフィードバック対応ニューラルネットワーク(MAFENN)フレームワークを提案する。 さらに、MAFENNフレームワークは理論的には3プレイヤーのFeedback Stackelbergゲームに定式化され、このゲームはFeedback Stackelberg平衡に収束することが証明される。 MAFENNフレームワークとアルゴリズムの設計は、フィードフォワードDLネットワークの学習能力の向上や、簡単なデータフィードバックによるそのバリエーションの向上を目的としている。 無線通信におけるMAFENNフレームワークの実現可能性を検証するため,マルチエージェントMAFENNベースの等化器 (MAFENN-E) を開発した。 実験の結果,QPSK変調方式を採用すると,提案手法のSER性能は線形チャネルにおいて従来の等化器よりも約2dB向上することがわかった。 非線形チャネルの場合,提案手法のser性能は,従来型またはdl型イコライザよりも大きく,複雑なチャネル環境において提案手法の有効性と頑健性を示す。

In the intelligent communication field, deep learning (DL) has attracted much attention due to its strong fitting ability and data-driven learning capability. Compared with the typical DL feedforward network structures, an enhancement structure with direct data feedback have been studied and proved to have better performance than the feedfoward networks. However, due to the above simple feedback methods lack sufficient analysis and learning ability on the feedback data, it is inadequate to deal with more complicated nonlinear systems and therefore the performance is limited for further improvement. In this paper, a novel multi-agent feedback enabled neural network (MAFENN) framework is proposed, which make the framework have stronger feedback learning capabilities and more intelligence on feature abstraction, denoising or generation, etc. Furthermore, the MAFENN framework is theoretically formulated into a three-player Feedback Stackelberg game, and the game is proved to converge to the Feedback Stackelberg equilibrium. The design of MAFENN framework and algorithm are dedicated to enhance the learning capability of the feedfoward DL networks or their variations with the simple data feedback. To verify the MAFENN framework's feasibility in wireless communications, a multi-agent MAFENN based equalizer (MAFENN-E) is developed for wireless fading channels with inter-symbol interference (ISI). Experimental results show that when the quadrature phase-shift keying (QPSK) modulation scheme is adopted, the SER performance of our proposed method outperforms that of the traditional equalizers by about 2 dB in linear channels. When in nonlinear channels, the SER performance of our proposed method outperforms that of either traditional or DL based equalizers more significantly, which shows the effectiveness and robustness of our proposal in the complex channel environment.
翻訳日:2022-05-24 18:25:14 公開日:2022-05-22
# gl-rg:ビデオキャプションのためのグローバル局所表現粒度

GL-RG: Global-Local Representation Granularity for Video Captioning ( http://arxiv.org/abs/2205.10706v1 )

ライセンス: Link先を確認
Liqi Yan, Qifan Wang, Yiming Cui, Fuli Feng, Xiaojun Quan, Xiangyu Zhang, Dongfang Liu(参考訳) 映像キャプションは、視覚理解を自然言語記述に正確に変換する必要があるため、難しい課題である。 これまでのところ、最先端の手法はキャプション生成のためにビデオフレーム全体のグローバルローカル表現を不適切にモデル化しており、改善の余地は十分残されている。 本研究では,新しい視点から映像キャプションタスクにアプローチし,ビデオキャプションのためのGL-RGフレームワーク,すなわち, \textbf{G}lobal-\textbf{L}ocal \textbf{R}epresentation \textbf{G}ranularityを提案する。 私たちのGL-RGは、これまでの取り組みよりも3つの利点を示しています。 1) 異なる映像範囲からの広範な視覚表現を明示的に活用し, 言語表現を改善する。 2) フレーム間の映像コンテンツの記述的粒度を得るために, リッチなセマンティック語彙を生成する新しいグローバルなエンコーダを考案する。 3) モデル学習をインクリメンタルに整理し, キャプション行動の最適化を図るインクリメンタルトレーニング戦略を開発する。 MSR-VTTとMSVDデータセットによる実験結果から,我々のDL-RGは最近の最先端手法よりも有意差で優れていた。 コードは \url{https://github.com/ylqi/GL-RG} で入手できる。

Video captioning is a challenging task as it needs to accurately transform visual understanding into natural language description. To date, state-of-the-art methods inadequately model global-local representation across video frames for caption generation, leaving plenty of room for improvement. In this work, we approach the video captioning task from a new perspective and propose a GL-RG framework for video captioning, namely a \textbf{G}lobal-\textbf{L}ocal \textbf{R}epresentation \textbf{G}ranularity. Our GL-RG demonstrates three advantages over the prior efforts: 1) we explicitly exploit extensive visual representations from different video ranges to improve linguistic expression; 2) we devise a novel global-local encoder to produce rich semantic vocabulary to obtain a descriptive granularity of video contents across frames; 3) we develop an incremental training strategy which organizes model learning in an incremental fashion to incur an optimal captioning behavior. Experimental results on the challenging MSR-VTT and MSVD datasets show that our DL-RG outperforms recent state-of-the-art methods by a significant margin. Code is available at \url{https://github.com/ylqi/GL-RG}.
翻訳日:2022-05-24 18:16:25 公開日:2022-05-22
# 画像認識のための学習可能なビジュアルワード

Learnable Visual Words for Interpretable Image Recognition ( http://arxiv.org/abs/2205.10724v1 )

ライセンス: Link先を確認
Wenxiao Xiao, Zhengming Ding, Hongfu Liu(参考訳) 深いモデルの予測を解釈するために、注意に基づく視覚的な手がかりは、 \textit{why} 深いモデルがそのような予測を行うのに広く使われている。 さらに、現在の研究コミュニティは、深層モデルの推論に興味を持つようになり、いくつかのプロトタイプベースの手法は、深部モデルの振る舞いのブラックボックスメカニズムを明らかにするために、対応する視覚的手がかりと解釈可能な表現を用いる。 しかしながら、これらの先駆的な試みは、カテゴリ固有のプロトタイプを学習し、それらの一般化能力を低下させるか、あるいは視覚ベースの解釈可能性の定量的評価を行なわずに、より実用的な使用法に制限を加えることなく、いくつかの図示的な例を示すのみである。 本稿では、視覚的単語の概念を再考し、意味的視覚的単語学習と二重忠実性保存という2つの新しいモジュールでモデル予測動作を解釈する学習可能な視覚的単語(LVW)を提案する。 意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。 視覚的単語をベースモデルにアライメントするために,視覚的単語を用いるだけでなく,学習した視覚的単語が同じ概念的領域に集中して予測を行うための注意誘導的セマンティックアライメントも備えている。 6つの視覚的ベンチマーク実験により,提案したLVWの精度およびモデル解釈における有効性を示した。 さらに,学習した視覚的単語を詳細に分析し,未知のカテゴリに対する手法の一般化可能性について検討する。

To interpret deep models' predictions, attention-based visual cues are widely used in addressing \textit{why} deep models make such predictions. Beyond that, the current research community becomes more interested in reasoning \textit{how} deep models make predictions, where some prototype-based methods employ interpretable representations with their corresponding visual cues to reveal the black-box mechanism of deep model behaviors. However, these pioneering attempts only either learn the category-specific prototypes and deteriorate their generalizing capacities, or demonstrate several illustrative examples without a quantitative evaluation of visual-based interpretability with further limitations on their practical usages. In this paper, we revisit the concept of visual words and propose the Learnable Visual Words (LVW) to interpret the model prediction behaviors with two novel modules: semantic visual words learning and dual fidelity preservation. The semantic visual words learning relaxes the category-specific constraint, enabling the general visual words shared across different categories. Beyond employing the visual words for prediction to align visual words with the base model, our dual fidelity preservation also includes the attention guided semantic alignment that encourages the learned visual words to focus on the same conceptual regions for prediction. Experiments on six visual benchmarks demonstrate the superior effectiveness of our proposed LVW in both accuracy and model interpretation over the state-of-the-art methods. Moreover, we elaborate on various in-depth analyses to further explore the learned visual words and the generalizability of our method for unseen categories.
翻訳日:2022-05-24 18:15:59 公開日:2022-05-22
# OTAdapt: 教師なしドメイン適応のための最適輸送ベースアプローチ

OTAdapt: Optimal Transport-based Approach For Unsupervised Domain Adaptation ( http://arxiv.org/abs/2205.10738v1 )

ライセンス: Link先を確認
Thanh-Dat Truong, Naga Venkata Sai Raviteja Chappa, Xuan Bac Nguyen, Ngan Le, Ashley Dowling, Khoa Luu(参考訳) 教師なしのドメイン適応はコンピュータビジョンにおいて難しい問題の一つである。 本稿では, 最適トランスポートベース距離に基づく教師なし領域適応に対する新しいアプローチを提案する。 このアプローチは、ドメイン間で有意義なメトリクスを必要とせずに、ターゲットドメインとソースドメインの整合を可能にする。 さらに、提案手法は、ソースとターゲットドメイン間の正しいマッピングを関連付け、ソースとターゲットドメイン間のトポロジの制約を保証する。 提案手法は,様々な問題,すなわち様々なデータセット上で評価される。 i) MNIST, MNIST-M, USPSデータセット上の数値認識 (ii)Amazon、Webcam、DSLR、VisDAデータセット上のオブジェクト認識 (iii)ip102データセットにおける昆虫の認識 実験の結果,提案手法は一貫して性能を向上することがわかった。 また、我々のフレームワークは他のCNNフレームワークとエンドツーエンドのディープネットワーク設計に組み込むことができ、認識の問題により性能が向上する。

Unsupervised domain adaptation is one of the challenging problems in computer vision. This paper presents a novel approach to unsupervised domain adaptations based on the optimal transport-based distance. Our approach allows aligning target and source domains without the requirement of meaningful metrics across domains. In addition, the proposal can associate the correct mapping between source and target domains and guarantee a constraint of topology between source and target domains. The proposed method is evaluated on different datasets in various problems, i.e. (i) digit recognition on MNIST, MNIST-M, USPS datasets, (ii) Object recognition on Amazon, Webcam, DSLR, and VisDA datasets, (iii) Insect Recognition on the IP102 dataset. The experimental results show that our proposed method consistently improves performance accuracy. Also, our framework could be incorporated with any other CNN frameworks within an end-to-end deep network design for recognition problems to improve their performance.
翻訳日:2022-05-24 18:15:29 公開日:2022-05-22
# 相互誘導によるヒューマン・インスタンス・マッチングとマルチ・インスタンス・リファインメント

Human Instance Matting via Mutual Guidance and Multi-Instance Refinement ( http://arxiv.org/abs/2205.10767v1 )

ライセンス: Link先を確認
Yanan Sun and Chi-Keung Tang and Yu-Wing Tai(参考訳) 本稿では,ヒトのインスタンスごとの正確なα行列を自動的に予測するために,関連するモデルを必要とする,Human instance matting (HIM) と呼ばれる新しいマッチングタスクを提案する。 インスタンスセグメンテーション、ソフトセグメンテーション、ヒューマン/コンベンション・マットリングといった密接な関連技術の直接的な組み合わせは、毛むくじゃらの薄い境界構造に沿って複数のインスタンスに属する混ざった色を区別する必要のある複雑なケースでは容易に失敗する。 このような技術的課題に対処するために、我々はInstMattと呼ばれる人間のインスタンス・マッチング・フレームワークを提案し、多インスタンス・リファインメント・モジュールと連動する新しい相互ガイダンス・ストラテジーを用いて、複雑な境界と重複する境界を持つ人間間のマルチインスタンス・リファインメント関係を記述している。 インスタンス認識とマットング品質の両方を強調する統一的で公正な評価方法がないことに対処した、インスタンスマットング品質(imq)と呼ばれる新しいインスタンスマットングメトリックが提案されている。 最後に,合成および自然なベンチマーク画像からなる評価用HIMベンチマークを構築した。 複数および重複するヒトのインスタンスの複雑なケースに対する詳細な実験結果に加えて、各インスタンスは複雑な境界を持つ。 コードとベンチマークはhttps://github.com/nowsyn/InstMatt.comで公開されている。

This paper introduces a new matting task called human instance matting (HIM), which requires the pertinent model to automatically predict a precise alpha matte for each human instance. Straightforward combination of closely related techniques, namely, instance segmentation, soft segmentation and human/conventional matting, will easily fail in complex cases requiring disentangling mingled colors belonging to multiple instances along hairy and thin boundary structures. To tackle these technical challenges, we propose a human instance matting framework, called InstMatt, where a novel mutual guidance strategy working in tandem with a multi-instance refinement module is used, for delineating multi-instance relationship among humans with complex and overlapping boundaries if present. A new instance matting metric called instance matting quality (IMQ) is proposed, which addresses the absence of a unified and fair means of evaluation emphasizing both instance recognition and matting quality. Finally, we construct a HIM benchmark for evaluation, which comprises of both synthetic and natural benchmark images. In addition to thorough experimental results on complex cases with multiple and overlapping human instances each has intricate boundaries, preliminary results are presented on general instance matting. Code and benchmark are available in https://github.com/nowsyn/InstMatt.
翻訳日:2022-05-24 18:15:16 公開日:2022-05-22
# 長期ビデオ分類のためのマルチエキスパート分布校正の学習

Learning Muti-expert Distribution Calibration for Long-tailed Video Classification ( http://arxiv.org/abs/2205.10788v1 )

ライセンス: Link先を確認
Yufan Hu, Junyu Gao, Changsheng Xu(参考訳) 既存の最先端ビデオ分類手法の多くは、トレーニングデータが一様分布に従うと仮定している。 しかし、実世界のビデオデータは典型的にはロングテール級の分布と不均衡を示し、これはヘッドクラスのモデルバイアスをもたらし、テール級の性能は比較的低い。 現在のロングテール分類法は画像分類に焦点を当てているが、ビデオデータへの適応は簡単な拡張ではない。 これらの課題に対処するために,両レベル分布情報に基づくエンドツーエンドのマルチエキスパート分布校正手法を提案する。 本手法では,各クラスにおけるサンプル分布(イントラクラス分布)と全データ分布(クラス間分布)を共同で考慮し,ロングテール分布における不均衡データの問題を解く。 この2レベル分布情報をモデル化することにより、モデルがヘッドクラスとテールクラスを考慮し、ヘッドクラスから知識を著しく転送し、テールクラスの性能を向上させることができる。 広範囲な実験により,長編ビデオ分類作業における最先端性能が得られた。

Most existing state-of-the-art video classification methods assume the training data obey a uniform distribution. However, video data in the real world typically exhibit long-tail class distribution and imbalance, which extensively results in a model bias towards head class and leads to relatively low performance on tail class. While the current long-tail classification methods usually focus on image classification, adapting it to video data is not a trivial extension. We propose an end-to-end multi-experts distribution calibration method based on two-level distribution information to address these challenges. The method jointly considers the distribution of samples in each class (intra-class distribution) and the diverse distributions of overall data (inter-class distribution) to solve the problem of imbalanced data under long-tailed distribution. By modeling this two-level distribution information, the model can consider the head classes and the tail classes and significantly transfer the knowledge from the head classes to improve the performance of the tail classes. Extensive experiments verify that our method achieves state-of-the-art performance on the long-tailed video classification task.
翻訳日:2022-05-24 18:14:52 公開日:2022-05-22
# ターゲット認識変換器による知識蒸留

Knowledge Distillation via the Target-aware Transformer ( http://arxiv.org/abs/2205.10793v1 )

ライセンス: Link先を確認
Sihao Lin, Hongwei Xie, Bing Wang, Kaicheng Yu, Xiaojun Chang, Xiaodan Liang, Gang Wang(参考訳) 知識蒸留は、小さなニューラルネットワークの性能を改善するためのデファクトスタンダードとなる。 以前の作品の多くは、一対一の空間マッチングで教師から生徒への表象的特徴を後退させることを提案している。 しかし、建築の違いにより、同じ空間上の意味情報が通常異なるという事実を人々は見落としがちである。 これは1対1の蒸留法の基本前提を大きく損なう。 そこで本研究では,新しい空間マッチング知識蒸留法を提案する。 具体的には,教師特徴の画素を,目標認識トランスフォーマーから生成される類似性を考慮して,学生特徴のすべての空間的位置へ蒸留することを可能にする。 我々のアプローチは、ImageNet、Pascal VOC、COCOStuff10kなど、様々なコンピュータビジョンベンチマークにおいて最先端の手法をはるかに上回っている。 コードはまもなくリリースされる。

Knowledge distillation becomes a de facto standard to improve the performance of small neural networks. Most of the previous works propose to regress the representational features from the teacher to the student in a one-to-one spatial matching fashion. However, people tend to overlook the fact that, due to the architecture differences, the semantic information on the same spatial location usually vary. This greatly undermines the underlying assumption of the one-to-one distillation approach. To this end, we propose a novel one-to-all spatial matching knowledge distillation approach. Specifically, we allow each pixel of the teacher feature to be distilled to all spatial locations of the student features given its similarity, which is generated from a target-aware transformer. Our approach surpasses the state-of-the-art methods by a significant margin on various computer vision benchmarks, such as ImageNet, Pascal VOC and COCOStuff10k. Code will be released soon.
翻訳日:2022-05-24 18:14:34 公開日:2022-05-22
# 視覚によるアンチUAV検出と追跡

Vision-based Anti-UAV Detection and Tracking ( http://arxiv.org/abs/2205.10851v1 )

ライセンス: Link先を確認
Jie Zhao, Jingshu Zhang, Dongdong Li, Dong Wang(参考訳) 無人航空機(uav)は様々な分野で広く使われており、セキュリティとプライバシーの侵害は社会的な懸念を引き起こしている。 近年、UAVの検知・追跡システムがいくつか導入されているが、そのほとんどが無線周波数、レーダー、その他のメディアに基づいている。 コンピュータビジョンの分野は、UAVの検出と追跡に十分成熟していると仮定する。 そこで我々は,Dalian University of Technology Anti-UAV データセット,DUT Anti-UAV という可視光モードデータセットを提案する。 検出データセットには、合計1万の画像と、短期および長期のシーケンスを含む20のビデオの追跡データセットが含まれている。 すべてのフレームとイメージは手動で注釈付けされる。 このデータセットを使用して,既存の検出アルゴリズムをトレーニングし,アルゴリズムの性能評価を行う。 いくつかのトラッキングメソッドも、追跡データセットでテストされています。 さらに,検出器の高精度を継承する検出と組み合わせた,明確かつ簡便な追跡アルゴリズムを提案する。 広範囲にわたる実験の結果,検出後の追跡性能は大幅に向上し,我々のデータセットを用いたUAV追跡の新たな試みが得られた。

Unmanned aerial vehicles (UAV) have been widely used in various fields, and their invasion of security and privacy has aroused social concern. Several detection and tracking systems for UAVs have been introduced in recent years, but most of them are based on radio frequency, radar, and other media. We assume that the field of computer vision is mature enough to detect and track invading UAVs. Thus we propose a visible light mode dataset called Dalian University of Technology Anti-UAV dataset, DUT Anti-UAV for short. It contains a detection dataset with a total of 10,000 images and a tracking dataset with 20 videos that include short-term and long-term sequences. All frames and images are manually annotated precisely. We use this dataset to train several existing detection algorithms and evaluate the algorithms' performance. Several tracking methods are also tested on our tracking dataset. Furthermore, we propose a clear and simple tracking algorithm combined with detection that inherits the detector's high precision. Extensive experiments show that the tracking performance is improved considerably after fusing detection, thus providing a new attempt at UAV tracking using our dataset.The datasets and results are publicly available at: https://github.com/wangdongdut/DUT-Anti-UAV
翻訳日:2022-05-24 18:14:21 公開日:2022-05-22
# 地上-衛星間画像検索による地形解析

Geo-Localization via Ground-to-Satellite Cross-View Image Retrieval ( http://arxiv.org/abs/2205.10878v1 )

ライセンス: Link先を確認
Zelong Zeng, Zheng Wang, Fan Yang, Shin'ichi Satoh(参考訳) ターゲット周辺の視点と無関係なコンテンツのばらつきは、常に正確な画像検索とそれに続くタスクを妨げる。 本稿では,ランドマークの地上像を考慮し,対応する衛星画像の探索により地理的な地域化を実現することを目的とした,極めて困難な課題について検討する。 特に、地上視と衛星視のギャップは、大きな視点の変化(ランドマークの一部が正面から上から見えない場合もある)だけでなく、非常に無関係な背景(ターゲットランドマークは周囲の建物に隠されていることが多い)を含むため、共通の表現や適切なマッピングを学ぶことは困難である。 この問題に対処するため、地上視と衛星視の橋渡しとしてドローン視情報を利用する。 本稿では,plcd(peer learning and cross diffusion)フレームワークを提案する。 PLCDは3つの部分から構成される。 1) 地上視とドローン視を通したピアラーニングにより、地上視のクロスビュー学習の便宜を図る。 2) 衛星ドローンによるクロスビュー表現学習のためのパッチベースネットワーク 3)地上ドローン空間と衛星ドローン空間との交差拡散。 University-EarthとUniversity-Googleのデータセットで実施された大規模な実験により、我々の手法は最先端の成果を著しく上回ることがわかった。

The large variation of viewpoint and irrelevant content around the target always hinder accurate image retrieval and its subsequent tasks. In this paper, we investigate an extremely challenging task: given a ground-view image of a landmark, we aim to achieve cross-view geo-localization by searching out its corresponding satellite-view images. Specifically, the challenge comes from the gap between ground-view and satellite-view, which includes not only large viewpoint changes (some parts of the landmark may be invisible from front view to top view) but also highly irrelevant background (the target landmark tend to be hidden in other surrounding buildings), making it difficult to learn a common representation or a suitable mapping. To address this issue, we take advantage of drone-view information as a bridge between ground-view and satellite-view domains. We propose a Peer Learning and Cross Diffusion (PLCD) framework. PLCD consists of three parts: 1) a peer learning across ground-view and drone-view to find visible parts to benefit ground-drone cross-view representation learning; 2) a patch-based network for satellite-drone cross-view representation learning; 3) a cross diffusion between ground-drone space and satellite-drone space. Extensive experiments conducted on the University-Earth and University-Google datasets show that our method outperforms state-of-the-arts significantly.
翻訳日:2022-05-24 18:13:17 公開日:2022-05-22
# 過度に適合しない記憶:大規模言語モデルのトレーニングダイナミクスの分析

Memorization Without Overfitting: Analyzing the Training Dynamics of Large Language Models ( http://arxiv.org/abs/2205.10770v1 )

ライセンス: Link先を確認
Kushal Tirumala, Aram H. Markosyan, Luke Zettlemoyer, Armen Aghajanyan(参考訳) 広く採用されているにもかかわらず、非常に大きな言語モデルの基礎となるトレーニングと記憶のダイナミクスはよく分かっていない。 モデルサイズとトレーニングプロセス全体にわたって,因果的およびマスキングされた言語モデリングにおける正確な記憶を実証的に研究する。 データセットのサイズ、学習率、モデルサイズが記憶力に与える影響を測定し、大きな言語モデルがすべての設定でトレーニングデータをより早く記憶することを発見した。 驚くべきことに、大きなモデルは過度に適合する前にデータの大部分を記憶し、トレーニングプロセスを通して忘れる傾向にある。 また,音声の異なる部分の記憶力学を解析し,モデルがまず名詞と数を記憶することを見いだし,名詞と数が個々の学習例を記憶するためのユニークな識別子として作用することを示す経験的証拠を提示する。 これらの発見は、モデルが大きくなるにつれて実際に何が改善されるのかを理解するための、より広範なパズルの1つを示している。

Despite their wide adoption, the underlying training and memorization dynamics of very large language models is not well understood. We empirically study exact memorization in causal and masked language modeling, across model sizes and throughout the training process. We measure the effects of dataset size, learning rate, and model size on memorization, finding that larger language models memorize training data faster across all settings. Surprisingly, we show that larger models can memorize a larger portion of the data before over-fitting and tend to forget less throughout the training process. We also analyze the memorization dynamics of different parts of speech and find that models memorize nouns and numbers first; we hypothesize and provide empirical evidence that nouns and numbers act as a unique identifier for memorizing individual training examples. Together, these findings present another piece of the broader puzzle of trying to understand what actually improves as models get bigger.
翻訳日:2022-05-24 17:12:07 公開日:2022-05-22
# ハイパーアダプタを用いた多言語機械翻訳

Multilingual Machine Translation with Hyper-Adapters ( http://arxiv.org/abs/2205.10835v1 )

ライセンス: Link先を確認
Christos Baziotis, Mikel Artetxe, James Cross, Shruti Bhosale(参考訳) 多言語機械翻訳は言語間の負の干渉に苦しむ。 一般的な解決策は、アダプタのような言語固有のモジュールとのパラメータ共有を緩和することだ。 しかし,関連言語のアダプタでは情報伝達が不可能であり,言語数の増加に伴い,パラメータの総数は不当に高価になる。 本研究では、言語と層埋め込みからアダプタを生成するハイパーネットワークであるハイパーアダプタを使って、これらの欠点を克服する。 ハイパーネットワークのスケーリングでは,過去の作業は不十分であったが,コンバージェンスを大幅に改善し,より大きなハイパーネットワークのトレーニングを可能にする再スケーリング修正を提案する。 ハイパーアダプタは通常のアダプタよりもパラメータ効率が良く,最大12分の1のパラメータで同じパフォーマンスを実現しています。 同じ数のパラメータとFLOPSを使用する場合、我々の手法は通常のアダプタよりも一貫して優れている。 また、ハイパーアダプタは、他のアプローチよりも早く収束し、通常の高密度ネットワークよりもスケールする。 分析の結果,ハイパーアダプタは言語関連性をエンコードすることを学び,言語間の正の転送を可能にした。

Multilingual machine translation suffers from negative interference across languages. A common solution is to relax parameter sharing with language-specific modules like adapters. However, adapters of related languages are unable to transfer information, and their total number of parameters becomes prohibitively expensive as the number of languages grows. In this work, we overcome these drawbacks using hyper-adapters -- hyper-networks that generate adapters from language and layer embeddings. While past work had poor results when scaling hyper-networks, we propose a rescaling fix that significantly improves convergence and enables training larger hyper-networks. We find that hyper-adapters are more parameter efficient than regular adapters, reaching the same performance with up to 12 times less parameters. When using the same number of parameters and FLOPS, our approach consistently outperforms regular adapters. Also, hyper-adapters converge faster than alternative approaches and scale better than regular dense networks. Our analysis shows that hyper-adapters learn to encode language relatedness, enabling positive transfer across languages.
翻訳日:2022-05-24 17:11:52 公開日:2022-05-22
# eコマースにおけるベンチマークデータセットを用いたコモンセンスナレッジ・サリアンス評価

Commonsense Knowledge Salience Evaluation with a Benchmark Dataset in E-commerce ( http://arxiv.org/abs/2205.10843v1 )

ライセンス: Link先を確認
Yincen Qu, Ningyu Zhang, Hui Chen, Zelin Dai, Zezhong Xu, Chengming Wang, Xiaoyu Wang, Qiang Chen, Huajun Chen(参考訳) eコマースでは、コモンセンス・ナレッジ(csk)は製品検索やレコメンデーションといった幅広い応用に有用である。 例えば、ユーザがeコマースで"runing"を検索すると、"shoes"ではなく"runing shoes"のようなランニングに関連するアイテムが見つかる。 しかし、既存のCSKコレクションの多くは、信頼スコアのみによってランク付けされており、人間の視点ではどのコレクションが健全であるかに関する情報はない。 本研究では,CSK三重項が与えられた場合,三重項が正当かどうかを学習するためには,教師付きサリエンス評価の課題を定義する。 また,新たな課題の定式化に加えて,BSEE(Salience Evaluation in E-Commerce)のベンチマークデータセットも公開し,コモンセンス・ナレッジ・サリエンス評価に関する関連研究の促進を期待する。 いくつかの代表的なベースラインモデルを用いてデータセットで実験を行う。 実験結果から,サリエンス評価はモデルが評価セットに不適合な作業であることがわかった。 さらに,PMIチューニングというシンプルな手法を提案し,この問題の解決を約束する。

In e-commerce, the salience of commonsense knowledge (CSK) is beneficial for widespread applications such as product search and recommendation. For example, when users search for "running" in e-commerce, they would like to find items highly related to running, such as "running shoes" rather than "shoes". However, many existing CSK collections rank statements solely by confidence scores, and there is no information about which ones are salient from a human perspective. In this work, we define the task of supervised salience evaluation, where given a CSK triple, the model is required to learn whether the triple is salient or not. In addition to formulating the new task, we also release a new Benchmark dataset of Salience Evaluation in E-commerce (BSEE) and hope to promote related research on commonsense knowledge salience evaluation. We conduct experiments in the dataset with several representative baseline models. The experimental results show that salience evaluation is a hard task where models perform poorly on our evaluation set. We further propose a simple but effective approach, PMI-tuning, which shows promise for solving this novel problem.
翻訳日:2022-05-24 17:11:37 公開日:2022-05-22
# AFEC:カジュアル会話におけるソーシャルインテリジェンスをキャプチャする知識グラフ

AFEC: A Knowledge Graph Capturing Social Intelligence in Casual Conversations ( http://arxiv.org/abs/2205.10850v1 )

ライセンス: Link先を確認
Yubo Xie, Junze Li, Pearl Pu(参考訳) 本稿では,日々のカジュアルな会話に基づいた知識グラフであるAFECを紹介する。 このグラフで得られた知識は、人々が社会的な会話においてどのように認識、慰め、そして幅広い共感的な反応を提供するかを理解するための会話システムの可能性を示しています。 この知識を包括的で意味のあるものにするために、r/CasualConversation SubRedditから大規模なコーパスをキュレーションしました。 全会話の最初の2回を行ない、134Kの話者ノードと666Kのリスナーノードを得た。 チャットボットがソーシャル環境でどのように会話できるかを示すために,検索ベースのチャットボットを構築し,既存の共感対話モデルと比較した。 実験の結果、我々のモデルはより多様な応答(人間の評価において、少なくとも15%以上の多様性スコア)を生成できる一方で、応答品質の点で4つのベースラインのうち2つを上回ります。

This paper introduces AFEC, an automatically curated knowledge graph based on people's day-to-day casual conversations. The knowledge captured in this graph bears potential for conversational systems to understand how people offer acknowledgement, consoling, and a wide range of empathetic responses in social conversations. For this body of knowledge to be comprehensive and meaningful, we curated a large-scale corpus from the r/CasualConversation SubReddit. After taking the first two turns of all conversations, we obtained 134K speaker nodes and 666K listener nodes. To demonstrate how a chatbot can converse in social settings, we built a retrieval-based chatbot and compared it with existing empathetic dialog models. Experiments show that our model is capable of generating much more diverse responses (at least 15% higher diversity scores in human evaluation), while still outperforming two out of the four baselines in terms of response quality.
翻訳日:2022-05-24 17:11:15 公開日:2022-05-22
# relphormer: ナレッジグラフ表現のための関係グラフトランスフォーマー

Relphormer: Relational Graph Transformer for Knowledge Graph Representation ( http://arxiv.org/abs/2205.10852v1 )

ライセンス: Link先を確認
Zhen Bi, Siyuan Cheng, Ningyu Zhang, Xiaozhuan Liang, Feiyu Xiong, Huajun Chen(参考訳) トランスフォーマーは自然言語処理、コンピュータビジョン、グラフマイニングなど幅広い分野において顕著な性能を発揮している。 しかし、翻訳距離パラダイムがこの分野を支配している知識グラフ表現では、バニラトランスフォーマーアーキテクチャは有望な改善を得られていない。 注意すべきは、バニラトランスフォーマーアーキテクチャは知識グラフの本質的意味的および構造的情報を捉えるのに苦労しており、二次依存のため長距離の隣人にはほとんどスケールできないことである。 そこで本研究では,Relphormerと呼ばれる知識グラフ表現のためのTransformerの新たな変種を提案する。 具体的には、Triple2Seqを導入し、コンテキスト化されたサブグラフシーケンスをTransformerの入力として動的にサンプリングし、スケーラビリティの問題を軽減する。 次に、関係情報をエンコードし、サブグラフ間のグローバルな意味情報を保持するための構造強化自己認識機構を提案する。 さらに,異なるリンク予測タスクを統合するための知識グラフ表現学習のための新しいパラダイムとして,マスク付き知識モデリングを提案する。 実験結果から,本手法はベースラインと比較してベンチマークデータセットの性能が向上することが示された。

Transformers have achieved remarkable performance in widespread fields, including natural language processing, computer vision and graph mining. However, in the knowledge graph representation, where translational distance paradigm dominates this area, vanilla Transformer architectures have not yielded promising improvements. Note that vanilla Transformer architectures struggle to capture the intrinsically semantic and structural information of knowledge graphs and can hardly scale to long-distance neighbors due to quadratic dependency. To this end, we propose a new variant of Transformer for knowledge graph representation dubbed Relphormer. Specifically, we introduce Triple2Seq which can dynamically sample contextualized sub-graph sequences as the input of the Transformer to alleviate the scalability issue. We then propose a novel structure-enhanced self-attention mechanism to encode the relational information and keep the globally semantic information among sub-graphs. Moreover, we propose masked knowledge modeling as a new paradigm for knowledge graph representation learning to unify different link prediction tasks. Experimental results show that our approach can obtain better performance on benchmark datasets compared with baselines.
翻訳日:2022-05-24 17:11:01 公開日:2022-05-22
# blackbird's language matrices (blms) : ニューラルネットワークにおける不連続一般化を調べるための新しいベンチマーク

Blackbird's language matrices (BLMs): a new benchmark to investigate disentangled generalisation in neural networks ( http://arxiv.org/abs/2205.10866v1 )

ライセンス: Link先を確認
Paola Merlo, Aixiu An and Maria A. Rodriguez(参考訳) 機械学習アーキテクチャの現在の成功は、計算に高価なアルゴリズムと違法な大量のデータに基づいている。 より複雑で構成的なスキルに到達するために、ネットワークをトレーニングするためのタスクとデータを開発する必要があります。 本稿では,blackbird's language matrices (blms) について述べる。これは,raven's progressive matrices の言語的変種をテストするために開発された,新しい文法データセットである。 このデータセットは44800文で構成されており、現在モデルの文法的合意規則の言語的熟達とその一般化能力を調査するために生成的に構築されている。 本稿では,データセットの論理,大規模データを自動的に構築する手法,それを学ぶためのアーキテクチャを提案する。 エラー分析とデータセットのバリエーションに関するいくつかの実験を通じて、この言語タスクとそれをインスタンス化するデータによって、一般化と抽象化を理解するための新たな挑戦的なテストベッドが提供されることを実証する。

Current successes of machine learning architectures are based on computationally expensive algorithms and prohibitively large amounts of data. We need to develop tasks and data to train networks to reach more complex and more compositional skills. In this paper, we illustrate Blackbird's language matrices (BLMs), a novel grammatical dataset developed to test a linguistic variant of Raven's progressive matrices, an intelligence test usually based on visual stimuli. The dataset consists of 44800 sentences, generatively constructed to support investigations of current models' linguistic mastery of grammatical agreement rules and their ability to generalise them. We present the logic of the dataset, the method to automatically construct data on a large scale and the architecture to learn them. Through error analysis and several experiments on variations of the dataset, we demonstrate that this language task and the data that instantiate it provide a new challenging testbed to understand generalisation and abstraction.
翻訳日:2022-05-24 17:10:43 公開日:2022-05-22
# マルチモーダルデータセットにおけるパースペクティブのケース

The Case for Perspective in Multimodal Datasets ( http://arxiv.org/abs/2205.10902v1 )

ライセンス: Link先を確認
Marcelo Viridiano, Tiago Timponi Torrent, Oliver Czulo, Arthur Lorenzi Almeida, Ely Edison da Silva Matos, Frederico Belcavello(参考訳) 本稿では,マルチモーダル通信の本質的にパースペクティブな性質を認識し,表現するマルチモーダルデータセットにアノテーションプラクティスを適用することを支持する。 そこで我々は,Multi30kとFlickr 30k EntitiesデータセットにFrameNetアノテーションを適用する一連のアノテーション実験を行った。 画像のアノテーションとフレームのキャプションの両方から得られた意味表現のコサイン類似性を評価する。 私たちの発見は (i)異なる言語で作成された同一画像のキャプション間のフレーム意味的類似性は、キャプションが他のキャプションの翻訳であるか否かに敏感である。 (ii)意味フレームに対する画像アノテーションは、キャプションの存在下で注釈されているか否かに敏感である。

This paper argues in favor of the adoption of annotation practices for multimodal datasets that recognize and represent the inherently perspectivized nature of multimodal communication. To support our claim, we present a set of annotation experiments in which FrameNet annotation is applied to the Multi30k and the Flickr 30k Entities datasets. We assess the cosine similarity between the semantic representations derived from the annotation of both pictures and captions for frames. Our findings indicate that: (i) frame semantic similarity between captions of the same picture produced in different languages is sensitive to whether the caption is a translation of another caption or not, and (ii) picture annotation for semantic frames is sensitive to whether the image is annotated in presence of a caption or not.
翻訳日:2022-05-24 17:09:10 公開日:2022-05-22
# 多言語言語モデル表現の幾何学

The Geometry of Multilingual Language Model Representations ( http://arxiv.org/abs/2205.10964v1 )

ライセンス: Link先を確認
Tyler A. Chang, Zhuowen Tu, Benjamin K. Bergen(参考訳) 我々は,言語知覚情報を各言語で符号化しながら,多言語モデルが共有多言語表現空間を維持する方法を評価する。 ケーススタディとしてXLM-Rを用いて、言語が平均中心化後の線形部分空間を占有していることを示し、言語モデリング性能と88言語における部分空間間の直接比較に基づいて評価した。 部分空間は中層全体で比較的安定な言語感受性軸に沿って異なり、これらの軸はトークン語彙などの情報を符号化する。 言語による表現のシフトは、異なる言語でトークン予測を誘導するのに十分である。 しかし,トークンの位置や音声の一部といった情報を符号化する安定言語ニュートラル軸も同定する。 言語感受性および言語ニュートラル軸に投影された表現を可視化し,言語族と音声クラスタを識別し,スパイラル,トーラス,トークン位置情報を表す曲線を可視化する。 これらの結果から,多言語言語モデルは直交言語感性および言語ニュートラル軸に沿った情報を符号化し,下流タスクや言語間移動学習のための様々な特徴を抽出できることを示した。

We assess how multilingual language models maintain a shared multilingual representation space while still encoding language-sensitive information in each language. Using XLM-R as a case study, we show that languages occupy similar linear subspaces after mean-centering, evaluated based on causal effects on language modeling performance and direct comparisons between subspaces for 88 languages. The subspace means differ along language-sensitive axes that are relatively stable throughout middle layers, and these axes encode information such as token vocabularies. Shifting representations by language means is sufficient to induce token predictions in different languages. However, we also identify stable language-neutral axes that encode information such as token positions and part-of-speech. We visualize representations projected onto language-sensitive and language-neutral axes, identifying language family and part-of-speech clusters, along with spirals, toruses, and curves representing token position information. These results demonstrate that multilingual language models encode information along orthogonal language-sensitive and language-neutral axes, allowing the models to extract a variety of features for downstream tasks and cross-lingual transfer learning.
翻訳日:2022-05-24 17:08:58 公開日:2022-05-22
# 選択的適応型ラッソ

The Selectively Adaptive Lasso ( http://arxiv.org/abs/2205.10697v1 )

ライセンス: Link先を確認
Alejandro Schuler, Mark van der Laan(参考訳) 機械学習回帰法は非現実的なパラメトリック仮定なしで関数を推定できる。 予測誤差は極めて高いが、平均処理効果のようなパラメータの半パラメトリックな効率的な推定(tmle、aipwなど)に必要な理論的収束率には不足している。 高適応ラッソ (Highly Adaptive Lasso, HAL) は、有意義に大きい関数のクラスに対して十分早く収束することが証明された唯一の回帰法である。 残念ながら、HALは計算能力に乏しい。 本稿では,HALの次元自由な非パラメトリック収束率を保持するアルゴリズムであるSelectively Adaptive Lasso(SAL)を構築するために,HALの理論を構築した。 これを達成するために,ネストドンスカークラスにおける経験的損失最小化に関する一般的な理論的結果を証明する。 結果として得られたアルゴリズムは,適応学習率による勾配木ブースティングの一形態であり,既製ソフトウェアによる実装が迅速かつ自明である。 最後に,本アルゴリズムは,多様な実世界のデータセット群上での標準勾配向上性能を保っていることを示す。 SALは、多くのビッグデータ設定において、半パラメトリック効率的な推定器を現実的に可能かつ理論的に正当化する。

Machine learning regression methods allow estimation of functions without unrealistic parametric assumptions. Although they can perform exceptionally in prediction error, most lack theoretical convergence rates necessary for semi-parametric efficient estimation (e.g. TMLE, AIPW) of parameters like average treatment effects. The Highly Adaptive Lasso (HAL) is the only regression method proven to converge quickly enough for a meaningfully large class of functions, independent of the dimensionality of the predictors. Unfortunately, HAL is not computationally scalable. In this paper we build upon the theory of HAL to construct the Selectively Adaptive Lasso (SAL), a new algorithm which retains HAL's dimension-free, nonparametric convergence rate but which also scales computationally to massive datasets. To accomplish this, we prove some general theoretical results pertaining to empirical loss minimization in nested Donsker classes. Our resulting algorithm is a form of gradient tree boosting with an adaptive learning rate, which makes it fast and trivial to implement with off-the-shelf software. Finally, we show that our algorithm retains the performance of standard gradient boosting on a diverse group of real-world datasets. SAL makes semi-parametric efficient estimators practically possible and theoretically justifiable in many big data settings.
翻訳日:2022-05-24 16:35:51 公開日:2022-05-22
# PAC-Wrap:半監督型PAC異常検出

PAC-Wrap: Semi-Supervised PAC Anomaly Detection ( http://arxiv.org/abs/2205.10798v1 )

ライセンス: Link先を確認
Shuo Li, Xiayan Ji, Edgar Dobriban, Oleg Sokolsky, Insup Lee(参考訳) 自動運転車のような安全クリティカルなアプリケーションの危険な結果を防止するには異常検出が不可欠である。 安全性臨界性を考えると、これらのアプリケーションは異常検出における様々なエラーに対する証明可能な境界の恩恵を受ける。 半教師付き環境でこの目標を達成するため,異常検出アルゴリズムに対する偽陰性および偽陽性検出率に関する確率的近似(PAC)保証を提案する。 提案手法(PAC-Wrap)は,既存の半教師付きおよび教師なし異常検出手法をほぼすべてラップし,厳密な保証を与える。 各種異常検知器とデータセットを用いた実験により,PAC-Wrapが有効であることが示唆された。

Anomaly detection is essential for preventing hazardous outcomes for safety-critical applications like autonomous driving. Given their safety-criticality, these applications benefit from provable bounds on various errors in anomaly detection. To achieve this goal in the semi-supervised setting, we propose to provide Probably Approximately Correct (PAC) guarantees on the false negative and false positive detection rates for anomaly detection algorithms. Our method (PAC-Wrap) can wrap around virtually any existing semi-supervised and unsupervised anomaly detection method, endowing it with rigorous guarantees. Our experiments with various anomaly detectors and datasets indicate that PAC-Wrap is broadly effective.
翻訳日:2022-05-24 16:35:29 公開日:2022-05-22
# 公平な分類における戦略的マニピュレーションの相違

Addressing Strategic Manipulation Disparities in Fair Classification ( http://arxiv.org/abs/2205.10842v1 )

ライセンス: Link先を確認
Vijay Keswani and L. Elisa Celis(参考訳) 現実世界の分類設定では、個人は特定の(肯定的な)決定を受ける可能性を高めるために特徴を更新して分類器の予測に応答する。 しかし、異なる集団が異なる機能分布や異なるコスト関数を持っている場合、マイノリティグループの個人は機能を更新するために高いコストを支払うことがしばしば示されている。 フェア分類は、統計的フェアネス特性を満たすために分類器を制約することにより、このような分類器の性能格差に対処することを目的としている。 しかし, 標準的公平性制約は, 制約付き分類器が戦略操作コストの差を減らすことを保証しないことを示した。 このようなバイアスを戦略的設定で対処し,戦略操作の機会を等しく提供するために,マイノリティグループにおける戦略操作コストを低減した分類器を構築する制約付き最適化フレームワークを提案する。 我々は,グループ固有の戦略的コスト格差と標準選択率公正度(統計率,真正率など)の理論的関係を考察し,枠組みを整備する。 実世界の複数のデータセットに対するこのアプローチの有効性を実証的に示す。

In real-world classification settings, individuals respond to classifier predictions by updating their features to increase their likelihood of receiving a particular (positive) decision (at a certain cost). Yet, when different demographic groups have different feature distributions or different cost functions, prior work has shown that individuals from minority groups often pay a higher cost to update their features. Fair classification aims to address such classifier performance disparities by constraining the classifiers to satisfy statistical fairness properties. However, we show that standard fairness constraints do not guarantee that the constrained classifier reduces the disparity in strategic manipulation cost. To address such biases in strategic settings and provide equal opportunities for strategic manipulation, we propose a constrained optimization framework that constructs classifiers that lower the strategic manipulation cost for the minority groups. We develop our framework by studying theoretical connections between group-specific strategic cost disparity and standard selection rate fairness metrics (e.g., statistical rate and true positive rate). Empirically, we show the efficacy of this approach over multiple real-world datasets.
翻訳日:2022-05-24 16:35:19 公開日:2022-05-22
# 局所クロス検証と事前計算による高速ガウス過程後平均予測

Fast Gaussian Process Posterior Mean Prediction via Local Cross Validation and Precomputation ( http://arxiv.org/abs/2205.10879v1 )

ライセンス: Link先を確認
Alec M. Dunton, Benjamin W. Priest, Amanda Muyskens(参考訳) ガウス過程 (GP) は無数の応用に有用なベイズ非パラメトリックモデルである。 その人気にもかかわらず、gp予測コスト(トレーニングポイント数に対する量子ストレージとキュービック複雑度)は、大きなデータにgpsを適用する上でのハードルとなっている。 我々はこの欠点に対処するため,FastMuyGPと呼ばれる高速後部平均予測アルゴリズムを提案する。 FastMuyGPs は MuyGPs のハイパーパラメータ推定アルゴリズムに基づいており、アウト・ワン・アウト・クロスバリデーション、バッチ処理、近隣のスパーシフィケーション、プリ計算を組み合わせてスケーラブルで高速なGP予測を提供する。 我々は、深層ニューラルネットワークと最先端のスケーラブルGPアルゴリズムの両方に対して、FastMuyGPの予測が精度と競合性、あるいは優れたランタイムを達成できるいくつかのベンチマークを示す。

Gaussian processes (GPs) are Bayesian non-parametric models useful in a myriad of applications. Despite their popularity, the cost of GP predictions (quadratic storage and cubic complexity with respect to the number of training points) remains a hurdle in applying GPs to large data. We present a fast posterior mean prediction algorithm called FastMuyGPs to address this shortcoming. FastMuyGPs is based upon the MuyGPs hyperparameter estimation algorithm and utilizes a combination of leave-one-out cross-validation, batching, nearest neighbors sparsification, and precomputation to provide scalable, fast GP prediction. We demonstrate several benchmarks wherein FastMuyGPs prediction attains superior accuracy and competitive or superior runtime to both deep neural networks and state-of-the-art scalable GP algorithms.
翻訳日:2022-05-24 16:35:01 公開日:2022-05-22
# WeisfeilerとLeman Go Walking: ランダムウォークカーネルを再考

Weisfeiler and Leman Go Walking: Random Walk Kernels Revisited ( http://arxiv.org/abs/2205.10914v1 )

ライセンス: Link先を確認
Nils M. Kriege(参考訳) ランダムウォーク・カーネルはグラフ学習に関する独創的な研究に導入され、後にワイスファイラー・リーマン・テストに基づくグラフ同型法に基づくカーネルに取って代わられた。 グラフカーネルの両クラスについて統一的なビューを提供する。 ウォークベースのノードリファインメント法を研究し,morganの分子標準化アルゴリズムやweisfeiler-leman testなど,広く使用されている手法と正式に関連付けた。 Wesfeiler-Leman表現性に到達し、カーネルトリックを用いて計算されるノード上の対応するウォークベースのカーネルを定義する。 このことから、定義と計算に関するわずかな変更しか持たない古典的ランダムウォークカーネルは、広く使われているWeisfeiler-Lemanサブツリーカーネルと同程度に表現できるが、非制限近傍比較をサポートすることを示す。 実際の分類タスクにおいて、ウォークベースのカーネルがWeisfeiler-Lemanカーネルの精度に達するか、あるいは超えるかを実験的に検証する。

Random walk kernels have been introduced in seminal work on graph learning and were later largely superseded by kernels based on the Weisfeiler-Leman test for graph isomorphism. We give a unified view on both classes of graph kernels. We study walk-based node refinement methods and formally relate them to several widely-used techniques, including Morgan's algorithm for molecule canonization and the Weisfeiler-Leman test. We define corresponding walk-based kernels on nodes that allow fine-grained parameterized neighborhood comparison, reach Weisfeiler-Leman expressiveness, and are computed using the kernel trick. From this we show that classical random walk kernels with only minor modifications regarding definition and computation are as expressive as the widely-used Weisfeiler-Leman subtree kernel but support non-strict neighborhood comparison. We verify experimentally that walk-based kernels reach or even surpass the accuracy of Weisfeiler-Leman kernels in real-world classification tasks.
翻訳日:2022-05-24 16:33:07 公開日:2022-05-22
# 脳グリオーマセグメンテーションのための残留チャネル注意ネットワーク

Residual Channel Attention Network for Brain Glioma Segmentation ( http://arxiv.org/abs/2205.10758v1 )

ライセンス: Link先を確認
Yiming Yao, Peisheng Qian, Ziyuan Zhao, Zeng Zeng(参考訳) グリオーマ(glioma)は、認知機能に深刻な影響を与え、患者の生活品質を低下させる悪性脳腫瘍である。 脳グリオーマの分離は腫瘍部位のクラス間あいまいさにより困難である。 近年,深層学習のアプローチは脳グリオーマの自動分割において有意な成果を上げている。 しかし、既存のアルゴリズムでは、グリオーマセグメンテーションのセマンティック属性を選択するためにチャンネルワイズ機能相互依存を利用することができない。 本研究では,残差チャネルアテンションモジュールを統合し,グリオーマセグメンテーションのための中間的特徴を校正する,新しいディープニューラルネットワークを実装した。 提案するチャネルアテンション機構は, グリオーマの潜在表現を最適化するために, チャネルアテンションを適応的に重み付けする。 本手法を確立されたデータセットbrats2017上で評価する。 実験結果は,本手法の優位性を示している。

A glioma is a malignant brain tumor that seriously affects cognitive functions and lowers patients' life quality. Segmentation of brain glioma is challenging because of interclass ambiguities in tumor regions. Recently, deep learning approaches have achieved outstanding performance in the automatic segmentation of brain glioma. However, existing algorithms fail to exploit channel-wise feature interdependence to select semantic attributes for glioma segmentation. In this study, we implement a novel deep neural network that integrates residual channel attention modules to calibrate intermediate features for glioma segmentation. The proposed channel attention mechanism adaptively weights feature channel-wise to optimize the latent representation of gliomas. We evaluate our method on the established dataset BraTS2017. Experimental results indicate the superiority of our method.
翻訳日:2022-05-24 16:29:02 公開日:2022-05-22
# 統計保証付きロバストフローベース共形推論(fci)

Robust Flow-based Conformal Inference (FCI) with Statistical Guarantee ( http://arxiv.org/abs/2205.10732v1 )

ライセンス: Link先を確認
Youhui Ye, Meimei Liu, Xin Xing(参考訳) コンフォーマル予測は、過去の経験から新しいオブジェクトに対する予測の精度の高い信頼度を決定することを目的としている。 しかし、トレーニングデータとテストデータの間の交換可能な仮定は、汚染されたテストセットを扱う際の使用を制限する。 本稿では,複素および高次元データに対する予測集合の構築と外れ値の推測を含む一連の共形推論法を開発した。 我々は,不確実性定量化のための非定型スコアの構築を可能にするために,逆流からのアイデアを活用し,入力データを既知の分布を持つランダムベクトルに転送する。 学習した変換を通して各クラスにおける入力データの分布を直接学習することができる。 したがって、テストデータが汚染されている場合、このアプローチは適用可能でより堅牢です。 本手法であるロバストフローに基づく共形推論をベンチマークデータセット上で評価する。 効率的な予測セットと正確な外れ値検出が得られ、競合するアプローチと比較してより強力であることがわかった。

Conformal prediction aims to determine precise levels of confidence in predictions for new objects using past experience. However, the commonly used exchangeable assumptions between the training data and testing data limit its usage in dealing with contaminated testing sets. In this paper, we develop a series of conformal inference methods, including building predictive sets and inferring outliers for complex and high-dimensional data. We leverage ideas from adversarial flow to transfer the input data to a random vector with known distributions, which enable us to construct a non-conformity score for uncertainty quantification. We can further learn the distribution of input data in each class directly through the learned transformation. Therefore, our approach is applicable and more robust when the test data is contaminated. We evaluate our method, robust flow-based conformal inference, on benchmark datasets. We find that it produces effective prediction sets and accurate outlier detection and is more powerful relative to competing approaches.
翻訳日:2022-05-24 16:02:27 公開日:2022-05-22
# バンディット固定信頼識別のための除去戦略について

On Elimination Strategies for Bandit Fixed-Confidence Identification ( http://arxiv.org/abs/2205.10936v1 )

ライセンス: Link先を確認
Andrea Tirinzoni, R\'emy Degenne(参考訳) 有効な正解を1つだけ残すまで順次引き起こす帯域識別の除去アルゴリズムは、時間とともに問題のサイズを減らすので、計算上便利である。 しかし、既存の除去戦略は完全適応的ではなく(サンプリング規則を頻繁に更新する)、問題次元において解の集合が指数関数的に大きい組合せ設定に拡張するのは容易ではない。 一方、一般的な識別問題に対処する既存の完全適応戦略は、問題のサイズを小さくすることなく、全ての回答の正しさを繰り返しテストするため、計算的に要求される。 その結果,(1) アルゴリズムは完全な適応性を維持し,(2) サンプルの複雑さに悩まされ,(3) 特定の誤った答えを早期に確実に排除する,という2つの世界の長所が得られた。 我々はこれらの利点を実験的に確認し、線形帯域における最良腕識別のような共通タスクにおける適応手法の計算複雑性を大幅に改善する。

Elimination algorithms for bandit identification, which prune the plausible correct answers sequentially until only one remains, are computationally convenient since they reduce the problem size over time. However, existing elimination strategies are often not fully adaptive (they update their sampling rule infrequently) and are not easy to extend to combinatorial settings, where the set of answers is exponentially large in the problem dimension. On the other hand, most existing fully-adaptive strategies to tackle general identification problems are computationally demanding since they repeatedly test the correctness of every answer, without ever reducing the problem size. We show that adaptive methods can be modified to use elimination in both their stopping and sampling rules, hence obtaining the best of these two worlds: the algorithms (1) remain fully adaptive, (2) suffer a sample complexity that is never worse of their non-elimination counterpart, and (3) provably eliminate certain wrong answers early. We confirm these benefits experimentally, where elimination improves significantly the computational complexity of adaptive methods on common tasks like best-arm identification in linear bandits.
翻訳日:2022-05-24 16:02:16 公開日:2022-05-22
# 顕微鏡画像におけるオブジェクトセグメンテーションの少数ショット学習のための自己教師型U-net

Self-supervised U-net for few-shot learning of object segmentation in microscopy images ( http://arxiv.org/abs/2205.10840v1 )

ライセンス: Link先を確認
Arnaud Deleruyelle, Cristian Versari, John Klein(参考訳) 最先端のセグメンテーション性能はディープニューラルネットワークによって達成される。 少数のトレーニング例からこれらのネットワークをトレーニングすることは難しいが、監視を提供する注釈付きイメージを作成するのは面倒だ。 近年、合成または間接的な監視を提供するニューラルパイプラインを設計するセルフスーパービジョンは、少数のショットで訓練されたモデルの一般化性能を著しく向上させることが証明されている。 本稿では,このようなニューラルネットワークのパイプラインを,顕微鏡画像分割の文脈で紹介する。 これらの画像の比較的単純な内容を活用することで、以前に合成生成された腐敗/修正領域マスクのペアでトレーニングされた審判ネットワークによって、訓練者ネットワークを指導することができる。

State-of-the-art segmentation performances are achieved by deep neural networks. Training these networks from only a few training examples is challenging while producing annotated images that provide supervision is tedious. Recently, self-supervision, i.e. designing a neural pipeline providing synthetic or indirect supervision, has proved to significantly increase generalization performances of models trained on few shots. This paper introduces one such neural pipeline in the context of microscopic image segmentation. By leveraging the rather simple content of these images a trainee network can be mentored by a referee network which has been previously trained on synthetically generated pairs of corrupted/correct region masks.
翻訳日:2022-05-24 15:57:24 公開日:2022-05-22
# フェデレート学習のためのロバスト量認識集約

Robust Quantity-Aware Aggregation for Federated Learning ( http://arxiv.org/abs/2205.10848v1 )

ライセンス: Link先を確認
Jingwei Yi, Fangzhao Wu, Huishuai Zhang, Bin Zhu, Tao Qi, Guangzhong Sun, Xing Xie(参考訳) federated learning(fl)は、複数のクライアントがローカルデータを共有せずに、協調的にモデルをトレーニングすることを可能にする。 しかし、古典的なFLは深刻なセキュリティと堅牢性の問題に直面しており、例えば、悪意のあるクライアントはモデルのアップデートを害し、同時にモデルアグリゲーションにおけるモデル更新の影響を増幅するために大量の請求を行う。 FLの既存の防御メソッドは、悪意のあるモデル更新を処理する一方で、すべての量の良性を扱うか、単にすべてのクライアントの量を無視/停止する。 前者は量増強攻撃に弱いが、後者は、異なるクライアント上のローカルデータが通常、かなり異なるサイズであるため、準最適パフォーマンスをもたらす。 本稿では,フェデレーション学習のためのロバストな量認識集約アルゴリズムであるFedRAを提案する。 具体的には、アップロードされたモデル更新と異なるクライアントのデータ量とを協調的に考慮し、残っているクライアントのモデル更新に重み付けを施すことにより、悪意のあるクライアントをフィルタリングする手法を提案する。 さらに,フェデレーション学習に参加する悪意のあるクライアントの数は,異なるラウンドで動的に変化する可能性があるため,各ラウンドにおいて不審なクライアントの数を推定する悪意のあるクライアント番号推定器を提案する。 4つの公開データセットを用いた実験により,FedRA法の有効性が実証された。

Federated learning (FL) enables multiple clients to collaboratively train models without sharing their local data, and becomes an important privacy-preserving machine learning framework. However, classical FL faces serious security and robustness problem, e.g., malicious clients can poison model updates and at the same time claim large quantities to amplify the impact of their model updates in the model aggregation. Existing defense methods for FL, while all handling malicious model updates, either treat all quantities benign or simply ignore/truncate the quantities of all clients. The former is vulnerable to quantity-enhanced attack, while the latter leads to sub-optimal performance since the local data on different clients is usually in significantly different sizes. In this paper, we propose a robust quantity-aware aggregation algorithm for federated learning, called FedRA, to perform the aggregation with awareness of local data quantities while being able to defend against quantity-enhanced attacks. More specifically, we propose a method to filter malicious clients by jointly considering the uploaded model updates and data quantities from different clients, and performing quantity-aware weighted averaging on model updates from remaining clients. Moreover, as the number of malicious clients participating in the federated learning may dynamically change in different rounds, we also propose a malicious client number estimator to predict how many suspicious clients should be filtered in each round. Experiments on four public datasets demonstrate the effectiveness of our FedRA method in defending FL against quantity-enhanced attacks.
翻訳日:2022-05-24 15:51:05 公開日:2022-05-22
# 宇宙多モード深層学習のマッピングにおけるクエーサー、銀河、星の分類

Classification of Quasars, Galaxies, and Stars in the Mapping of the Universe Multi-modal Deep Learning ( http://arxiv.org/abs/2205.10745v1 )

ライセンス: Link先を確認
Sabeesh Ethiraj, Bharath Kumar Bolla(参考訳) 本稿では,Sloan Digital Sky Survey (SDSS-4)の第4版であるData Release 16データセットを用いて,SDSSデータセットを,機械学習とディープラーニングアーキテクチャを用いて銀河,星,クエーサーに分類した。 画像とメタデータの両方を表形式で効率的に活用し,新しいマルチモーダルアーキテクチャを構築し,最先端の結果を得る。 さらに,5つの異なるアーキテクチャ (resnet-50, densenet-121 vgg-16, xception, efficientnet) におけるimagenet重みを用いたトランスファー学習実験により,すべてのレイヤの凍結と最終トレーサブル層の追加がトランスファー学習の最適解にはなり得ないことが判明した。 トレーニング可能なレイヤーの数が増えるほど、予測のトレーニング時間と精度が高くなると仮定されている。 トレーニング済みの下位層がすべてのデータセットで非常によく似た低レベルの特徴抽出にのみ役立つため、その後のトレーニングレイヤのベース層への増加は正確さを増さない、という仮説もある。 したがって、トレーニング可能なレイヤの理想的なレベルは、パラメータの数に関して各モデルに対して識別する必要があります。 表のデータについては,従来の機械学習アルゴリズム(ロジスティック回帰,ランダムフォレスト,決定木,アダブースト,ライトGBMなど)をニューラルネットワークと比較した。 私たちの研究は、転送学習とマルチモーダルディープラーニングアーキテクチャに新しい光を当てました。 マルチモーダルアーキテクチャは、画像データや表データのみを使用したモデルよりも高いメトリクス(精度、精度、リコール、F1スコア)を生んだ。 さらに、マルチモーダルアーキテクチャは、より少ないトレーニング時代の最高のメトリクスを達成し、すべてのクラスのメトリクスを改善しました。

In this paper, the fourth version the Sloan Digital Sky Survey (SDSS-4), Data Release 16 dataset was used to classify the SDSS dataset into galaxies, stars, and quasars using machine learning and deep learning architectures. We efficiently utilize both image and metadata in tabular format to build a novel multi-modal architecture and achieve state-of-the-art results. In addition, our experiments on transfer learning using Imagenet weights on five different architectures (Resnet-50, DenseNet-121 VGG-16, Xception, and EfficientNet) reveal that freezing all layers and adding a final trainable layer may not be an optimal solution for transfer learning. It is hypothesized that higher the number of trainable layers, higher will be the training time and accuracy of predictions. It is also hypothesized that any subsequent increase in the number of training layers towards the base layers will not increase in accuracy as the pre trained lower layers only help in low level feature extraction which would be quite similar in all the datasets. Hence the ideal level of trainable layers needs to be identified for each model in respect to the number of parameters. For the tabular data, we compared classical machine learning algorithms (Logistic Regression, Random Forest, Decision Trees, Adaboost, LightGBM etc.,) with artificial neural networks. Our works shed new light on transfer learning and multi-modal deep learning architectures. The multi-modal architecture not only resulted in higher metrics (accuracy, precision, recall, F1 score) than models using only image data or tabular data. Furthermore, multi-modal architecture achieved the best metrics in lesser training epochs and improved the metrics on all classes.
翻訳日:2022-05-24 15:15:54 公開日:2022-05-22
# 画像記述子を持つ言語モデルとビデオ言語学習者

Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners ( http://arxiv.org/abs/2205.10747v1 )

ライセンス: Link先を確認
Zhenhailong Wang, Manling Li, Ruochen Xu, Luowei Zhou, Jie Lei, Xudong Lin, Shuohang Wang, Ziyi Yang, Chenguang Zhu, Derek Hoiem, Shih-Fu Chang, Mohit Bansal, Heng Ji(参考訳) この研究の目的は、ドメイン固有のキャプション、質問応答、将来のイベント予測など、いくつかの例から様々なビデオ・テキストタスクに一般化できる柔軟なビデオ言語モデルを構築することである。 既存の数発のビデオ言語学習者はエンコーダのみに集中しており、生成タスクを処理するビデオからテキストへのデコーダが存在しない。 ビデオキャプションは大規模なビデオ言語データセットで事前訓練されているが、微調整に大きく依存しており、数ショットで見えないタスクのためのテキストを生成する能力がない。 そこで本研究では,ビデオデータセットの事前学習や微調整を必要とせず,映像と言語モデルによるビデオ言語学習システムvidilを提案する。 画像言語モデルを用いて,映像コンテンツをフレームキャプション,オブジェクト,属性,イベントフレーズに変換し,時間構造テンプレートに合成する。 次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルを指示し、合成されたコンテンツからターゲット出力を生成する。 プロンプトの柔軟性により、モデルが任意の形式のテキスト入力、例えば自動音声認識(asr)の書き起こしをキャプチャできる。 実験では,ビデオキャプション,ビデオ質問応答,ビデオキャプション検索,ビデオ未来のイベント予測など,様々なビデオ言語タスクにおける映像理解における言語モデルの有用性を実証した。 特にビデオの将来的なイベント予測では,私たちのマイショットモデルは,大規模ビデオデータセットでトレーニングされた最先端の教師付きモデルを大幅に上回っています。

The goal of this work is to build flexible video-language models that can generalize to various video-to-text tasks from few examples, such as domain-specific captioning, question answering, and future event prediction. Existing few-shot video-language learners focus exclusively on the encoder, resulting in the absence of a video-to-text decoder to handle generative tasks. Video captioners have been pretrained on large-scale video-language datasets, but they rely heavily on finetuning and lack the ability to generate text for unseen tasks in a few-shot setting. We propose VidIL, a few-shot Video-language Learner via Image and Language models, which demonstrates strong performance on few-shot video-to-text tasks without the necessity of pretraining or finetuning on any video datasets. We use the image-language models to translate the video content into frame captions, object, attribute, and event phrases, and compose them into a temporal structure template. We then instruct a language model, with a prompt containing a few in-context examples, to generate a target output from the composed content. The flexibility of prompting allows the model to capture any form of text input, such as automatic speech recognition (ASR) transcripts. Our experiments demonstrate the power of language models in understanding videos on a wide variety of video-language tasks, including video captioning, video question answering, video caption retrieval, and video future event prediction. Especially, on video future event prediction, our few-shot model significantly outperforms state-of-the-art supervised models trained on large-scale video datasets.
翻訳日:2022-05-24 15:15:21 公開日:2022-05-22
# Grad-CAM++は正の勾配を持つGrad-CAMと等価である

Grad-CAM++ is Equivalent to Grad-CAM With Positive Gradients ( http://arxiv.org/abs/2205.10838v1 )

ライセンス: Link先を確認
Miguel Lerma and Mirtha Lucas(参考訳) Grad-CAMアルゴリズムは、画像のどの部分が分類器ディープネットワークの出力に最も寄与しているかを特定する方法を提供する。 このアルゴリズムは画像内の物体の局所化に広く用いられているが、一部の研究者はその限界を指摘し、様々な代替案を提案した。 そのひとつがGrad-CAM++で、作者によると、ネットワーク予測のためのより良い視覚的説明を提供し、単一のイメージで複数のオブジェクトインスタンスが発生したとしても、オブジェクトの配置をうまく行うことができる。 ここでは、Grad-CAM++は、勾配を正の勾配に置き換える、非常に単純なGrad-CAMのバリエーションと実質的に等価であることを示す。

The Grad-CAM algorithm provides a way to identify what parts of an image contribute most to the output of a classifier deep network. The algorithm is simple and widely used for localization of objects in an image, although some researchers have point out its limitations, and proposed various alternatives. One of them is Grad-CAM++, that according to its authors can provide better visual explanations for network predictions, and does a better job at locating objects even for occurrences of multiple object instances in a single image. Here we show that Grad-CAM++ is practically equivalent to a very simple variation of Grad-CAM in which gradients are replaced with positive gradients.
翻訳日:2022-05-24 15:13:53 公開日:2022-05-22
# Riemann-Stieltjes統合配位による深層ネットワークからの視覚的説明

Visual Explanations from Deep Networks via Riemann-Stieltjes Integrated Gradient-based Localization ( http://arxiv.org/abs/2205.10900v1 )

ライセンス: Link先を確認
Mirtha Lucas, Miguel Lerma, Jacob Furst, Daniela Raicu(参考訳) 画像の分類と認識に関わるタスクでは、ニューラルネットワークがますます良くなっている。 同時に,ネットワーク出力を説明する手法が提案されている。 このような手法のひとつにGradient-based Class Activation Map (Grad-CAM)があり、畳み込みニューラルネットワーク(CNN)の様々なレベルで入力画像の特徴を特定することができるが、消滅する勾配問題に敏感である。 IG(Integrated Gradients)など,この問題の影響を受けないテクニックもあるが,その使用はネットワークの入力層に限られる。 本稿では,CNNの予測を視覚的に説明するための新しい手法を提案する。 grad-camと同様に,本手法はネットワークの任意の層に適用可能であり,集積勾配と同様,勾配の消失の問題に影響を受けない。 効率のために、勾配積分はリーマン=スティルチェス和近似を用いて層レベルで数値的に行われる。 grad-camと比較して,本アルゴリズムが生成するヒートマップは興味のある領域に焦点を合わせ,その数値計算はより安定である。 私たちのコードはhttps://github.com/mlerma54/RSIGradCAMで利用可能です。

Neural networks are becoming increasingly better at tasks that involve classifying and recognizing images. At the same time techniques intended to explain the network output have been proposed. One such technique is the Gradient-based Class Activation Map (Grad-CAM), which is able to locate features of an input image at various levels of a convolutional neural network (CNN), but is sensitive to the vanishing gradients problem. There are techniques such as Integrated Gradients (IG), that are not affected by that problem, but its use is limited to the input layer of a network. Here we introduce a new technique to produce visual explanations for the predictions of a CNN. Like Grad-CAM, our method can be applied to any layer of the network, and like Integrated Gradients it is not affected by the problem of vanishing gradients. For efficiency, gradient integration is performed numerically at the layer level using a Riemann-Stieltjes sum approximation. Compared to Grad-CAM, heatmaps produced by our algorithm are better focused in the areas of interest, and their numerical computation is more stable. Our code is available at https://github.com/mlerma54/RSIGradCAM
翻訳日:2022-05-24 15:13:40 公開日:2022-05-22
# 風車ブレードの視覚損傷自動検出システム

An Automated System for Detecting Visual Damages of Wind Turbine Blades ( http://arxiv.org/abs/2205.10954v1 )

ライセンス: Link先を確認
Linh Nguyen, Akshay Iyer, Shweta Khushu(参考訳) 風力エネルギーが化石燃料と市場レベルで競合する能力は、風の高い運用コストを下げることに依存する。 風力タービンブレードの損傷がこれらの運用上の問題の主要な原因であるため、ブレードの損傷を特定することが重要である。 しかし、刃の損傷を視覚的に識別する最近の研究はまだ実験段階であり、IoUのような従来の機械学習メトリクスの最適化に重点を置いている。 本稿では、"最適"モデル性能を達成する前に、モデルをプロダクションにプッシュすることで、このユースケースに真の価値を生み出すことができると論じる。 本稿では, 生産における損傷提案モデルの性能と, 商用製品の一部として人間と協調して作業する方法, 風力エネルギーの運用コストの低減にどのように貢献するかについて論じる。

Wind energy's ability to compete with fossil fuels on a market level depends on lowering wind's high operational costs. Since damages on wind turbine blades are the leading cause for these operational problems, identifying blade damages is critical. However, recent works in visual identification of blade damages are still experimental and focus on optimizing the traditional machine learning metrics such as IoU. In this paper, we argue that pushing models to production long before achieving the "optimal" model performance can still generate real value for this use case. We discuss the performance of our damage's suggestion model in production and how this system works in coordination with humans as part of a commercialized product and how it can contribute towards lowering wind energy's operational costs.
翻訳日:2022-05-24 15:13:19 公開日:2022-05-22
# 1本の石を持つ全鳥:1本の前方通過による効率的な推論のためのマルチタスクテキスト分類

All Birds with One Stone: Multi-task Text Classification for Efficient Inference with One Forward Pass ( http://arxiv.org/abs/2205.10744v1 )

ライセンス: Link先を確認
Jiaxin Huang, Tianqi Liu, Jialu Liu, Adam D. Lelkes, Cong Yu, Jiawei Han(参考訳) マルチタスク学習(MTL)モデルは、タスク間で学習知識を伝達するための堅牢性、有効性、効率性を示している。 Webコンテンツ分類のような実際の産業アプリケーションでは、Web記事のような同じ入力テキストから複数の分類タスクが予測される。 しかし、サービス時には、プロンプトやアダプタベースのアプローチのような既存のマルチタスクトランスフォーマーモデルは、O(N)計算コストでNタスクに対してNフォワードパスを実行する必要がある。 そこで本研究では,1回のフォワードパスでo(1)に近い計算コストで,より強力な性能を実現するスケーラブルな手法を提案する。 実際のアプリケーション利用を説明するために、ニューストピックとスタイル分類に関するマルチタスクデータセットをリリースする。 実験の結果,提案手法はGLUEベンチマークとニュースデータセットの両方において,高いベースラインを達成できた。 私たちのコードとデータセットはhttps://bit.ly/mtop-codeで公開されています。

Multi-Task Learning (MTL) models have shown their robustness, effectiveness, and efficiency for transferring learned knowledge across tasks. In real industrial applications such as web content classification, multiple classification tasks are predicted from the same input text such as a web article. However, at the serving time, the existing multitask transformer models such as prompt or adaptor based approaches need to conduct N forward passes for N tasks with O(N) computation cost. To tackle this problem, we propose a scalable method that can achieve stronger performance with close to O(1) computation cost via only one forward pass. To illustrate real application usage, we release a multitask dataset on news topic and style classification. Our experiments show that our proposed method outperforms strong baselines on both the GLUE benchmark and our news dataset. Our code and dataset are publicly available at https://bit.ly/mtop-code.
翻訳日:2022-05-24 15:09:59 公開日:2022-05-22
# 深層学習モデルとニュース見出しは、Forexデータにおける従来の予測手法より優れているか?

Do Deep Learning Models and News Headlines Outperform Conventional Prediction Techniques on Forex Data? ( http://arxiv.org/abs/2205.10743v1 )

ライセンス: Link先を確認
Sucharita Atha, Bharath Kumar Bolla(参考訳) 為替市場(英: Foreign Exchange、略称:FOREX)は、通貨の為替市場である。 Forexの市場は巨大で、1日24時間稼働している。 国固有の要因とともに、forex取引はクロスカントリー関係や様々な世界的なイベントの影響を受けている。 新型コロナウイルス(COVID-19)や地方選挙といった最近のパンデミックのシナリオも、市場価格に大きな影響を及ぼす可能性がある。 本研究では,様々な予測をニュース項目などの外部要素と比較した。 さらに,古典的機械学習手法とディープラーニングアルゴリズムを比較した。 また、NLPベースの単語埋め込みを用いてニュース見出しから感情機能を追加し、性能を比較した。 その結果,線形,SGD,Baggedなどの単純な回帰モデルは,次の2時間,翌日,7日間の単段階予測においてLSTMやRNNのようなディープラーニングモデルよりも優れていた。 驚いたことに、ニュース記事はドメインベースおよび関連情報が付加価値のみを示す予測を改善できなかった。 テキストベクター化技術の中で、Word2VecとSentenceBERTは性能が良くなっている。

Foreign Exchange (FOREX) is a decentralised global market for exchanging currencies. The Forex market is enormous, and it operates 24 hours a day. Along with country-specific factors, Forex trading is influenced by cross-country ties and a variety of global events. Recent pandemic scenarios such as COVID19 and local elections can also have a significant impact on market pricing. We tested and compared various predictions with external elements such as news items in this work. Additionally, we compared classical machine learning methods to deep learning algorithms. We also added sentiment features from news headlines using NLP-based word embeddings and compared the performance. Our results indicate that simple regression model like linear, SGD, and Bagged performed better than deep learning models such as LSTM and RNN for single-step forecasting like the next two hours, the next day, and seven days. Surprisingly, news articles failed to improve the predictions indicating domain-based and relevant information only adds value. Among the text vectorization techniques, Word2Vec and SentenceBERT perform better.
翻訳日:2022-05-24 15:01:43 公開日:2022-05-22
# 共分散行列適応マップアニーリング

Covariance Matrix Adaptation MAP-Annealing ( http://arxiv.org/abs/2205.10752v1 )

ライセンス: Link先を確認
Matthew C. Fontaine, Stefanos Nikolaidis(参考訳) 単目的最適化アルゴリズムは、目的に対して単一の高品質な解を求める。 対照的に、Covariance Matrix Adaptation MAP-Elites (CMA-ME) のような品質多様性(QD)最適化アルゴリズムは、目標に対して高品質で、特定の測度関数に関して多様なソリューションの集合を探索する。 本稿では,CMA-MAE (Covariance Matrix Adaptation MAP-Annealing) という,単一目的最適化とQD最適化のギャップを埋めるアルゴリズムを提案する。 我々は,CMA-MAEが,分散行列適応進化戦略 (CMA-ES) とCMA-MEとをスカラー学習率で徐々に熱処理することにより,円滑に混合することを証明する。 CMA-MAEは、いくつかのベンチマーク領域における最先端QDアルゴリズムよりも優れた性能を示し、その性能はアーカイブの解像度に実験的に不変であり、割引関数学習率に頑健であることを示す。

Single-objective optimization algorithms search for the single highest-quality solution with respect to an objective. In contrast, quality diversity (QD) optimization algorithms, such as Covariance Matrix Adaptation MAP-Elites (CMA-ME), search for a collection of solutions that are both high-quality with respect to an objective and diverse with respect to specified measure functions. We propose a new quality diversity algorithm, Covariance Matrix Adaptation MAP-Annealing (CMA-MAE), which bridges the gap between single-objective optimization and QD optimization. We prove that CMA-MAE smoothly blends between the Covariance Matrix Adaptation Evolution Strategy (CMA-ES) single-objective optimizer and CMA-ME by gradually annealing a discount function with a scalar learning rate. We show that CMA-MAE has better performance than the current state-of-the-art QD algorithms on several benchmark domains and that its performance is empirically invariant to the archive resolution and robust to the discount function learning rate.
翻訳日:2022-05-24 15:01:26 公開日:2022-05-22
# スケーラブルな生涯強化学習のためのロバストなタスクモデルのdirichletプロセス混合

A Dirichlet Process Mixture of Robust Task Models for Scalable Lifelong Reinforcement Learning ( http://arxiv.org/abs/2205.10787v1 )

ライセンス: Link先を確認
Zhi Wang, Chunlin Chen, Daoyi Dong(参考訳) 強化学習(RL)アルゴリズムは、様々な課題において最先端のパフォーマンスを達成する一方で、生涯にわたるストリーミング情報に直面すると、破滅的な忘れや干渉に容易に遭遇する。 本稿では,過去の記憶の混乱を防止しつつ,ネットワーク容量を動的に拡張して新たな知識に適応させるスケーラブルな長寿命rl手法を提案する。 我々はdirichletプロセス混合物を用いて非定常タスク分散をモデル化し、タスク間割り当ての確率を推定し、タスクモデルを潜在空間にクラスタ化する。 新しい混合成分を必要に応じてインスタンス化する中国レストランプロセス(crp)として、混合物の事前分布を定式化する。 混合の更新と拡張は、明示的なタスク境界やヒューリスティックスなしでモデルの複雑さを動的に適応する期待最大化(EM)手順を備えたベイズ非パラメトリックフレームワークによって管理される。 さらに、ドメインランダム化手法を用いて、各タスクモデルの初期化のためのロバストな事前パラメータを混合でトレーニングすることにより、結果のモデルをより一般化し、目に見えないタスクに適応させることができる。 ロボットナビゲーションと移動領域に関する広範な実験により,本手法は拡張寿命の長いRLの実現に成功し,既存の手法よりも優れていることを示す。

While reinforcement learning (RL) algorithms are achieving state-of-the-art performance in various challenging tasks, they can easily encounter catastrophic forgetting or interference when faced with lifelong streaming information. In the paper, we propose a scalable lifelong RL method that dynamically expands the network capacity to accommodate new knowledge while preventing past memories from being perturbed. We use a Dirichlet process mixture to model the non-stationary task distribution, which captures task relatedness by estimating the likelihood of task-to-cluster assignments and clusters the task models in a latent space. We formulate the prior distribution of the mixture as a Chinese restaurant process (CRP) that instantiates new mixture components as needed. The update and expansion of the mixture are governed by the Bayesian non-parametric framework with an expectation maximization (EM) procedure, which dynamically adapts the model complexity without explicit task boundaries or heuristics. Moreover, we use the domain randomization technique to train robust prior parameters for the initialization of each task model in the mixture, thus the resulting model can better generalize and adapt to unseen tasks. With extensive experiments conducted on robot navigation and locomotion domains, we show that our method successfully facilitates scalable lifelong RL and outperforms relevant existing methods.
翻訳日:2022-05-24 15:01:06 公開日:2022-05-22
# 知識統合によるメモリ効率強化学習

Memory-efficient Reinforcement Learning with Knowledge Consolidation ( http://arxiv.org/abs/2205.10868v1 )

ライセンス: Link先を確認
Qingfeng Lan, Yangchen Pan, Jun Luo, A. Rupam Mahmood(参考訳) ニューラルネットワークは、一般的な関数近似器として有望だが、破滅的な忘れによって、非独立かつ同一の分散データをトレーニングすることが困難である。 深層強化学習の標準コンポーネントであるexperience replayは、大きなバッファに経験を格納し、後でトレーニングするために使用することで、忘れ物を減らし、サンプル効率を改善するためによく使用される。 しかし、大きなリプレイバッファは、特にメモリ容量に制限のあるオンボードデバイスやエッジデバイスでは、メモリ負荷が重い。 本稿では,この問題を緩和するために,深層Qネットワークアルゴリズムに基づくメモリ効率向上学習アルゴリズムを提案する。 提案アルゴリズムは,対象Qネットワークから現在のQネットワークへの知識の統合により,高いサンプル効率を低下させる。 ベースライン手法と比較して,本アルゴリズムは機能ベースと画像ベースのタスクの両方において同等あるいは優れた性能を実現し,大規模なリプレイバッファの負担を軽減した。

Artificial neural networks are promising as general function approximators but challenging to train on non-independent and identically distributed data due to catastrophic forgetting. Experience replay, a standard component in deep reinforcement learning, is often used to reduce forgetting and improve sample efficiency by storing experiences in a large buffer and using them for training later. However, a large replay buffer results in a heavy memory burden, especially for onboard and edge devices with limited memory capacities. We propose memory-efficient reinforcement learning algorithms based on the deep Q-network algorithm to alleviate this problem. Our algorithms reduce forgetting and maintain high sample efficiency by consolidating knowledge from the target Q-network to the current Q-network. Compared to baseline methods, our algorithms achieve comparable or better performance on both feature-based and image-based tasks while easing the burden of large experience replay buffers.
翻訳日:2022-05-24 15:00:43 公開日:2022-05-22
# 視覚的セマンティックAIにおける低感度の証拠

Evidence for Hypodescent in Visual Semantic AI ( http://arxiv.org/abs/2205.10764v1 )

ライセンス: Link先を確認
Robert Wolfe, Mahzarin R. Banaji, Aylin Caliskan(参考訳) 比較言語イメージ事前訓練(Contrastive Language Image Pretraining)モデルであるCLIP(Contrastive Language Image Pretraining)について,少数民族・少数民族・少数民族・少数民族・少数民族・少数民族・少数民族・少数民族・少数民族に比例した人種的・民族的ラベルが付与される傾向が示唆された。 仮説を実証する心理学的な研究に基礎を置いている顔のモルヒネ実験では、1000点のモルヒネ画像の中間点において、CLIPは69.7%のブラックホワイトの女性像をホワイトテキストラベルの上にブラックテキストラベルで関連付けており、同様にラティーナ(75.8%)とアジア(89.1%)のテキストラベルをラティーナ・ホワイトの女性像とアジアホワイトの女性像の中間点で好んでいる。 さらに、モデルにおけるコサインの類似性の評価は、白と「人物」との関連が、ピアソンのローは21,000イメージのモーフィックシリーズよりも0.82まで高いことを示し、白人はCLIPの人物のデフォルト表現に対応していることを示している。 最後に,画像のステレオタイプ・コングロレントな快適性関連は,CLIPのブラックテキストラベルと相関し,ピアソンのrho = 0.48,ブラックホワイトのrho = 0.41,ブラックホワイトの多人種女性画像と相関することを示した。 CLIPは、アメリカのWebサイト(Wikipedia)から収集されたデータを用いて、英語のテキストに基づいて訓練され、我々の研究結果は、CLIPがアメリカの人種階層の価値観を埋め込んで、人間の心に存在する暗黙的かつ明示的な信念を反映していることを示している。 我々はこれらの発見を、思春期の歴史と心理学の中で文脈化している。 全体としては、自然言語を教師するAIは、チェックしなければ人種的階層を反映したバイアスを学習するだろう。

We examine the state-of-the-art multimodal "visual semantic" model CLIP ("Contrastive Language Image Pretraining") for the rule of hypodescent, or one-drop rule, whereby multiracial people are more likely to be assigned a racial or ethnic label corresponding to a minority or disadvantaged racial or ethnic group than to the equivalent majority or advantaged group. A face morphing experiment grounded in psychological research demonstrating hypodescent indicates that, at the midway point of 1,000 series of morphed images, CLIP associates 69.7% of Black-White female images with a Black text label over a White text label, and similarly prefers Latina (75.8%) and Asian (89.1%) text labels at the midway point for Latina-White female and Asian-White female morphs, reflecting hypodescent. Additionally, assessment of the underlying cosine similarities in the model reveals that association with White is correlated with association with "person," with Pearson's rho as high as 0.82 over a 21,000-image morph series, indicating that a White person corresponds to the default representation of a person in CLIP. Finally, we show that the stereotype-congruent pleasantness association of an image correlates with association with the Black text label in CLIP, with Pearson's rho = 0.48 for 21,000 Black-White multiracial male images, and rho = 0.41 for Black-White multiracial female images. CLIP is trained on English-language text gathered using data collected from an American website (Wikipedia), and our findings demonstrate that CLIP embeds the values of American racial hierarchy, reflecting the implicit and explicit beliefs that are present in human minds. We contextualize these findings within the history and psychology of hypodescent. Overall, the data suggests that AI supervised using natural language will, unless checked, learn biases that reflect racial hierarchies.
翻訳日:2022-05-24 14:17:07 公開日:2022-05-22
# TWEET-FID:複数の食中毒検出タスクのための注釈付きデータセット

TWEET-FID: An Annotated Dataset for Multiple Foodborne Illness Detection Tasks ( http://arxiv.org/abs/2205.10726v1 )

ライセンス: Link先を確認
Ruofan Hu, Dongyu Zhang, Dandan Tao, Thomas Hartvigsen, Hao Feng, Elke Rundensteiner(参考訳) 食中毒は深刻なが予防可能な公衆衛生上の問題であり、関連するアウトブレイクの発見が遅れ、生産性の低下、高価なリコール、公衆安全の危険、さらには生命の喪失に至る。 ソーシャルメディアは、報告されていない食中毒の特定に有望な情報源であるが、効果的なアウトブレイク検出モデルを開発するためのラベル付きデータセットが多数存在する。 そこで本研究では,食品病発生検出のための機械学習モデルの開発を加速するため,複数の食品病発生検出タスクのための最初のアノテートデータセットであるTWEET-FID(TWEET-Foodborne Illness Detection)を提案する。 twitterから収集されたtweet-fidには、tweetクラス、エンティティタイプ、スロットタイプという3つのアノテーションがあり、専門家やクラウドソースワーカーが作成したラベルがある。 テキスト関連分類(TRC)、エンティティ参照検出(EMD)、スロットフィリング(SF)の3つの側面を利用するドメインタスクを紹介した。 我々は、これらのタスクのモデル開発をサポートするために、データセットの設計、作成、ラベリングのためのエンドツーエンドの方法論について述べる。 TWEET-FIDデータセット上で、最先端のシングルタスクとマルチタスクのディープラーニング手法を活用することで、これらのタスクの包括的な結果が提供される。 このデータセットは、食中毒の検出における将来の研究の機会を開く。

Foodborne illness is a serious but preventable public health problem -- with delays in detecting the associated outbreaks resulting in productivity loss, expensive recalls, public safety hazards, and even loss of life. While social media is a promising source for identifying unreported foodborne illnesses, there is a dearth of labeled datasets for developing effective outbreak detection models. To accelerate the development of machine learning-based models for foodborne outbreak detection, we thus present TWEET-FID (TWEET-Foodborne Illness Detection), the first publicly available annotated dataset for multiple foodborne illness incident detection tasks. TWEET-FID collected from Twitter is annotated with three facets: tweet class, entity type, and slot type, with labels produced by experts as well as by crowdsource workers. We introduce several domain tasks leveraging these three facets: text relevance classification (TRC), entity mention detection (EMD), and slot filling (SF). We describe the end-to-end methodology for dataset design, creation, and labeling for supporting model development for these tasks. A comprehensive set of results for these tasks leveraging state-of-the-art single- and multi-task deep learning methods on the TWEET-FID dataset are provided. This dataset opens opportunities for future research in foodborne outbreak detection.
翻訳日:2022-05-24 14:14:39 公開日:2022-05-22
# RVAE-LAMOL:生涯学習を支援する残差自動エンコーダ

RVAE-LAMOL: Residual Variational Autoencoder to Enhance Lifelong Language Learning ( http://arxiv.org/abs/2205.10857v1 )

ライセンス: Link先を確認
Han Wang, Ruiliu Fu, Xuejun Zhang, Jun Zhou(参考訳) Lifelong Language Learning (LLL)は、ニューラルネットワークをトレーニングして、従来のタスクからの知識を保持しながら、NLPタスクのストリームを学習することを目的としている。 しかし、データ自由制約に従う以前の作業は、モデルが以前のタスクから学んだことを忘れるという壊滅的な問題に苦しむ。 破滅的な忘れを和らげるために,最近のLLLモデルであるLAMOLを限定的な統一意味空間にマッピングすることにより,残差自動エンコーダ(RVAE)を提案する。 この空間では、前のタスクは擬似サンプルによって自分自身の分布に容易に修正できる。 さらに,モデルに識別性を持たせるための識別タスクを提案し,どのタスクに属するサンプルを識別する。 RVAE-LAMOLをより良く訓練するために,新しいトレーニングスキームであるAlternate Lag Trainingを提案する。 実験では,DecaNLPの3つのデータセットの置換に対してRVAE-LAMOLを試験した。 実験の結果、RVAE-LAMOLはすべての置換においてna\"ive LAMOLよりも優れ、より意味のある擬似サンプルを生成することが示された。

Lifelong Language Learning (LLL) aims to train a neural network to learn a stream of NLP tasks while retaining knowledge from previous tasks. However, previous works which followed data-free constraint still suffer from catastrophic forgetting issue, where the model forgets what it just learned from previous tasks. In order to alleviate catastrophic forgetting, we propose the residual variational autoencoder (RVAE) to enhance LAMOL, a recent LLL model, by mapping different tasks into a limited unified semantic space. In this space, previous tasks are easy to be correct to their own distribution by pseudo samples. Furthermore, we propose an identity task to make the model is discriminative to recognize the sample belonging to which task. For training RVAE-LAMOL better, we propose a novel training scheme Alternate Lag Training. In the experiments, we test RVAE-LAMOL on permutations of three datasets from DecaNLP. The experimental results demonstrate that RVAE-LAMOL outperforms na\"ive LAMOL on all permutations and generates more meaningful pseudo-samples.
翻訳日:2022-05-24 14:14:16 公開日:2022-05-22
# パターンベーステキスト分類器の解説的説明

Argumentative Explanations for Pattern-Based Text Classifiers ( http://arxiv.org/abs/2205.10932v1 )

ライセンス: Link先を確認
Piyawat Lertvittayakumjorn, Francesca Toni(参考訳) Explainable AIの最近の研究は、主にブラックボックスモデルの透明性の問題に対処し、どんな種類のモデルに対しても説明を作成する(モデルに依存しない)。 本稿では,バイナリテキスト分類のためのパターンベースロジスティックレグレッション(plr)という,特定の解釈可能なモデルの説明に注目して,このギャップを埋める。 なぜなら、解釈可能ではあるが、PLRは説明に関して難しいからだ。 特に,本モデルから説明を抽出する標準的な手法では特徴間の関係を考慮せず,人間にはほとんど説明できないことがわかった。 そこで本研究では,PLRで計算された結果について,その特徴間の一致や相違点を抽出した説明文を生成するために,計算論法(形式)を用いた新しい説明法であるAXPLRを提案する。 Specifically, we use computational argumentation as follows: we see features (patterns) in PLR as arguments in a form of quantified bipolar argumentation frameworks (QBAFs) and extract attacks and supports between arguments based on specificity of the arguments; we understand logistic regression as a gradual semantics for these QBAFs, used to determine the arguments' dialectic strength; and we study standard properties of gradual semantics for QBAFs in the context of our argumentative re-interpretation of PLR, sanctioning its suitability for explanatory purposes. 次に、構築したqbafから直感的な説明(plrで計算された出力)を抽出する方法を示す。 最後に,AXPLR法の利点を実証するために,人間とAIのコラボレーションの文脈における経験的評価と2つの実験を行った。

Recent works in Explainable AI mostly address the transparency issue of black-box models or create explanations for any kind of models (i.e., they are model-agnostic), while leaving explanations of interpretable models largely underexplored. In this paper, we fill this gap by focusing on explanations for a specific interpretable model, namely pattern-based logistic regression (PLR) for binary text classification. We do so because, albeit interpretable, PLR is challenging when it comes to explanations. In particular, we found that a standard way to extract explanations from this model does not consider relations among the features, making the explanations hardly plausible to humans. Hence, we propose AXPLR, a novel explanation method using (forms of) computational argumentation to generate explanations (for outputs computed by PLR) which unearth model agreements and disagreements among the features. Specifically, we use computational argumentation as follows: we see features (patterns) in PLR as arguments in a form of quantified bipolar argumentation frameworks (QBAFs) and extract attacks and supports between arguments based on specificity of the arguments; we understand logistic regression as a gradual semantics for these QBAFs, used to determine the arguments' dialectic strength; and we study standard properties of gradual semantics for QBAFs in the context of our argumentative re-interpretation of PLR, sanctioning its suitability for explanatory purposes. We then show how to extract intuitive explanations (for outputs computed by PLR) from the constructed QBAFs. Finally, we conduct an empirical evaluation and two experiments in the context of human-AI collaboration to demonstrate the advantages of our resulting AXPLR method.
翻訳日:2022-05-24 14:13:55 公開日:2022-05-22
# モデルは正確か?

Should Models Be Accurate? ( http://arxiv.org/abs/2205.10736v1 )

ライセンス: Link先を確認
Esra'a Saleh, John D. Martin, Anna Koop, Arash Pourzarabi, Michael Bowling(参考訳) モデルベース強化学習(MBRL)は、モデル生成経験を計画し、環境からの経験を学習することで、データ効率を約束する。 しかし、複雑な環境や変化する環境では、MBRLのモデルは必然的に不完全であり、学習に対する有害な影響を緩和することは困難である。 本研究では,これらのモデルの目的は,環境力学の正確なシミュレーションであるべきかどうかを問う。 我々は,dyna型計画の予測に焦点をあてた。 まず、我々は3つのモチベーションポイントを強調し、サポートする: 完全に正確な環境力学のモデルが現実的に達成可能ではなく、必要ではない。 第2に,環境のモデル化における精度ではなく,学習者の有用性に着目したモデル学習のためのメタ学習アルゴリズムを提案する。 実験の結果, 単純な非定常環境では, 非定常性に関するドメイン固有知識で構築された精度の高いモデルよりも高速に学習できることがわかった。

Model-based Reinforcement Learning (MBRL) holds promise for data-efficiency by planning with model-generated experience in addition to learning with experience from the environment. However, in complex or changing environments, models in MBRL will inevitably be imperfect, and their detrimental effects on learning can be difficult to mitigate. In this work, we question whether the objective of these models should be the accurate simulation of environment dynamics at all. We focus our investigations on Dyna-style planning in a prediction setting. First, we highlight and support three motivating points: a perfectly accurate model of environment dynamics is not practically achievable, is not necessary, and is not always the most useful anyways. Second, we introduce a meta-learning algorithm for training models with a focus on their usefulness to the learner instead of their accuracy in modelling the environment. Our experiments show that in a simple non-stationary environment, our algorithm enables faster learning than even using an accurate model built with domain-specific knowledge of the non-stationarity.
翻訳日:2022-05-24 14:12:58 公開日:2022-05-22
# 頭蓋内ラベリングのためのグラフ畳み込みネットワークによる深部核融合

Deep Feature Fusion via Graph Convolutional Network for Intracranial Artery Labeling ( http://arxiv.org/abs/2205.10757v1 )

ライセンス: Link先を確認
Yaxin Zhu, Peisheng Qian, Ziyuan Zhao, Zeng Zeng(参考訳) 頭蓋内動脈は、脳に酸素血液を供給する重要な血管である。 頭蓋内動脈ラベルは多くの臨床応用と疾患診断に貴重なガイダンスとナビゲーションを提供する。 脳動脈の解剖学的ラベル付けにおいて、様々な機械学習アルゴリズムが自動化されている。 しかし, 頭蓋内動脈の複雑化と変化のため, 課題は依然として困難なままである。 本研究では,新しいグラフ畳み込みニューラルネットワークによる脳動脈標識法について検討した。 本稿では,エンコーダコアデコーダアーキテクチャにおけるグラフ畳み込みを導入し,グラフノードとその周辺部から高レベル表現を抽出する。 さらに,各階層の中間的特徴を効率よく集約し,モデル表現能力とラベル付け性能を向上させる。 公開データセットに関する広範な実験を行い、その結果がベースラインよりも明確なマージンによるアプローチの優位性を証明した。

Intracranial arteries are critical blood vessels that supply the brain with oxygenated blood. Intracranial artery labels provide valuable guidance and navigation to numerous clinical applications and disease diagnoses. Various machine learning algorithms have been carried out for automation in the anatomical labeling of cerebral arteries. However, the task remains challenging because of the high complexity and variations of intracranial arteries. This study investigates a novel graph convolutional neural network with deep feature fusion for cerebral artery labeling. We introduce stacked graph convolutions in an encoder-core-decoder architecture, extracting high-level representations from graph nodes and their neighbors. Furthermore, we efficiently aggregate intermediate features from different hierarchies to enhance the proposed model's representation capability and labeling performance. We perform extensive experiments on public datasets, in which the results prove the superiority of our approach over baselines by a clear margin.
翻訳日:2022-05-24 14:11:05 公開日:2022-05-22