このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20220316)

# (参考訳) 連続検出, 高速反応: 連続プロンプトチューニングに基づく未知の噂検出 [全文訳有]

Continuous Detection, Rapidly React: Unseen Rumors Detection based on Continual Prompt-Tuning ( http://arxiv.org/abs/2203.11720v1 )

ライセンス: CC BY 4.0
Yuhui Zuo, Wei Zhu, Guoyong Cai(参考訳) オープンなソーシャルプラットフォームは、不確実な情報の大規模かつ継続的な流れを可能にするため、うわさが突然現れ、急速に広まる可能性がある。 しかし、既存のうわさ検出(RD)モデルは、しばしば同じトレーニングとテストの分布を前提としており、継続的に変化するソーシャルネットワーク環境に対処できない。 本稿では,逐次的タスク学習における上流タスクの破滅的な忘れを回避し,ドメインタスク間の知識伝達を可能にする連続的プロンプトチューニングRD(CPT-RD)フレームワークを提案する。 忘れるのを避けるため、各ドメインのタスク専用ソフトプロンプトを最適化し、保存します。 さらに,上流タスクの知識を緊急対応に伝達する戦略や,タスクコンディショニングプロンプトワイズハイパーネットワーク(tphnet)を提案し,双方向知識の転送を可能にした。 最後に、CPT-RDは、英語と中国語のRDデータセットに基づいて評価され、データ再生技術がなく、パラメータチューニングもわずかながら、最先端のベースラインと比較して効率的かつ効率的である。

Since open social platforms allow for a large and continuous flow of unverified information, rumors can emerge unexpectedly and spread quickly. However, existing rumor detection (RD) models often assume the same training and testing distributions and cannot cope with the continuously changing social network environment. This paper proposes a Continual Prompt-Tuning RD (CPT-RD) framework, which avoids catastrophic forgetting of upstream tasks during sequential task learning and enables knowledge transfer between domain tasks. To avoid forgetting, we optimize and store task-special soft-prompt for each domain. Furthermore, we also propose several strategies to transfer knowledge of upstream tasks to deal with emergencies and a task-conditioned prompt-wise hypernetwork (TPHNet) to consolidate past domains, enabling bidirectional knowledge transfer. Finally, CPT-RD is evaluated on English and Chinese RD datasets and is effective and efficient compared to state-of-the-art baselines, without data replay techniques and with only a few parameter tuning.
翻訳日:2022-03-27 08:19:51 公開日:2022-03-16
# (参考訳) 科学文献の融合埋め込みによる認知科学の理論と手法のリンク--認知制御の例 [全文訳有]

Linking Theories and Methods in Cognitive Sciences via Joint Embedding of the Scientific Literature: The Example of Cognitive Control ( http://arxiv.org/abs/2203.11016v1 )

ライセンス: CC BY 4.0
Morteza Ansarinia, Paul Schrater, Pedro Cardoso-Leite(参考訳) 伝統的に、認知制御の理論と実践は、人間のドメインの専門家による文献レビューを通じて関連付けられている。 しかし、このアプローチは増え続ける文学を追跡するには不十分である。 バイアスがあり、冗長性と混乱をもたらすこともある。 ここでは別のアプローチを示す。 我々は,タスクと構造を共同で表現するために,膨大な量の科学的テキストの自動テキスト解析を行った。 より具体的には、531,748の科学的な抽象化がまず、トランスフォーマーベースの言語モデルを用いて埋め込み空間にマッピングされた。 ドキュメントの埋め込みは、タスクをベースとしたタスク構築グラフの埋め込みを識別するために使用され、グラフ内の制約付きランダムウォークを活用することで、構成のニュアンスな意味をサポートする。 この共同タスク構築グラフ埋め込みは、特定の構成物をターゲットにしたタスクバッテリを生成するためにクエリされ、文献の知識ギャップを明らかにし、新しいタスクと新しい仮説を刺激することができる。

Traditionally, theory and practice of Cognitive Control are linked via literature reviews by human domain experts. This approach, however, is inadequate to track the ever-growing literature. It may also be biased, and yield redundancies and confusion. Here we present an alternative approach. We performed automated text analyses on a large body of scientific texts to create a joint representation of tasks and constructs. More specifically, 531,748 scientific abstracts were first mapped into an embedding space using a transformers-based language model. Document embeddings were then used to identify a task-construct graph embedding that grounds constructs on tasks and supports nuanced meaning of the constructs by taking advantage of constrained random walks in the graph. This joint task-construct graph embedding, can be queried to generate task batteries targeting specific constructs, may reveal knowledge gaps in the literature, and inspire new tasks and novel hypotheses.
翻訳日:2022-03-27 08:04:20 公開日:2022-03-16
# 過渡データを用いたIoTネットワークのための深層強化学習型キャッシュ戦略

A Deep Reinforcement Learning-Based Caching Strategy for IoT Networks with Transient Data ( http://arxiv.org/abs/2203.12674v1 )

ライセンス: Link先を確認
Hongda Wu, Ali Nasehzadeh, Ping Wang(参考訳) IoT(Internet of Things, モノのインターネット)はここ数年、継続的に上昇しており、そのポテンシャルはより明確になっている。 しかし、過渡的データ生成と限られたエネルギー資源は、これらのネットワークの主要なボトルネックである。 加えて、最小限の遅延やその他の従来のサービス計測の質が満たすべき要件である。 効率的なキャッシュポリシは、IoTネットワークの特定の制限をバイパスしながら、サービス要件の標準的な品質を満たすのに役立つ。 深層強化学習(DRL)アルゴリズムを用いることで,事前知識や文脈情報を必要とせず,効果的なキャッシュ方式を実現できる。 本研究では,DRLベースのキャッシュ方式を提案する。キャッシュヒット率を改善し,IoTネットワークのエネルギー消費を低減し,データの鮮度とIoTデータの寿命を考慮に入れた。 地域差のある人気分布をより正確に把握するために,IoTネットワークにエッジキャッシングノードをデプロイするための階層アーキテクチャを提案する。 包括的実験の結果,提案手法は,iotネットワークのキャッシュヒット率とエネルギー消費量において,従来のキャッシュポリシと既存のdrlベースのソリューションをかなり上回っていることがわかった。

The Internet of Things (IoT) has been continuously rising in the past few years, and its potentials are now more apparent. However, transient data generation and limited energy resources are the major bottlenecks of these networks. Besides, minimum delay and other conventional quality of service measurements are still valid requirements to meet. An efficient caching policy can help meet the standard quality of service requirements while bypassing IoT networks' specific limitations. Adopting deep reinforcement learning (DRL) algorithms enables us to develop an effective caching scheme without the need for any prior knowledge or contextual information. In this work, we propose a DRL-based caching scheme that improves the cache hit rate and reduces energy consumption of the IoT networks, in the meanwhile, taking data freshness and limited lifetime of IoT data into account. To better capture the regional-different popularity distribution, we propose a hierarchical architecture to deploy edge caching nodes in IoT networks. The results of comprehensive experiments show that our proposed method outperforms the well-known conventional caching policies and an existing DRL-based solution in terms of cache hit rate and energy consumption of the IoT networks by considerable margins.
翻訳日:2022-03-27 05:50:19 公開日:2022-03-16
# 量子密度行列の古典的質問応答と古典的画像分類への応用

Application of Quantum Density Matrix in Classical Question Answering and Classical Image Classification ( http://arxiv.org/abs/2203.11155v1 )

ライセンス: Link先を確認
X. Q. Zhao, H. Wan, H. Chen, L. Su, Z. L. Huang, L. Z. Li(参考訳) 量子密度行列(Quantum density matrix)は、量子系の全ての情報を表し、密度行列を用いた新しいモデルでは、量子問題応答タスクにおいて、仮説や言語的あいまいさなどの言語現象を自然にモデル化する。 自然に、量子密度行列を古典的質問応答(QA)タスクに適用すると、より効果的な性能が得られると論じる。 具体的には (i)入力が行列である場合に対応するため、LSTM(Long Short-Term Memory)に基づく新しいメカニズムを設計すること。 (2)畳み込みニューラルネットワーク(CNN)のQA問題に適用し,量子密度行列を用いたLSTMに基づくQAモデルを得る。 TREC-QAデータセットとWIKI-QAデータセットの新たなモデルによる実験結果が得られた。 同様に、量子密度行列は、画像特徴情報と古典的な画像分類の特徴との関係性を高めることができると論じる。 ですから私たちは i) 密度行列とCNNを組み合わせて新しい機構を設計すること。 (ii)代表的古典的画像分類課題に新たなメカニズムを適用する。 一連の実験により、画像分類における量子密度行列の応用は、異なるデータセットに対する一般化と高効率性を有することが示された。 古典的質問応答課題と古典的画像分類課題の両方における量子密度行列の適用は、より効果的な性能を示す。

Quantum density matrix represents all the information of the entire quantum system, and novel models of meaning employing density matrices naturally model linguistic phenomena such as hyponymy and linguistic ambiguity, among others in quantum question answering tasks. Naturally, we argue that applying the quantum density matrix into classical Question Answering (QA) tasks can show more effective performance. Specifically, we (i) design a new mechanism based on Long Short-Term Memory (LSTM) to accommodate the case when the inputs are matrixes; (ii) apply the new mechanism to QA problems with Convolutional Neural Network (CNN) and gain the LSTM-based QA model with the quantum density matrix. Experiments of our new model on TREC-QA and WIKI-QA data sets show encouraging results. Similarly, we argue that the quantum density matrix can also enhance the image feature information and the relationship between the features for the classical image classification. Thus, we (i) combine density matrices and CNN to design a new mechanism; (ii) apply the new mechanism to some representative classical image classification tasks. A series of experiments show that the application of quantum density matrix in image classification has the generalization and high efficiency on different datasets. The application of quantum density matrix both in classical question answering tasks and classical image classification tasks show more effective performance.
翻訳日:2022-03-27 05:12:32 公開日:2022-03-16
# eegに基づく感情認識:チュートリアルとレビュー

EEG based Emotion Recognition: A Tutorial and Review ( http://arxiv.org/abs/2203.11279v1 )

ライセンス: Link先を確認
Xiang Li, Yazhou Zhang, Prayag Tiwari, Dawei Song, Bin Hu, Meihong Yang, Zhigang Zhao, Neeraj Kumar, Pekka Marttinen(参考訳) 脳波信号の解析による感情認識技術は、現在、人工知能において不可欠な概念であり、感情的な医療、人間とコンピュータの相互作用、マルチメディアコンテンツレコメンデーションなどにおいて大きな可能性を秘めている。 eegベースの感情認識をレビューする作品がいくつかあるが、これらのレビューの内容を更新する必要がある。 加えて、これらの作品は内容が断片化されているか、この分野で採用されている特定の技術にのみ焦点をあてている。 そこで,本論文では,この話題の一歩を踏み出そうとする研究者の視点から考察する。 我々は,脳波に基づく感情認識研究における最近の代表的研究を概観し,研究者が最初から始めるよう指導するチュートリアルを提供する。 脳波に基づく感情認識の科学的基礎を心理学的・生理学的に紹介する。 さらに、これらのレビューを異なる技術経路に分類し、理論的基礎と研究モチベーションを説明することにより、読者がなぜその技術が研究され、採用されるのかをよりよく理解できるようにする。 最後に、研究者が将来の研究の方向性を決定するための指針として、既存の課題と今後の研究についても論じる。

Emotion recognition technology through analyzing the EEG signal is currently an essential concept in Artificial Intelligence and holds great potential in emotional health care, human-computer interaction, multimedia content recommendation, etc. Though there have been several works devoted to reviewing EEG-based emotion recognition, the content of these reviews needs to be updated. In addition, those works are either fragmented in content or only focus on specific techniques adopted in this area but neglect the holistic perspective of the entire technical routes. Hence, in this paper, we review from the perspective of researchers who try to take the first step on this topic. We review the recent representative works in the EEG-based emotion recognition research and provide a tutorial to guide the researchers to start from the beginning. The scientific basis of EEG-based emotion recognition in the psychological and physiological levels is introduced. Further, we categorize these reviewed works into different technical routes and illustrate the theoretical basis and the research motivation, which will help the readers better understand why those techniques are studied and employed. At last, existing challenges and future investigations are also discussed in this paper, which guides the researchers to decide potential future research directions.
翻訳日:2022-03-27 05:12:09 公開日:2022-03-16
# ポーズ推定ニューラルネットワークの感度について:回転パラメータ化、リプシッツ定数、証明可能な境界

On the sensitivity of pose estimation neural networks: rotation parameterizations, Lipschitz constants, and provable bounds ( http://arxiv.org/abs/2203.09937v1 )

ライセンス: Link先を確認
Trevor Avant, Kristi A. Morgansen(参考訳) 本稿では,ポーズ推定ニューラルネットワークの感度境界を決定するタスクにアプローチする。 この課題は特に困難であり、3次元回転の感度を特徴付ける必要がある。 本研究では,入力のユークリッド変化に対するネットワーク出力の最大回転変化を記述する感度尺度を開発した。 この測度は、リプシッツ定数の一種であり、ネットワークのユークリッドリプシッツ定数の積と、我々が「距離比定数」と呼ぶ回転パラメータ化の本質的性質によって有界であることを示す。 本稿では,複数の回転パラメータ化に対する距離比定数を導出し,これらのパラメータ化のほとんどの構造が,感度境界が証明可能なポーズ推定ネットワークの構築を困難にする理由について考察する。 しかし,非拘束指数座標を用いて回転をパラメータ化するネットワークに対して,感度境界を計算できることを示した。 そして、そのようなネットワークを構築し、トレーニングし、その感度境界を計算する。

In this paper, we approach the task of determining sensitivity bounds for pose estimation neural networks. This task is particularly challenging as it requires characterizing the sensitivity of 3D rotations. We develop a sensitivity measure that describes the maximum rotational change in a network's output with respect to a Euclidean change in its input. We show that this measure is a type of Lipschitz constant, and that it is bounded by the product of a network's Euclidean Lipschitz constant and an intrinsic property of a rotation parameterization which we call the "distance ratio constant". We derive the distance ratio constant for several rotation parameterizations, and then discuss why the structure of most of these parameterizations makes it difficult to construct a pose estimation network with provable sensitivity bounds. However, we show that sensitivity bounds can be computed for networks which parameterize rotation using unconstrained exponential coordinates. We then construct and train such a network and compute sensitivity bounds for it.
翻訳日:2022-03-21 14:12:33 公開日:2022-03-16
# (参考訳) 両世界の最悪の状況:心理学と機械学習のデータからの学習における誤りの比較分析 [全文訳有]

The worst of both worlds: A comparative analysis of errors in learning from data in psychology and machine learning ( http://arxiv.org/abs/2203.06498v2 )

ライセンス: CC BY 4.0
Jessica Hullman, Sayash Kapoor, Priyanka Nanayakkara, Andrew Gelman, and Arvind Narayanan(参考訳) 機械学習(ML)が再現性と複製の危機に直面しているという最近の懸念は、ML研究におけるいくつかの発表された主張が、対面価値で評価できないことを示唆している。 これらの懸念は、社会科学や医学に影響を及ぼす複製危機の類似点を刺激し、因果推論や予測モデリングに対する統計的アプローチのより深い統合を求める。 教師付きMLの研究における再現性に関する懸念は、実験科学における複製危機と共通しており、研究者が限界を理解しずに説明的モデリングから方法論を借用し始めると、研究者が「両方の世界の最悪のもの」を避けるのに役立つ。 本稿では,心理学において実証される因果帰属のモデルパイプラインの異なる段階で生じる帰納的学習に関する関心事と,MLで実証される予測的モデリングについて比較分析する。 我々は、漸近理論への過度な依存や、現実世界のデータ生成プロセスに関する信用できない信念など、改革の議論に再び現れるテーマを特定する。 どちらの分野でも、学習からの主張は特定の環境(例えば、入力データセットや対象サンプル、モデリング実装など)の外で一般化することが示唆されるが、過小評価の形態のため、しばしば否定できない。 特に、MLで認識されている多くのエラーは、巨大なデータセットを使用して予測精度を最適化することで、基礎となるデータ生成プロセスについて仮定する必要がなくなるという長年の信念の亀裂を露呈する。 方法論的不確実性の時に発生する誤り誤診のような修辞的リスクについて論じる。

Recent concerns that machine learning (ML) may be facing a reproducibility and replication crisis suggest that some published claims in ML research cannot be taken at face value. These concerns inspire analogies to the replication crisis affecting the social and medical sciences, as well as calls for greater integration of statistical approaches to causal inference and predictive modeling. A deeper understanding of what reproducibility concerns in research in supervised ML have in common with the replication crisis in experimental science can put the new concerns in perspective, and help researchers avoid "the worst of both worlds" that can emerge when ML researchers begin borrowing methodologies from explanatory modeling without understanding their limitations, and vice versa. We contribute a comparative analysis of concerns about inductive learning that arise in different stages of the modeling pipeline in causal attribution as exemplified in psychology versus predictive modeling as exemplified by ML. We identify themes that re-occur in reform discussions like overreliance on asymptotic theory and non-credible beliefs about real-world data generating processes. We argue that in both fields, claims from learning are implied to generalize outside the specific environment studied (e.g., the input dataset or subject sample, modeling implementation, etc.) but are often impossible to refute due to forms of underspecification. In particular, many errors being acknowledged in ML expose cracks in long-held beliefs that optimizing predictive accuracy using huge datasets absolves one from having to make assumptions about the underlying data generating process. We conclude by discussing rhetorical risks like error misdiagnosis that arise in times of methodological uncertainty.
翻訳日:2022-03-19 19:04:32 公開日:2022-03-16
# (参考訳) バイモーダル深層ネットワークによるアートワークにおける物体の関連と意味の抽出 [全文訳有]

Extracting associations and meanings of objects depicted in artworks through bi-modal deep networks ( http://arxiv.org/abs/2203.07026v2 )

ライセンス: CC BY 4.0
Gregory Kell, Ryan-Rhys Griffiths, Anthony Bourached, David G. Stork(参考訳) 本稿では,絵や絵などの「著作」画像に表現された物体の学習関連や単純な意味の問題に対処するために,深層ネットワークに基づく新しいバイモーダルシステムを提案する。 本システムでは,画像と関連するテキストの両方を処理し,個々のオブジェクトのイメージ,それらのアイデンティティ,それらが意味する抽象的な意味の関連を学習する。 表現対象と推論対象を記述した過去のディープネットとは違って,本システムは,対象とするアート作品の基本的な全体的意味だけでなく,意味を持つ対象(記号)とその関連(記号)を識別する。 本システムでは,オランダのバニタス絵画のキュレートセットにおいて,F1の0.6で48%の精度と78%のリコールを達成した。 我々は,美術絵画のシステムを開発し,実験を行ったが,その一般的な手法は他の権威ある画像にも適用できる。

We present a novel bi-modal system based on deep networks to address the problem of learning associations and simple meanings of objects depicted in "authored" images, such as fine art paintings and drawings. Our overall system processes both the images and associated texts in order to learn associations between images of individual objects, their identities and the abstract meanings they signify. Unlike past deep nets that describe depicted objects and infer predicates, our system identifies meaning-bearing objects ("signifiers") and their associations ("signifieds") as well as basic overall meanings for target artworks. Our system had precision of 48% and recall of 78% with an F1 metric of 0.6 on a curated set of Dutch vanitas paintings, a genre celebrated for its concentration on conveying a meaning of great import at the time of their execution. We developed and tested our system on fine art paintings but our general methods can be applied to other authored images.
翻訳日:2022-03-19 14:41:52 公開日:2022-03-16
# (参考訳) 不完全軌道からの2ブロックRNN軌道予測 [全文訳有]

A Two-Block RNN-based Trajectory Prediction from Incomplete Trajectory ( http://arxiv.org/abs/2203.07098v2 )

ライセンス: CC BY 4.0
Ryo Fujii, Jayakorn Vongkulbhisal, Ryo Hachiuma, Hideo Saito(参考訳) 軌道予測は大きな注目を集め、近年は大きな進歩を遂げている。 しかし、ほとんどの研究は、各ビデオが検出と追跡アルゴリズムによって前処理に成功し、常に完全な観測軌道が利用できるという重要な仮定に依存している。 しかし,複雑な実環境においては,他のエージェントによる閉塞などの悪い画像条件によるターゲットエージェント(歩行者,車両など)の誤検出に遭遇することが多い。 本稿では,不完全な観測軌跡から,観測軌跡に欠落点がいくつか含まれているミス検出による軌道予測の問題に対処する。 本稿では,ベイズフィルタフレームワークの推論ステップを近似する2ブロックrnnモデルを導入し,ミス検出時の隠れ状態の最適推定を求める。 モデルは検出結果に応じて2つのRNNを使用する。 1つのRNNはベイズフィルタの推論ステップを、検出が成功したときに新しい測定値と近似し、もう1つは検出が失敗したときに近似を行う。 実験の結果,提案モデルでは,ETH と UCY (9 %$, 7 %$$) の3つの標準計算手法と比較して予測精度が向上していることがわかった。 また,提案手法は,誤差検出を行わない場合には,ベースラインよりも優れた予測を行うことができることを示した。

Trajectory prediction has gained great attention and significant progress has been made in recent years. However, most works rely on a key assumption that each video is successfully preprocessed by detection and tracking algorithms and the complete observed trajectory is always available. However, in complex real-world environments, we often encounter miss-detection of target agents (e.g., pedestrian, vehicles) caused by the bad image conditions, such as the occlusion by other agents. In this paper, we address the problem of trajectory prediction from incomplete observed trajectory due to miss-detection, where the observed trajectory includes several missing data points. We introduce a two-block RNN model that approximates the inference steps of the Bayesian filtering framework and seeks the optimal estimation of the hidden state when miss-detection occurs. The model uses two RNNs depending on the detection result. One RNN approximates the inference step of the Bayesian filter with the new measurement when the detection succeeds, while the other does the approximation when the detection fails. Our experiments show that the proposed model improves the prediction accuracy compared to the three baseline imputation methods on publicly available datasets: ETH and UCY ($9\%$ and $7\%$ improvement on the ADE and FDE metrics). We also show that our proposed method can achieve better prediction compared to the baselines when there is no miss-detection.
翻訳日:2022-03-19 13:00:32 公開日:2022-03-16
# (参考訳) 強化学習のためのオーケストレーション価値マッピング

Orchestrated Value Mapping for Reinforcement Learning ( http://arxiv.org/abs/2203.07171v2 )

ライセンス: CC BY 4.0
Mehdi Fatemi and Arash Tavakoli(参考訳) 本稿では,(1)値推定値を広いクラスから任意の関数を用いて異なる空間にマッピングする,(2)報酬信号を複数のチャネルに線形に分解する,という2つの異なる原理に基づく強化学習アルゴリズムの一般収束クラスを提案する。 最初の原則は、学習を強化するための価値推定器に特定のプロパティを組み込むことを可能にする。 一方、第二の原理は、値関数を複数のユーティリティ関数の合成として表現することを可能にする。 これは、高度に異なる報酬尺度を扱うこと、報酬の源に関する事前知識を取り入れること、アンサンブル学習など、様々な目的に活用できる。 この2つの原則を組み合わせることで、複数の報酬チャネル上で多様なマッピング関数をオーケストレーションすることで収束アルゴリズムをインスタンス化する一般的な青写真が得られる。 この青写真は、Q-Learning、Log Q-Learning、Q-Decompositionといったアルゴリズムを一般化し、仮定する。 さらに、この一般クラスに対する収束証明は、これらのアルゴリズムのいくつかで要求される仮定を緩和する。 この理論に基づいて、いくつかの興味深い構成を特殊ケースとして論じる。 最後に、我々の理論が開放する設計空間の可能性を説明するために、特定のアルゴリズムをインスタンス化し、その性能を評価する。

We present a general convergent class of reinforcement learning algorithms that is founded on two distinct principles: (1) mapping value estimates to a different space using arbitrary functions from a broad class, and (2) linearly decomposing the reward signal into multiple channels. The first principle enables incorporating specific properties into the value estimator that can enhance learning. The second principle, on the other hand, allows for the value function to be represented as a composition of multiple utility functions. This can be leveraged for various purposes, e.g. dealing with highly varying reward scales, incorporating a priori knowledge about the sources of reward, and ensemble learning. Combining the two principles yields a general blueprint for instantiating convergent algorithms by orchestrating diverse mapping functions over multiple reward channels. This blueprint generalizes and subsumes algorithms such as Q-Learning, Log Q-Learning, and Q-Decomposition. In addition, our convergence proof for this general class relaxes certain required assumptions in some of these algorithms. Based on our theory, we discuss several interesting configurations as special cases. Finally, to illustrate the potential of the design space that our theory opens up, we instantiate a particular algorithm and evaluate its performance on the Atari suite.
翻訳日:2022-03-19 12:13:09 公開日:2022-03-16
# (参考訳) 摩擦スチール溶接継手の組織からの溶接効率予測のためのコンピュータビジョンアルゴリズム [全文訳有]

Computer Vision Algorithm for Predicting the Welding Efficiency of Friction Stir Welded Copper Joints from its Microstructures ( http://arxiv.org/abs/2203.09479v1 )

ライセンス: CC BY-SA 4.0
Akshansh Mishra, Asmita Suman, Devarrishi Dixit(参考訳) 摩擦スター溶接は強靭な接合プロセスであり、この分野では機械的および微細構造特性を高めるために多数のAIベースのアルゴリズムが開発されている。 畳み込みニューラルネットワーク(CNN)は、画像データを入力として使用するニューラルネットワークである。 ニューラルネットワークとは違い、学習全体を通じて決定される重み、ニューロン(活性化機能)、目標(ロス機能)から構成される。 CNNは、画像認識、セマンティックセグメンテーション、画像認識、ローカライゼーションなど、さまざまな用途で利用されている。 3000枚の顕微鏡画像の訓練と300枚の顕微鏡画像の新しい試験を用いて, 接合継手効果の予測を微視的画像を用いて検討した。

Friction Stir Welding is a robust joining process, and numerous AI-based algorithms are being developed in this field to enhance mechanical and microstructure properties. Convolutional Neural Networks (CNNs) are Artificial Neural Networks that use image data as input. Identical to Artificial Neural Networks, they are composed of weights that are determined throughout learning, neurons (activated functions), and a goal (loss function). CNN is utilized in a variety of applications, including image recognition, semantic segmentation, image recognition, and localization. Utilizing training on 3000 microstructure pictures and new tests on 300 microstructure photographs, the current work investigates the predictions of Friction Stir Welded joint effectiveness using microstructure images.
翻訳日:2022-03-19 10:03:35 公開日:2022-03-16
# (参考訳) 世界出力テーブルの再構築のための階層クラスタリングと行列補完 [全文訳有]

Hierarchical Clustering and Matrix Completion for the Reconstruction of World Input-Output Tables ( http://arxiv.org/abs/2203.08819v1 )

ライセンス: CC BY 4.0
Rodolfo Metulini, Giorgio Gnecco, Francesco Biancalani, Massimo Riccaboni(参考訳) 世界入出力(i/o)行列は内国間経済関係のネットワークを提供する。 I/O分析の文脈では、データ収集において国家統計局が採用する方法論は、信頼できるデータをタイムリーに取得することの問題を提起し、特に関心のあるI/O行列を再構築する(一部)。 本研究では,階層クラスタリングとマトリックスコンプリート(MC)をLASSO型核ノルムペナルティと組み合わせて,部分的に未知のI/Oマトリクスを欠落させる手法を提案する。 合成行列に基づくシミュレーションにより,前年のデータと現在のデータに類似した国に関連する現在のデータの両方から欠落値を予測するための提案手法の有効性について検討した。 本手法の有用性を示すために,産業用産業用I/Oテーブルの例として,WIOD(World Input-Output Database)テーブルに基づくアプリケーションを提案する。 WIODと他のI/Oテーブルの構造の強い類似性も見出され、提案手法の一般化が容易となった。

World Input-Output (I/O) matrices provide the networks of within- and cross-country economic relations. In the context of I/O analysis, the methodology adopted by national statistical offices in data collection raises the issue of obtaining reliable data in a timely fashion and it makes the reconstruction of (part of) the I/O matrices of particular interest. In this work, we propose a method combining hierarchical clustering and Matrix Completion (MC) with a LASSO-like nuclear norm penalty, to impute missing entries of a partially unknown I/O matrix. Through simulations based on synthetic matrices we study the effectiveness of the proposed method to predict missing values from both previous years data and current data related to countries similar to the one for which current data are obscured. To show the usefulness of our method, an application based on World Input-Output Database (WIOD) tables - which are an example of industry-by-industry I/O tables - is provided. Strong similarities in structure between WIOD and other I/O tables are also found, which make the proposed approach easily generalizable to them.
翻訳日:2022-03-19 09:57:35 公開日:2022-03-16
# (参考訳) DePS:de novoペプチドシークエンシングのための改良されたディープラーニングモデル [全文訳有]

DePS: An improved deep learning model for de novo peptide sequencing ( http://arxiv.org/abs/2203.08820v1 )

ライセンス: CC BY 4.0
Cheng Ge, Yi Lu, Jia Qu, Liangxu Xie, Feng Wang, Hong Zhang, Ren Kong and Shan Chang(参考訳) 質量分析データからのデノボペプチドの塩基配列は、タンパク質の同定に重要な方法である。 近年,de novoペプチドシークエンシングに様々な深層学習手法が適用され,DeepNovoV2が再現モデルの1つである。 本研究では,タンデム質量分析データにおいて,信号ピークの欠如やノイズピークが多い場合にもde novoペプチドシークエンシングの精度を向上させるための拡張モデルであるdepsを提案する。 同じDeepNovoV2テストセットでは、DePSモデルは、それぞれ74.22%、74.21%、および41.68%のアミノ酸リコール、アミノ酸精度、ペプチドリコールの優れた結果を得た。 さらに,DePSは種間データセット上でDeepNovoV2よりも優れていた。

De novo peptide sequencing from mass spectrometry data is an important method for protein identification. Recently, various deep learning approaches were applied for de novo peptide sequencing and DeepNovoV2 is one of the represetative models. In this study, we proposed an enhanced model, DePS, which can improve the accuracy of de novo peptide sequencing even with missing signal peaks or large number of noisy peaks in tandem mass spectrometry data. It is showed that, for the same test set of DeepNovoV2, the DePS model achieved excellent results of 74.22%, 74.21% and 41.68% for amino acid recall, amino acid precision and peptide recall respectively. Furthermore, the results suggested that DePS outperforms DeepNovoV2 on the cross species dataset.
翻訳日:2022-03-19 09:22:31 公開日:2022-03-16
# (参考訳) フーリエマスクによるニューラルネットワークのロバスト性理解と一般化 [全文訳有]

Understanding robustness and generalization of artificial neural networks through Fourier masks ( http://arxiv.org/abs/2203.08822v1 )

ライセンス: CC BY 4.0
Nikos Karantzas, Emma Besier, Josue Ortega Caro, Xaq Pitkow, Andreas S. Tolias, Ankit B. Patel, Fabio Anselmi(参考訳) 多くの分野におけるニューラルネットワーク(ann)の成功にもかかわらず、それらの計算の特徴と一般化やロバスト性といった重要な特性の起源は未解決のままである。 最近の文献では、高一般化特性を持つロバストネットワークは、画像の低周波処理に偏りがちであることが示唆されている。 さらに周波数バイアス仮説を探索するため、トレーニングされたネットワークの性能を維持するのに必要な入力周波数を強調する変調マスクを学習できるアルゴリズムを開発した。 入力周波数におけるそのような変調に対する損失の不変性を示唆してこれを実現できる。 まず,本手法を用いて,逆訓練ネットワークやデータ提示ネットワークの低周波選好仮説を検証した。 以上の結果から,対向ロバストなネットワークは低周波バイアスを示すが,このバイアスは周波数空間の方向にも依存することがわかった。 しかし、これは必ずしも他の種類のデータ拡張には当てはまらない。 また,本研究の結果から,本質的な周波数はそもそもの一般化に有効であることが示唆された。 驚くべきことに、これらの変調マスクを通して見る画像は認識できず、テクスチャのようなパターンに似ている。

Despite the enormous success of artificial neural networks (ANNs) in many disciplines, the characterization of their computations and the origin of key properties such as generalization and robustness remain open questions. Recent literature suggests that robust networks with good generalization properties tend to be biased towards processing low frequencies in images. To explore the frequency bias hypothesis further, we develop an algorithm that allows us to learn modulatory masks highlighting the essential input frequencies needed for preserving a trained network's performance. We achieve this by imposing invariance in the loss with respect to such modulations in the input frequencies. We first use our method to test the low-frequency preference hypothesis of adversarially trained or data-augmented networks. Our results suggest that adversarially robust networks indeed exhibit a low-frequency bias but we find this bias is also dependent on directions in frequency space. However, this is not necessarily true for other types of data augmentation. Our results also indicate that the essential frequencies in question are effectively the ones used to achieve generalization in the first place. Surprisingly, images seen through these modulatory masks are not recognizable and resemble texture-like patterns.
翻訳日:2022-03-19 09:11:36 公開日:2022-03-16
# (参考訳) 事前学習型多言語列列列モデル:低リソース言語翻訳への期待? [全文訳有]

Pre-Trained Multilingual Sequence-to-Sequence Models: A Hope for Low-Resource Language Translation? ( http://arxiv.org/abs/2203.08850v1 )

ライセンス: CC BY-SA 4.0
En-Shiun Annie Lee, Sarubi Thillainathan, Shravan Nayak, Surangika Ranathunga, David Ifeoluwa Adelani, Ruisi Su, Arya D. McCarthy(参考訳) mBARTのような事前訓練された多言語列列列列モデルは、低リソース言語への翻訳に何に役立つのか? 我々は,(1)微調整データの量,(2)微調整データのノイズ,(3)モデルにおける事前学習データの量,(4)ドメインミスマッチの影響,(5)言語型学の5つの要因を考慮し,これを10言語で徹底的に実証実験を行った。 実験は、いくつかのヒューリスティックをもたらすことに加えて、機械翻訳システムのデータセンシティビティを評価するためのフレームワークを形成する。 mBARTはドメインの違いに頑健だが、その翻訳は見当たらない言語とタイプ的に遠い言語が3.0BLEU以下である。 タイトルの質問に答えるために、mBARTは低リソースのパナセアではないので、新しいモデルから新しいデータへの強調のシフトを推奨します。

What can pre-trained multilingual sequence-to-sequence models like mBART contribute to translating low-resource languages? We conduct a thorough empirical experiment in 10 languages to ascertain this, considering five factors: (1) the amount of fine-tuning data, (2) the noise in the fine-tuning data, (3) the amount of pre-training data in the model, (4) the impact of domain mismatch, and (5) language typology. In addition to yielding several heuristics, the experiments form a framework for evaluating the data sensitivities of machine translation systems. While mBART is robust to domain differences, its translations for unseen and typologically distant languages remain below 3.0 BLEU. In answer to our title's question, mBART is not a low-resource panacea; we therefore encourage shifting the emphasis from new models to new data.
翻訳日:2022-03-19 08:59:30 公開日:2022-03-16
# (参考訳) Sat-NeRF: 過渡物体を用いた多視点衛星写真計測とRPCカメラによる影モデリング [全文訳有]

Sat-NeRF: Learning Multi-View Satellite Photogrammetry With Transient Objects and Shadow Modeling Using RPC Cameras ( http://arxiv.org/abs/2203.08896v1 )

ライセンス: CC BY-SA 4.0
Roger Mar\'i, Gabriele Facciolo, Thibaud Ehret(参考訳) サテライト・ニューラル・ラジアンス・フィールド(Sat-NeRF)は、野生のマルチビュー衛星写真撮影を学習するための新しいエンドツーエンドモデルである。 Sat-NeRFは、ニューラルネットワークの最新のトレンドと、有理多項式係数(RPC)関数で表されるネイティブ衛星カメラモデルを組み合わせる。 提案手法は,従来のステレオパイプラインと同等の品質の曲面モデルを推定し,新しいビューを描画する。 マルチ日付画像は、主に様々な影と過渡的な物体(車、植生)のために、外観に大きな変化を示す。 これらの挑戦に対する堅牢性は、太陽の位置では説明できない過渡現象に対処するために、影を感知する照度モデルと不確実性重み付けによって達成される。 異なる場所からのWorldView-3画像を用いてSat-NeRFを評価し,衛星カメラモデルにバンドル調整を適用する利点を強調した。 これによりネットワーク性能が向上し、奥行き監視のための追加の手がかりを抽出することができる。

We introduce the Satellite Neural Radiance Field (Sat-NeRF), a new end-to-end model for learning multi-view satellite photogrammetry in the wild. Sat-NeRF combines some of the latest trends in neural rendering with native satellite camera models, represented by rational polynomial coefficient (RPC) functions. The proposed method renders new views and infers surface models of similar quality to those obtained with traditional state-of-the-art stereo pipelines. Multi-date images exhibit significant changes in appearance, mainly due to varying shadows and transient objects (cars, vegetation). Robustness to these challenges is achieved by a shadow-aware irradiance model and uncertainty weighting to deal with transient phenomena that cannot be explained by the position of the sun. We evaluate Sat-NeRF using WorldView-3 images from different locations and stress the advantages of applying a bundle adjustment to the satellite camera models prior to training. This boosts the network performance and can optionally be used to extract additional cues for depth supervision.
翻訳日:2022-03-19 08:45:29 公開日:2022-03-16
# (参考訳) 映像行動認識のためのゲートシフトファウズ [全文訳有]

Gate-Shift-Fuse for Video Action Recognition ( http://arxiv.org/abs/2203.08897v1 )

ライセンス: CC BY 4.0
Swathikiran Sudhakaran, Sergio Escalera, Oswald Lanz(参考訳) 畳み込みニューラルネットワークは、画像認識のためのデファクトモデルである。 しかし、ビデオ認識のための2D CNNのストレートな拡張である3D CNNは、標準アクション認識ベンチマークでは同様の成功を収めていない。 この3d cnnの性能低下の主な理由の1つは、大規模な注釈付きデータセットを大規模に訓練する必要のある計算量の増加である。 3dカーネル因子化アプローチは、3d cnnの複雑さを減らすために提案されている。 既存のカーネルファクタライゼーションアプローチは、ハンドデザインとハードワイヤ技術に従っている。 本稿では、時空間分解における相互作用を制御し、時間を通して特徴を適応的にルーティングし、データ依存的に組み合わせる新しい時空間特徴抽出モジュールであるGSFを提案する。 gsfは群空間ゲーティングを利用して入力テンソルとチャネル重み付けを分解し、分解テンソルを融合させる。 GSFは既存の2D CNNに挿入して、パラメータと計算オーバーヘッドを無視して、効率よく高性能な時空間特徴抽出器に変換することができる。 2d cnnファミリを用いてgsfを広範囲に解析し,5つの標準行動認識ベンチマークを用いて,最先端または競争性能を達成する。 コードとモデルはhttps://github.com/s wathikirans/GSF.comで公開される。

Convolutional Neural Networks are the de facto models for image recognition. However 3D CNNs, the straight forward extension of 2D CNNs for video recognition, have not achieved the same success on standard action recognition benchmarks. One of the main reasons for this reduced performance of 3D CNNs is the increased computational complexity requiring large scale annotated datasets to train them in scale. 3D kernel factorization approaches have been proposed to reduce the complexity of 3D CNNs. Existing kernel factorization approaches follow hand-designed and hard-wired techniques. In this paper we propose Gate-Shift-Fuse (GSF), a novel spatio-temporal feature extraction module which controls interactions in spatio-temporal decomposition and learns to adaptively route features through time and combine them in a data dependent manner. GSF leverages grouped spatial gating to decompose input tensor and channel weighting to fuse the decomposed tensors. GSF can be inserted into existing 2D CNNs to convert them into an efficient and high performing spatio-temporal feature extractor, with negligible parameter and compute overhead. We perform an extensive analysis of GSF using two popular 2D CNN families and achieve state-of-the-art or competitive performance on five standard action recognition benchmarks. Code and models will be made publicly available at https://github.com/s wathikirans/GSF.
翻訳日:2022-03-19 08:27:53 公開日:2022-03-16
# (参考訳) ホログラフィック画像のニューラルネットワーク処理

Neural network processing of holographic images ( http://arxiv.org/abs/2203.08898v1 )

ライセンス: CC BY 4.0
John S. Schreck, Gabrielle Gantos, Matthew Hayman, Aaron Bensemer, David John Gagne(参考訳) 空飛ぶ雲粒子イメージ装置であるHOLODECは、一定量の雲のホログラフィック画像をキャプチャして、水滴や氷結晶のような雲粒子の種類と大きさを特徴付ける。 雲粒子の特徴は、位置、直径、形状である。 本稿では,ニューラルセグメンテーションモデル,GPU,計算並列化を利用したホログラム処理アルゴリズムHolodecMLを提案する。 ホロデックMLは、装置のモデルに基づいて合成ホログラムを用いて訓練され、再構成された画像の中で見られる粒子の周りのマスクを予測する。 これらのマスクから、検出された粒子の位置と大きさを3次元で特徴づけることができる。 実ホログラムの処理を成功させるためには、トレーニングで使用される合成画像に一連の画像破壊変換とノイズを適用する必要がある。 この評価では、ホロデックMLは標準処理法と同等の位置とサイズの推定性能を有していたが、数千個のHOLODEC画像に対して、粒子検出を20倍近く改善した。 しかし、この改良は、訓練中に模擬画像上で画像破損が発生した場合にのみ発生し、実際のプローブにおける非理想条件を模倣する。 トレーニングされたモデルは、トレーニングデータセットにそのようなオブジェクトが存在しないにもかかわらず、ホロデック画像内のアーティファクトやその他の不純物を粒子と区別することを学び、標準処理方法はアーティファクトから粒子を分離するのに苦労した。 HOLODEC検出器の非理想的側面をパラメータ化する手段としてノイズを利用したトレーニング手法の新規性は、理論モデルが実世界の操作を完全に記述できない他の領域に適用でき、教師付き学習に必要な正確な真理データも実世界の観測では得られない。

HOLODEC, an airborne cloud particle imager, captures holographic images of a fixed volume of cloud to characterize the types and sizes of cloud particles, such as water droplets and ice crystals. Cloud particle properties include position, diameter, and shape. We present a hologram processing algorithm, HolodecML, that utilizes a neural segmentation model, GPUs, and computational parallelization. HolodecML is trained using synthetically generated holograms based on a model of the instrument, and predicts masks around particles found within reconstructed images. From these masks, the position and size of the detected particles can be characterized in three dimensions. In order to successfully process real holograms, we find we must apply a series of image corrupting transformations and noise to the synthetic images used in training. In this evaluation, HolodecML had comparable position and size estimation performance to the standard processing method, but improved particle detection by nearly 20\% on several thousand manually labeled HOLODEC images. However, the improvement only occurred when image corruption was performed on the simulated images during training, thereby mimicking non-ideal conditions in the actual probe. The trained model also learned to differentiate artifacts and other impurities in the HOLODEC images from the particles, even though no such objects were present in the training data set, while the standard processing method struggled to separate particles from artifacts. The novelty of the training approach, which leveraged noise as a means for parameterizing non-ideal aspects of the HOLODEC detector, could be applied in other domains where the theoretical model is incapable of fully describing the real-world operation of the instrument and accurate truth data required for supervised learning cannot be obtained from real-world observations.
翻訳日:2022-03-19 08:04:39 公開日:2022-03-16
# (参考訳) 記憶の変圧器 [全文訳有]

Memorizing Transformers ( http://arxiv.org/abs/2203.08913v1 )

ライセンス: CC BY 4.0
Yuhuai Wu and Markus N. Rabe and DeLesley Hutchins and Christian Szegedy(参考訳) 言語モデルは、新しい知識を得るために訓練や微調整が必要であり、それらは重み付けの更新を伴う。 代わりに、推論時に新しいデータを読み書きし記憶することができる言語モデルを想定し、すぐに新しい知識を得る。 本研究では,過去の入力の内部表現を記憶できる言語モデルを拡張する。 最近の(キー、値)ペアの非微分可能なメモリへの近似knのルックアップが、ジェネリックwebtext(c4)、math paper(arxiv)、books(pg-19)、code(github)、formal theorems(isabelle)など、さまざまなベンチマークやタスクにわたる言語モデリングを改善することを実証する。 メモリサイズを最大262Kのトークンに増やすと、パフォーマンスが着実に向上することを示す。 コードや数学を含むベンチマークでは、テスト期間中に新たに定義された関数や定理を利用することができる。

Language models typically need to be trained or finetuned in order to acquire new knowledge, which involves updating their weights. We instead envision language models that can simply read and memorize new data at inference time, thus acquiring new knowledge immediately. In this work, we extend language models with the ability to memorize the internal representations of past inputs. We demonstrate that an approximate kNN lookup into a non-differentiable memory of recent (key, value) pairs improves language modeling across various benchmarks and tasks, including generic webtext (C4), math papers (arXiv), books (PG-19), code (Github), as well as formal theorems (Isabelle). We show that the performance steadily improves when we increase the size of memory up to 262K tokens. On benchmarks including code and mathematics, we find that the model is capable of making use of newly defined functions and theorems during test time.
翻訳日:2022-03-19 08:03:18 公開日:2022-03-16
# (参考訳) 自然言語理解コーパスにおける否定の分析 [全文訳有]

An Analysis of Negation in Natural Language Understanding Corpora ( http://arxiv.org/abs/2203.08929v1 )

ライセンス: CC BY 4.0
Md Mosharaf Hossain, Dhivya Chinnappa, and Eduardo Blanco(参考訳) 本稿では、6つの自然言語理解タスクにまたがる8つの人気コーパスの否定を分析する。 これらのコーパスは、汎用英語に比べて否定がほとんどなく、それらに含まれる否定は、しばしば重要でない。 実際、しばしば否定を無視し、正しい予測をすることができる。 さらに, 実験結果から, これらのコーパスを訓練した変圧器は, 特に否定が重要であれば, 否定を含むインスタンスにおいて, 著しく悪い結果が得られることがわかった。 我々は,否定が存在する場合に自然言語理解課題を解決するためには,否定に対する新たなコーパス会計が必要であると結論づける。

This paper analyzes negation in eight popular corpora spanning six natural language understanding tasks. We show that these corpora have few negations compared to general-purpose English, and that the few negations in them are often unimportant. Indeed, one can often ignore negations and still make the right predictions. Additionally, experimental results show that state-of-the-art transformers trained with these corpora obtain substantially worse results with instances that contain negation, especially if the negations are important. We conclude that new corpora accounting for negation are needed to solve natural language understanding tasks when negation is present.
翻訳日:2022-03-19 07:42:36 公開日:2022-03-16
# (参考訳) つぶやきとビデオによるマルチメディア要約の作成 [全文訳有]

Creating Multimedia Summaries Using Tweets and Videos ( http://arxiv.org/abs/2203.08931v1 )

ライセンス: CC BY 4.0
Anietie Andy and Siyi Liu and Daphne Ippolito and Reno Kriz and Chris Callison-Burch and Derry Wijaya(参考訳) 大統領討論会やテレビ番組などの人気番組が放送されている一方で、人々はリアルタイムで解説を行っている。 本稿では,ソーシャルメディアのコメンタリーとビデオを組み合わせて,テレビ放送イベントのマルチメディア要約を作成するための,シンプルながら効果的なアプローチを提案する。 提案手法は,イベントに参加している人の発言のスパイクに基づいて,これらのイベントのシーンを識別し,話題のスパイクの期間中に発生したビデオから自動的につぶやきやフレームを選択する。

While popular televised events such as presidential debates or TV shows are airing, people provide commentary on them in real-time. In this paper, we propose a simple yet effective approach to combine social media commentary and videos to create a multimedia summary of televised events. Our approach identifies scenes from these events based on spikes of mentions of people involved in the event and automatically selects tweets and frames from the videos that occur during the time period of the spike that talk about and show the people being discussed.
翻訳日:2022-03-19 07:31:40 公開日:2022-03-16
# (参考訳) $\ell_p$ Slack Normがベクトルデータ記述をサポート

$\ell_p$ Slack Norm Support Vector Data Description ( http://arxiv.org/abs/2203.08932v1 )

ライセンス: CC BY 4.0
Shervin R. Arashloo(参考訳) サポートベクトルデータ記述(SVDD)アプローチは、学習タスクがターゲットオブジェクトを囲むために最小の超球面を推論し、$\ell_1$-normのペナルティ項でエラーやスラックを線形に解析する1クラス分類のデファクトスタンダードとして機能する。 本研究では,このモデリング形式を,slack ペナルティ関数である $\ell_p$-norm (p\geq1$) に一般化する。 $\ell_p$ slack ノルムにより、提案手法はスラックスに関して非線形コスト関数を定式化することができる。 双対問題の観点からは、提案手法は目的関数にスパーシティ誘導双対ノルムを導入することにより、記述能力の向上のために問題の本質的なスパーシティを調整できる高い能力を有する。 Rademacher複雑度に基づく理論的解析は,パラメータ$p$で提案手法の一般化性能を特徴づける一方,いくつかのデータセットの実験結果は,提案手法の利点を他の方法と比較して確認する。

The support vector data description (SVDD) approach serves as a de facto standard for one-class classification where the learning task entails inferring the smallest hyper-sphere to enclose target objects while linearly penalising any errors/slacks via an $\ell_1$-norm penalty term. In this study, we generalise this modelling formalism to a general $\ell_p$-norm ($p\geq1$) slack penalty function. By virtue of an $\ell_p$ slack norm, the proposed approach enables formulating a non-linear cost function with respect to slacks. From a dual problem perspective, the proposed method introduces a sparsity-inducing dual norm into the objective function, and thus, possesses a higher capacity to tune into the inherent sparsity of the problem for enhanced descriptive capability. A theoretical analysis based on Rademacher complexities characterises the generalisation performance of the proposed approach in terms of parameter $p$ while the experimental results on several datasets confirm the merits of the proposed method compared to other alternatives.
翻訳日:2022-03-19 07:15:13 公開日:2022-03-16
# (参考訳) BPE対モルフォロジーセグメンテーション:4つの合成言語の機械翻訳を事例として [全文訳有]

BPE vs. Morphological Segmentation: A Case Study on Machine Translation of Four Polysynthetic Languages ( http://arxiv.org/abs/2203.08954v1 )

ライセンス: CC BY 4.0
Manuel Mager and Arturo Oncevay and Elisabeth Mager and Katharina Kann and Ngoc Thang Vu(参考訳) モルフォロジーに富んだ多義語は、データ空間性に起因するNLPシステムの課題であり、この問題に対処するための一般的な戦略は、サブワードセグメンテーションを適用することである。 本研究では,nahuatl,raramuri,sh ipibo-konibo,wixarik aの4つの多合成言語について,教師なし・教師なし形態素セグメンテーション法について検討した。 次に,スペイン語への翻訳における機械翻訳(MT)の入力として,BPE(Byte-Pair Encodings)に対する形態的にインスパイアされたセグメンテーション手法を比較した。 教師なし形態素分割アルゴリズムは,Nahuatlを除くすべての言語対において,BPEよりも一貫して優れており,教師付き手法ではより優れたセグメンテーションスコアが得られるが,MT課題では低性能であることを示す。 最後に,raramuriとshipibo-koniboの2つの新しい形態素セグメンテーションデータセットと,raramuri- spanishの並列コーパスを提案する。

Morphologically-rich polysynthetic languages present a challenge for NLP systems due to data sparsity, and a common strategy to handle this issue is to apply subword segmentation. We investigate a wide variety of supervised and unsupervised morphological segmentation methods for four polysynthetic languages: Nahuatl, Raramuri, Shipibo-Konibo, and Wixarika. Then, we compare the morphologically inspired segmentation methods against Byte-Pair Encodings (BPEs) as inputs for machine translation (MT) when translating to and from Spanish. We show that for all language pairs except for Nahuatl, an unsupervised morphological segmentation algorithm outperforms BPEs consistently and that, although supervised methods achieve better segmentation scores, they under-perform in MT challenges. Finally, we contribute two new morphological segmentation datasets for Raramuri and Shipibo-Konibo, and a parallel corpus for Raramuri--Spanish.
翻訳日:2022-03-19 07:13:55 公開日:2022-03-16
# (参考訳) オンライン凸ゲームにおけるリスク回避no-regret学習 [全文訳有]

Risk-Averse No-Regret Learning in Online Convex Games ( http://arxiv.org/abs/2203.08957v1 )

ライセンス: CC BY 4.0
Zifan Wang, Yi Shen, Michael M. Zavlanos(参考訳) リスク回避エージェントによるオンライン確率ゲームについて検討し,高いコストを発生させるリスクを最小限に抑える最適な意思決定を目標とする。 具体的には,リスクに対する条件付値(CVaR)を用いて,エージェントが選択した行動のコスト値の形で,帯域フィードバックを用いて見積もることができるようにした。 コスト関数の分布は一般に観測不可能なすべてのエージェントの作用に依存するため、それ自体は未知であるため、コストのCVaR値は計算が困難である。 この課題に対処するために,コスト関数を適切にサンプリングして推定したCVaR値を用いて計算したCVaR勾配の一点ゼロ次推定に依存する新しいオンラインリスク逆学習アルゴリズムを提案する。 このアルゴリズムが高確率で線形後悔を実現することを示す。 また,このアルゴリズムの性能を向上させる2つの変種を提案する。 最初のバリエーションは、CVaR値の推定精度を改善するために、以前のイテレーションからのサンプルを使用する新しいサンプリング戦略に依存している。 第2の変種は、CVaR勾配推定のばらつきを低減するために、前回の繰り返しからCVaR値を使用する残差フィードバックを用いる。 理論上,これらの変形の収束特性を解析し,クールノーゲームとしてモデル化したオンライン市場問題に対してその性能を示す。

We consider an online stochastic game with risk-averse agents whose goal is to learn optimal decisions that minimize the risk of incurring significantly high costs. Specifically, we use the Conditional Value at Risk (CVaR) as a risk measure that the agents can estimate using bandit feedback in the form of the cost values of only their selected actions. Since the distributions of the cost functions depend on the actions of all agents that are generally unobservable, they are themselves unknown and, therefore, the CVaR values of the costs are difficult to compute. To address this challenge, we propose a new online risk-averse learning algorithm that relies on one-point zeroth-order estimation of the CVaR gradients computed using CVaR values that are estimated by appropriately sampling the cost functions. We show that this algorithm achieves sub-linear regret with high probability. We also propose two variants of this algorithm that improve performance. The first variant relies on a new sampling strategy that uses samples from the previous iteration to improve the estimation accuracy of the CVaR values. The second variant employs residual feedback that uses CVaR values from the previous iteration to reduce the variance of the CVaR gradient estimates. We theoretically analyze the convergence properties of these variants and illustrate their performance on an online market problem that we model as a Cournot game.
翻訳日:2022-03-19 07:02:25 公開日:2022-03-16
# (参考訳) 話者情報により誘導的バイアスを改善するモデル:コードスイッチング予測のケーススタディ [全文訳有]

Speaker Information Can Guide Models to Better Inductive Biases: A Case Study On Predicting Code-Switching ( http://arxiv.org/abs/2203.08979v1 )

ライセンス: CC BY 4.0
Alissa Ostapenko, Shuly Wintner, Melinda Fricke, Yulia Tsvetkov(参考訳) 人によって生成されたデータでトレーニングされた自然言語処理(nlp)モデルは、制約なく、タスクとは無関係な散発的な相関から学ぶことができるため、信頼できない可能性がある。 コントロールされた教育を受けた方法で話者情報を持つモデルを豊かにすることで、関連する帰納的バイアスに対処できると仮定する。 英語とスペイン語のバイリンガル対話におけるコードスイッチングポイントを予測するための話者主導タスクにおいて,事前のプロンプトとして社会言語学的に接地した話者機能を加えることで,精度が著しく向上することを示す。 入力に影響力のあるフレーズを追加することで、話者インフォームドモデルは有用で説明可能な言語情報を学ぶことができる。 私たちの知る限りでは、コード切り換えのためのニューラルモデルに最初に話者特性を取り入れ、より一般的には、話者情報を制御された方法で使用する透明でパーソナライズされたモデルを開発するための一歩を踏み出します。

Natural language processing (NLP) models trained on people-generated data can be unreliable because, without any constraints, they can learn from spurious correlations that are not relevant to the task. We hypothesize that enriching models with speaker information in a controlled, educated way can guide them to pick up on relevant inductive biases. For the speaker-driven task of predicting code-switching points in English--Spanish bilingual dialogues, we show that adding sociolinguistically- grounded speaker features as prepended prompts significantly improves accuracy. We find that by adding influential phrases to the input, speaker-informed models learn useful and explainable linguistic information. To our knowledge, we are the first to incorporate speaker characteristics in a neural model for code-switching, and more generally, take a step towards developing transparent, personalized models that use speaker information in a controlled way.
翻訳日:2022-03-19 06:33:12 公開日:2022-03-16
# (参考訳) adalogn:推論に基づく機械読解のための適応論理グラフネットワーク [全文訳有]

AdaLoGN: Adaptive Logic Graph Network for Reasoning-Based Machine Reading Comprehension ( http://arxiv.org/abs/2203.08992v1 )

ライセンス: CC BY 4.0
Xiao Li, Gong Cheng, Ziheng Chen, Yawei Sun, Yuzhong Qu(参考訳) ReClorやLogiQAといった最近の機械学習の理解データセットは、テキストよりも論理的推論を必要とする。 従来のニューラルモデルは論理的推論には不十分であり、シンボリック推論は直接テキストに適用できない。 この課題に対処するため,我々は,回答を予測するために,テキスト単位間の論理的関係を表すグラフにメッセージを渡す,ニューラルシンボリックなアプローチを提案する。 適応論理グラフネットワーク(AdaLoGN)は、適応的に論理関係を推論してグラフを拡張し、本質的には、ニューラルネットワークと記号的推論の相互および反復的な強化を実現する。 また,複数の質問に回答するためのコンテキスト-オプション間相互作用を強化するために,新しいサブグラフ-ノード間メッセージパッシング機構を実装した。 我々のアプローチは、ReClorとLogiQAで有望な結果を示す。

Recent machine reading comprehension datasets such as ReClor and LogiQA require performing logical reasoning over text. Conventional neural models are insufficient for logical reasoning, while symbolic reasoners cannot directly apply to text. To meet the challenge, we present a neural-symbolic approach which, to predict an answer, passes messages over a graph representing logical relations between text units. It incorporates an adaptive logic graph network (AdaLoGN) which adaptively infers logical relations to extend the graph and, essentially, realizes mutual and iterative reinforcement between neural and symbolic reasoning. We also implement a novel subgraph-to-node message passing mechanism to enhance context-option interaction for answering multiple-choice questions. Our approach shows promising results on ReClor and LogiQA.
翻訳日:2022-03-19 06:14:28 公開日:2022-03-16
# 医用画像セグメンテーションのためのCapsNet

CapsNet for Medical Image Segmentation ( http://arxiv.org/abs/2203.08948v1 )

ライセンス: Link先を確認
Minh Tran, Viet-Khoa Vo-Ho, Kyle Quinn, Hien Nguyen, Khoa Luu, and Ngan Le(参考訳) 畳み込みニューラルネットワーク(cnns)は、非構造化データから特徴を自動的に抽出する能力があるため、医用画像分割を含むコンピュータビジョンの課題の解決に成功している。 しかし、cnnは回転とアフィン変換に敏感であり、その成功は様々な入力変動をキャプチャする巨大なラベル付きデータセットに依存している。 このネットワークパラダイムは、医療セグメンテーションのための注釈付きデータの取得が高価で、厳格なプライバシー規制があるため、大規模に問題を引き起こしている。 さらに、CNNによる視覚表現学習には独自の欠点があり、例えば、従来のCNNのプーリング層は位置情報を捨てる傾向があり、CNNは方向や大きさが異なる入力画像で失敗する傾向にある。 カプセルネットワーク(capsnet)は、プール層を動的ルーティングと畳み込みステップに置き換えることで、表現学習の堅牢性が向上した最近の新しいアーキテクチャであり、分類、認識、セグメンテーション、自然言語処理などの一般的なタスクで潜在的な結果を示している。 スカラー出力をもたらすCNNとは異なり、CapsNetは部分全体の関係を保存するためにベクター出力を返す。 本稿ではまず,CNNの制限とCapsNetの基本について紹介する。 次に,医療画像セグメンテーションのためのCapsNetの最近の開発について述べる。 最終的に2次元画像と3次元ボリューム画像のセグメンテーションのためのCapsNetを実装するためのネットワークアーキテクチャについて論じる。

Convolutional Neural Networks (CNNs) have been successful in solving tasks in computer vision including medical image segmentation due to their ability to automatically extract features from unstructured data. However, CNNs are sensitive to rotation and affine transformation and their success relies on huge-scale labeled datasets capturing various input variations. This network paradigm has posed challenges at scale because acquiring annotated data for medical segmentation is expensive, and strict privacy regulations. Furthermore, visual representation learning with CNNs has its own flaws, e.g., it is arguable that the pooling layer in traditional CNNs tends to discard positional information and CNNs tend to fail on input images that differ in orientations and sizes. Capsule network (CapsNet) is a recent new architecture that has achieved better robustness in representation learning by replacing pooling layers with dynamic routing and convolutional strides, which has shown potential results on popular tasks such as classification, recognition, segmentation, and natural language processing. Different from CNNs, which result in scalar outputs, CapsNet returns vector outputs, which aim to preserve the part-whole relationships. In this work, we first introduce the limitations of CNNs and fundamentals of CapsNet. We then provide recent developments of CapsNet for the task of medical image segmentation. We finally discuss various effective network architectures to implement a CapsNet for both 2D images and 3D volumetric medical image segmentation.
翻訳日:2022-03-18 16:02:48 公開日:2022-03-16
# フラクタルLp脅威モデルに対する確率的対向ロバスト性

Provable Adversarial Robustness for Fractional Lp Threat Models ( http://arxiv.org/abs/2203.08945v1 )

ライセンス: Link先を確認
Alexander Levine, Soheil Feizi(参考訳) 近年,L_0,L_1,L_2,L_infin ity-norm境界対向攻撃など,様々な脅威モデルにおける敵の堅牢性について研究が進められている。 しかし、L_p 距離 0<p<1) で定義される分数 L_p の「ノルム」(準ノルム)で束縛された攻撃はまだ十分に検討されていない。 証明可能な(認証された)ロバスト性を提供し、ImageNetにスケールし、量子化されたデータ(例えば、画像)に適用した場合に決定論的(高い確率ではなく)保証を与える。 分数L_pロバスト性に対する我々の手法は、任意の 0<p<1 に対して、L_p^p 計量に対して世界規模でリプシッツとなる表現的で深い分類器を構成する。 しかし、この方法はより一般的であり、成分の凹関数の和として定義される任意の計量に関してグローバルにリプシッツである分類器を構成できる。 私たちのアプローチは、l_1攻撃に対する証明可能な防御を提供するlevine and feizi (2021)という最近の研究に基づいている。 しかし,提案した保証は,(Levine と Feizi, 2021) を直接使用し,ノルム不等式を適用するという自明な解決法と比較して,極めて非空であることを示す。 コードはhttps://github.com/a levine0/fractionalLp Robustnessで入手できる。

In recent years, researchers have extensively studied adversarial robustness in a variety of threat models, including L_0, L_1, L_2, and L_infinity-norm bounded adversarial attacks. However, attacks bounded by fractional L_p "norms" (quasi-norms defined by the L_p distance with 0<p<1) have yet to be thoroughly considered. We proactively propose a defense with several desirable properties: it provides provable (certified) robustness, scales to ImageNet, and yields deterministic (rather than high-probability) certified guarantees when applied to quantized data (e.g., images). Our technique for fractional L_p robustness constructs expressive, deep classifiers that are globally Lipschitz with respect to the L_p^p metric, for any 0<p<1. However, our method is even more general: we can construct classifiers which are globally Lipschitz with respect to any metric defined as the sum of concave functions of components. Our approach builds on a recent work, Levine and Feizi (2021), which provides a provable defense against L_1 attacks. However, we demonstrate that our proposed guarantees are highly non-vacuous, compared to the trivial solution of using (Levine and Feizi, 2021) directly and applying norm inequalities. Code is available at https://github.com/a levine0/fractionalLp Robustness.
翻訳日:2022-03-18 15:55:02 公開日:2022-03-16
# コミュニケーションによるマルチエージェント強化学習に関する調査

A Survey of Multi-Agent Reinforcement Learning with Communication ( http://arxiv.org/abs/2203.08975v1 )

ライセンス: Link先を確認
Changxi Zhu, Mehdi Dastani, Shihan Wang(参考訳) コミュニケーションは、複数のエージェントの行動を調整する効果的なメカニズムである。 多エージェント強化学習の分野では、エージェントは全体的な学習性能を改善し、コミュニケーションによって目的を達成することができる。 さらに、エージェントは、すべてのエージェントまたは特定のエージェントグループ、および特定のチャネルを介して、さまざまな種類のメッセージを伝達することができる。 コミュニケーションを伴うMARLの研究機関(Comm-MARL)により、既存のComm-MARLシステムを識別・分類するための体系的かつ構造的なアプローチが欠如している。 本稿では,Commun-MARL分野における最近の研究を概観し,多エージェント強化学習システムの設計・開発におけるコミュニケーションの様々な側面について考察する。 これらの側面を念頭に、Comm-MARLシステムを解析、開発、比較できるいくつかの次元を提案する。

Communication is an effective mechanism for coordinating the behavior of multiple agents. In the field of multi-agent reinforcement learning, agents can improve the overall learning performance and achieve their objectives by communication. Moreover, agents can communicate various types of messages, either to all agents or to specific agent groups, and through specific channels. With the growing body of research work in MARL with communication (Comm-MARL), there is lack of a systematic and structural approach to distinguish and classify existing Comm-MARL systems. In this paper, we survey recent works in the Comm-MARL field and consider various aspects of communication that can play a role in the design and development of multi-agent reinforcement learning systems. With these aspects in mind, we propose several dimensions along which Comm-MARL systems can be analyzed, developed, and compared.
翻訳日:2022-03-18 15:54:36 公開日:2022-03-16
# 有限要素ネットワークを用いたスパース観測から物理系のダイナミクスを学ぶ

Learning the Dynamics of Physical Systems from Sparse Observations with Finite Element Networks ( http://arxiv.org/abs/2203.08852v1 )

ライセンス: Link先を確認
Marten Lienen, Stephan G\"unnemann(参考訳) 任意分布点における時空間予測の新しい手法を提案する。 観測された系が未知の偏微分方程式に従うと仮定すると、有限要素法によるデータのダイナミクスの連続時間モデルを得る。 得られたグラフニューラルネットワークは、空間領域のメッシュ化において、未知のダイナミクスが各セルに与える影響を推定する。 我々のモデルは、未知のPDEの形で仮定して事前知識を組み込むことができ、特定のプロセスを学ぶための構造的バイアスを引き起こす。 この機構により, 対流方程式からモデル輸送の変種を導出し, 海面温度およびガス流量予測における高分解能メッシュへの伝達性能の向上を, 時空間予測法の選択を表すベースラインモデルに対して示した。 定性的分析により、我々のモデルはデータダイナミクスを構成部品に切り離し、一意に解釈可能であることを示す。

We propose a new method for spatio-temporal forecasting on arbitrarily distributed points. Assuming that the observed system follows an unknown partial differential equation, we derive a continuous-time model for the dynamics of the data via the finite element method. The resulting graph neural network estimates the instantaneous effects of the unknown dynamics on each cell in a meshing of the spatial domain. Our model can incorporate prior knowledge via assumptions on the form of the unknown PDE, which induce a structural bias towards learning specific processes. Through this mechanism, we derive a transport variant of our model from the convection equation and show that it improves the transfer performance to higher-resolution meshes on sea surface temperature and gas flow forecasting against baseline models representing a selection of spatio-temporal forecasting methods. A qualitative analysis shows that our model disentangles the data dynamics into their constituent parts, which makes it uniquely interpretable.
翻訳日:2022-03-18 15:50:56 公開日:2022-03-16
# 時間と空間を通したバックプロパゲーション:マルチエージェント強化学習による数値手法の学習

Backpropagation through Time and Space: Learning Numerical Methods with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2203.08937v1 )

ライセンス: Link先を確認
Elliot Way, Dheeraj S.K. Kapilivai, Yiwei Fu, Lei Yu(参考訳) 本稿では,均質なマルチエージェント強化学習 (marl) において用いられる再帰的時空間ニューラルネットワークの学習法であるtime and space (bptts) を導入し,双曲的保存則の数値解法を学習する。 本稿では,偏微分方程式(pdes)に基づく数値スキームを強化学習(rl)における部分可観測マルコフゲーム(pomg)として扱う。 数値解法と同様に,エージェントは計算空間の各離散位置において効率的かつ一般化された学習を行う。 局所状態に作用して高次の空間的手法を学ぶためには、エージェントは与えられた時空間的位置での作用が状態の将来の進化にどのように影響するかを識別する必要がある。 この非定常性の顕在化はbpttsによって対処され、空間と時間の両方で勾配が流れることができる。 学習された数値ポリシーは、バーガーズ方程式とオイラー方程式という2つの設定のSOTA数値に匹敵し、他のシミュレーションセットとよく似たものである。

We introduce Backpropagation Through Time and Space (BPTTS), a method for training a recurrent spatio-temporal neural network, that is used in a homogeneous multi-agent reinforcement learning (MARL) setting to learn numerical methods for hyperbolic conservation laws. We treat the numerical schemes underlying partial differential equations (PDEs) as a Partially Observable Markov Game (POMG) in Reinforcement Learning (RL). Similar to numerical solvers, our agent acts at each discrete location of a computational space for efficient and generalizable learning. To learn higher-order spatial methods by acting on local states, the agent must discern how its actions at a given spatiotemporal location affect the future evolution of the state. The manifestation of this non-stationarity is addressed by BPTTS, which allows for the flow of gradients across both space and time. The learned numerical policies are comparable to the SOTA numerics in two settings, the Burgers' Equation and the Euler Equations, and generalize well to other simulation set-ups.
翻訳日:2022-03-18 15:50:41 公開日:2022-03-16
# 対立支援アライメント

Adversarial Support Alignment ( http://arxiv.org/abs/2203.08908v1 )

ライセンス: Link先を確認
Shangyuan Tong, Timur Garipov, Yang Zhang, Shiyu Chang, Tommi S. Jaakkola(参考訳) 分布の支持部を整列する問題について検討する。 分散アライメントに関する既存の作業と比較すると、サポートアライメントは適合する密度を必要としない。 我々は,サポート間のミスマッチを定量化するための分岐尺度として対称支持差を提案する。 選択判別器(例えば、ジェンセン=シャノン発散のために訓練された判別器)は、その一次元出力空間における支持差として支持差をマップできることを示す。 この結果, 本手法は, 識別器1d空間における対称性緩和された最適輸送コストを, 逆過程を通じて最小化することにより支援を整合させる。 さらに,本手法は,輸送の許容範囲を増大させることにより,既存のアライメント概念の限界とみなせることを示す。 ラベル分布の変化を伴う領域適応タスク間での手法を定量的に評価する。 実験の結果,提案手法は他のアライメントベースベースラインよりも頑健であることがわかった。

We study the problem of aligning the supports of distributions. Compared to the existing work on distribution alignment, support alignment does not require the densities to be matched. We propose symmetric support difference as a divergence measure to quantify the mismatch between supports. We show that select discriminators (e.g. discriminator trained for Jensen-Shannon divergence) are able to map support differences as support differences in their one-dimensional output space. Following this result, our method aligns supports by minimizing a symmetrized relaxed optimal transport cost in the discriminator 1D space via an adversarial process. Furthermore, we show that our approach can be viewed as a limit of existing notions of alignment by increasing transportation assignment tolerance. We quantitatively evaluate the method across domain adaptation tasks with shifts in label distributions. Our experiments show that the proposed method is more robust against these shifts than other alignment-based baselines.
翻訳日:2022-03-18 15:19:53 公開日:2022-03-16
# オフラインRLの潜在変数アドバンテージ重み付けポリシ最適化

Latent-Variable Advantage-Weighted Policy Optimization for Offline RL ( http://arxiv.org/abs/2203.08949v1 )

ライセンス: Link先を確認
Xi Chen, Ali Ghadirzadeh, Tianhe Yu, Yuan Gao, Jianhao Wang, Wenzhe Li, Bin Liang, Chelsea Finn and Chongjie Zhang(参考訳) オフライン強化学習手法は、新しい移行を環境に問い合わせる必要なしに、事前コンパイルされたデータセットからの学習ポリシーを約束する。 この設定は、試行錯誤に基づくオンラインデータ収集が高価で潜在的に安全であるような、連続制御ロボットアプリケーションに適している。 実際には、オフラインデータセットは、しばしば異種である。例えば、複数の人間のデモンストレータのデータや、異なる目的に作用するポリシーなど、さまざまなシナリオで収集される。 残念ながら、このようなデータセットは、データの基礎となる行動ポリシーと学習すべき最適なポリシーの間の分散シフトを悪化させ、パフォーマンスが低下する可能性がある。 この課題に対処するために,我々は,幅広い種類の政策分布を表現できる潜在変数ポリシーを活用し,潜在変数に対するポリシーによる報酬を最大化しつつ,トレーニングデータ分布への適合性を高めることを提案する。 シミュレーションされた移動、ナビゲーション、操作タスクについて実証的に示すように、当社の手法は、潜在変数利権重み付けポリシー最適化(LAPO)と呼ばれ、異種データセット上での次の最高のオフライン強化学習手法の平均性能を49%改善し、狭く偏りのあるデータセットでは8%向上させる。

Offline reinforcement learning methods hold the promise of learning policies from pre-collected datasets without the need to query the environment for new transitions. This setting is particularly well-suited for continuous control robotic applications for which online data collection based on trial-and-error is costly and potentially unsafe. In practice, offline datasets are often heterogeneous, i.e., collected in a variety of scenarios, such as data from several human demonstrators or from policies that act with different purposes. Unfortunately, such datasets can exacerbate the distribution shift between the behavior policy underlying the data and the optimal policy to be learned, leading to poor performance. To address this challenge, we propose to leverage latent-variable policies that can represent a broader class of policy distributions, leading to better adherence to the training data distribution while maximizing reward via a policy over the latent variable. As we empirically show on a range of simulated locomotion, navigation, and manipulation tasks, our method referred to as latent-variable advantage-weighted policy optimization (LAPO), improves the average performance of the next best-performing offline reinforcement learning methods by 49% on heterogeneous datasets, and by 8% on datasets with narrow and biased distributions.
翻訳日:2022-03-18 15:19:37 公開日:2022-03-16
# 区間境界伝搬を用いた認定ロバストトレーニングの収束について

On the Convergence of Certified Robust Training with Interval Bound Propagation ( http://arxiv.org/abs/2203.08961v1 )

ライセンス: Link先を確認
Yihan Wang, Zhouxing Shi, Quanquan Gu, Cho-Jui Hsieh(参考訳) IBP(Interval Bound Propagation)は、既存の文献では未定ながら、潜在的対向摂動が存在する場合の堅牢性を保証するニューラルネットワークをトレーニングするための最先端の手法の基盤となっている。 本稿では,ipp訓練の収束に関する理論的解析について述べる。 過パラメータの仮定により, ibpロバストトレーニングの収束を解析した。 ibpトレーニングを用いてロジスティック損失を持つランダム初期化された2層reluニューラルネットワークをトレーニングすると、十分に小さい摂動半径と大きなネットワーク幅を持つ場合、勾配降下はゼロロバストなトレーニングエラーに線形収束する可能性がある。

Interval Bound Propagation (IBP) is so far the base of state-of-the-art methods for training neural networks with certifiable robustness guarantees when potential adversarial perturbations present, while the convergence of IBP training remains unknown in existing literature. In this paper, we present a theoretical analysis on the convergence of IBP training. With an overparameterized assumption, we analyze the convergence of IBP robust training. We show that when using IBP training to train a randomly initialized two-layer ReLU neural network with logistic loss, gradient descent can linearly converge to zero robust training error with a high probability if we have sufficiently small perturbation radius and large network width.
翻訳日:2022-03-18 15:19:16 公開日:2022-03-16
# オープンソース実装による内視鏡映像のリアルタイム領域追跡アルゴリズム

A Real-Time Region Tracking Algorithm Tailored to Endoscopic Video with Open-Source Implementation ( http://arxiv.org/abs/2203.08858v1 )

ライセンス: Link先を確認
Jonathan P. Epperlein, Sergiy Zhuk(参考訳) 蛍光トレーサの投与中に取得したマルチスペクトルビデオのようなビデオデータソースでは、時間分解されたデータの抽出は通常、動きの補償を必要とする。 これは手作業で行えますが、これは大変な作業ですし、あるいは既製のオブジェクトトラッキングソフトウェアを使っており、しばしば不十分なパフォーマンスをもたらしますが、単純でパフォーマンスのよいアルゴリズムを示します。 最も重要なことは、研究者が独自のコードを書く傾向のない使いやすいインターフェースを備えたオープンソース実装と、プログラムで使用できるPythonモジュールを提供しています。

With a video data source, such as multispectral video acquired during administration of fluorescent tracers, extraction of time-resolved data typically requires the compensation of motion. While this can be done manually, which is arduous, or using off-the-shelf object tracking software, which often yields unsatisfactory performance, we present an algorithm which is simple and performant. Most importantly, we provide an open-source implementation, with an easy-to-use interface for researchers not inclined to write their own code, as well as Python modules that can be used programmatically.
翻訳日:2022-03-18 15:16:23 公開日:2022-03-16
# 意味セグメンテーションを考慮した双曲的不確かさ

Hyperbolic Uncertainty Aware Semantic Segmentation ( http://arxiv.org/abs/2203.08881v1 )

ライセンス: Link先を確認
Bike Chen, Wei Peng, Xiaofeng Cao, Juha R\"oning(参考訳) セマンティックセグメンテーション(ss)は、各ピクセルを事前定義されたクラスに分類することを目的としている。 このタスクは、自動運転車と自律ドローンにおいて重要な役割を果たす。 SSでは、多くの研究が、ほとんどの誤分類されたピクセルは、一般に高い不確実性を持つ対象境界付近にあることを示した。 しかし、既存のss損失関数は、トレーニング中にこれらの不確定な画素を処理するために調整されていない。なぜなら、これらの画素は通常、自信を持って分類された画素として扱われ、ユークリッド空間に任意の低歪みを組み込むことはできないため、ssの性能が低下するからだ。 そこで本稿では,ハイパーボリック空間におけるハイパーボリック不確かさ損失(HyperUL)を動的に強調する「ハイパーボリック不確かさ損失(Hyperbolic Uncertainty Loss)」を設計する。 提案したHyperULはモデル非依存であり、様々なニューラルネットワークアーキテクチャに容易に適用できる。 最近の3つのSSモデルにHyperULを使用した結果、CityscapesとUAVidデータセットの実験結果から、既存のSSモデルのセグメンテーション性能が一貫して改善できることが判明した。

Semantic segmentation (SS) aims to classify each pixel into one of the pre-defined classes. This task plays an important role in self-driving cars and autonomous drones. In SS, many works have shown that most misclassified pixels are commonly near object boundaries with high uncertainties. However, existing SS loss functions are not tailored to handle these uncertain pixels during training, as these pixels are usually treated equally as confidently classified pixels and cannot be embedded with arbitrary low distortion in Euclidean space, thereby degenerating the performance of SS. To overcome this problem, this paper designs a "Hyperbolic Uncertainty Loss" (HyperUL), which dynamically highlights the misclassified and high-uncertainty pixels in Hyperbolic space during training via the hyperbolic distances. The proposed HyperUL is model agnostic and can be easily applied to various neural architectures. After employing HyperUL to three recent SS models, the experimental results on Cityscapes and UAVid datasets reveal that the segmentation performance of existing SS models can be consistently improved.
翻訳日:2022-03-18 15:16:13 公開日:2022-03-16
# 推論駆動型スケジューリングの解説: EXPRES Framework

Explaining Preference-driven Schedules: the EXPRES Framework ( http://arxiv.org/abs/2203.08895v1 )

ライセンス: Link先を確認
Alberto Pozanco, Francesca Mosca, Parisa Zehtabi, Daniele Magazzeni, Sarit Kraus(参考訳) スケジューリングは、時間とともに分散している不足するリソースのセットをエージェントのセットに割り当てるタスクである。 これらの問題の制約された性質のため、全てのエージェントの好みを満たすことはしばしば実現不可能であり、その結果のスケジュールに満足していないエージェントもいる。 説明を提供することは、AIツールが生み出すソリューションに対する満足度と信頼を高めることが示されている。 しかし、複数のエージェントに影響され、影響するソリューションを説明することは特に困難である。 本稿では,与えられた選好が最適なスケジュールで満足できない理由を説明するためのEXPRESフレームワークを紹介する。 EXPRESフレームワークは: (i)混合整数線形計画モデルに基づく説明生成器は、不満足な嗜好を説明できる理由の最良のセットを見つけ出す。 (ii) 生成した説明を人間の解釈可能な説明に翻訳する説明パーサ。 シミュレーションにより,説明生成器を大規模インスタンスに効率的に拡張できることを示す。 最後に,j.p.morganにおけるユーザスタディを通して,労働スケジューリングシナリオを考慮した場合,従業員は人為的に生成した説明よりも人為的な説明を好むことを示した。

Scheduling is the task of assigning a set of scarce resources distributed over time to a set of agents, who typically have preferences about the assignments they would like to get. Due to the constrained nature of these problems, satisfying all agents' preferences is often infeasible, which might lead to some agents not being happy with the resulting schedule. Providing explanations has been shown to increase satisfaction and trust in solutions produced by AI tools. However, it is particularly challenging to explain solutions that are influenced by and impact on multiple agents. In this paper we introduce the EXPRES framework, which can explain why a given preference was unsatisfied in a given optimal schedule. The EXPRES framework consists of: (i) an explanation generator that, based on a Mixed-Integer Linear Programming model, finds the best set of reasons that can explain an unsatisfied preference; and (ii) an explanation parser, which translates the generated explanations into human interpretable ones. Through simulations, we show that the explanation generator can efficiently scale to large instances. Finally, through a set of user studies within J.P. Morgan, we show that employees preferred the explanations generated by EXPRES over human-generated ones when considering workforce scheduling scenarios.
翻訳日:2022-03-18 14:45:45 公開日:2022-03-16
# 軽量画像超解像のためのハイブリッド画素非シャッフルネットワーク

Hybrid Pixel-Unshuffled Network for Lightweight Image Super-Resolution ( http://arxiv.org/abs/2203.08921v1 )

ライセンス: Link先を確認
Bin Sun, Yulun Zhang, Songyao Jiang, and Yun Fu(参考訳) 畳み込みニューラルネットワーク(cnn)は、画像スーパーレゾリューション(sr)で大きな成功を収めている。 しかし、cnnベースのほとんどのsrモデルは、高い性能を得るために大規模な計算を必要とする。 マルチレゾリューション・フュージョンのためのダウンサンプリング機能は、視覚認識の性能を向上させる効率的かつ効果的な方法である。 それでも、高解像度に低解像度の入力を投影する必要があるSRタスクでは直感に反する。 本稿では,SRタスクに効率的かつ効果的なダウンサンプリングモジュールを導入することで,HPUN(Hybrid Pixel-Unshuffled Network)を提案する。 ネットワークには、ピクセルアンシャッフルダウンサンプリングとセルフレゾルデプスワイド分離コンボリューションが含まれている。 具体的には,画素アンシャッフル操作を用いて入力特徴のサンプル化を行い,グループ化畳み込みを用いてチャネルを縮小する。 さらに,入力特徴を出力に付加することにより,深部畳み込み性能を向上させる。 ベンチマークデータセットを用いた実験により,HPUNはパラメータや計算コストを少なくして,最先端の再構築性能を達成し,達成していることがわかった。

Convolutional neural network (CNN) has achieved great success on image super-resolution (SR). However, most deep CNN-based SR models take massive computations to obtain high performance. Downsampling features for multi-resolution fusion is an efficient and effective way to improve the performance of visual recognition. Still, it is counter-intuitive in the SR task, which needs to project a low-resolution input to high-resolution. In this paper, we propose a novel Hybrid Pixel-Unshuffled Network (HPUN) by introducing an efficient and effective downsampling module into the SR task. The network contains pixel-unshuffled downsampling and Self-Residual Depthwise Separable Convolutions. Specifically, we utilize pixel-unshuffle operation to downsample the input features and use grouped convolution to reduce the channels. Besides, we enhance the depthwise convolution's performance by adding the input feature to its output. Experiments on benchmark datasets show that our HPUN achieves and surpasses the state-of-the-art reconstruction performance with fewer parameters and computation costs.
翻訳日:2022-03-18 14:45:23 公開日:2022-03-16
# 超解像の真の詳細復元に向けて:ベンチマークと品質指標

Towards True Detail Restoration for Super-Resolution: A Benchmark and a Quality Metric ( http://arxiv.org/abs/2203.08923v1 )

ライセンス: Link先を確認
Eugene Lyapustin, Anastasia Kirillova, Viacheslav Meshchaninov, Evgeney Zimin, Nikolai Karetin, Dmitriy Vatolin(参考訳) 超解像(SR)は近年広く研究されているトピックである。 SR法は、全体的な画像と映像の品質を改善し、さらなるコンテンツ分析のための新たな可能性を生み出す。 しかし、SRの主流は、コンテキスト精度が低下する可能性があるにもかかわらず、結果の画像の自然性を高めることに集中している。 このような方法では、不正確な数字、文字、顔、その他の構造オブジェクトを生成できるが、それ以外は視覚的品質が良い。 不正確な詳細復元は、手動と自動の両方でオブジェクトを検出し識別する際にエラーを引き起こす可能性がある。 画像とビデオのSRモデルの詳細復元能力を解析するために,SRモデルが正しく復元できない複雑なパターンを含む,我々のビデオデータセットに基づくベンチマークを開発した。 ベンチマークを用いて最近のsrモデルを32モデル評価し,シーンコンテキスト保存能力の比較を行った。 また,復元された詳細をクラウドソースで比較し,本課題における主観的スコアとの相関により,他の品質指標を上回る客観的評価指標を開発した。 結論として,srに基づく今後の作業に対する洞察を与えるベンチマーク結果の深い分析を行う。

Super-resolution (SR) has become a widely researched topic in recent years. SR methods can improve overall image and video quality and create new possibilities for further content analysis. But the SR mainstream focuses primarily on increasing the naturalness of the resulting image despite potentially losing context accuracy. Such methods may produce an incorrect digit, character, face, or other structural object even though they otherwise yield good visual quality. Incorrect detail restoration can cause errors when detecting and identifying objects both manually and automatically. To analyze the detail-restoration capabilities of image and video SR models, we developed a benchmark based on our own video dataset, which contains complex patterns that SR models generally fail to correctly restore. We assessed 32 recent SR models using our benchmark and compared their ability to preserve scene context. We also conducted a crowd-sourced comparison of restored details and developed an objective assessment metric that outperforms other quality metrics by correlation with subjective scores for this task. In conclusion, we provide a deep analysis of benchmark results that yields insights for future SR-based work.
翻訳日:2022-03-18 14:43:12 公開日:2022-03-16
# ABN:時間行動提案生成のためのエージェント対応境界ネットワーク

ABN: Agent-Aware Boundary Networks for Temporal Action Proposal Generation ( http://arxiv.org/abs/2203.08942v1 )

ライセンス: Link先を確認
Khoa Vo, Kashu Yamazaki, Sang Truong, Minh-Triet Tran, Akihiro Sugimoto, Ngan Le(参考訳) テンポラリアクションプロポーザル生成(tapg)は、未トリミングビデオにおけるアクションの時間間隔を推定することを目的としているが、ビデオ解析や理解の多くのタスクにおいて重要な役割を果たす。 TAPGにおける大きな成果にもかかわらず、既存の作品の多くは、未編集のビデオに深層学習モデルをブラックボックスとして適用することで、エージェントと周辺環境との相互作用に対する人間の認識を無視している。 したがって,エージェントと環境との相互作用を捉えることができれば,TAPGの性能が向上する可能性がある。 本稿では,2つのサブネットワークからなるエージェント・アウェア・バウンダリネットワーク(abn)という新しいフレームワークを提案する。 一 映像表現におけるエージェントエージェント・エージェント・エージェント・環境関係を得るためのエージェント・アウェア表示ネットワーク (ii)時間間隔の信頼度スコアを推定する境界生成ネットワーク。 エージェント・アウェア表現ネットワークにおいて、エージェント間の相互作用は、エージェントの動作に焦点をあてて局所レベルで作用する局所的経路を介して表現され、周囲の全体的知覚は、エージェント環境の影響を知覚するためにグローバルレベルで作用するグローバル・パスを介して表現される。 異なるバックボーンネットワーク(C3D, SlowFast, Two-Stream)を持つ20アクションTHUMOS-14および200アクションActivityNet-1.3データセットの総合的な評価は, TAPG上の採用バックボーンネットワークに関係なく, 提案したABNが最先端の手法より優れていることを示す。 さらに,提案手法によって生成された提案を時間的行動検出(TAD)フレームワークに活用し,その検出性能を評価する。 ソースコードは、https://github.com/v hvkhoa/TAPG-AgentEnv Network.gitにある。

Temporal action proposal generation (TAPG) aims to estimate temporal intervals of actions in untrimmed videos, which is a challenging yet plays an important role in many tasks of video analysis and understanding. Despite the great achievement in TAPG, most existing works ignore the human perception of interaction between agents and the surrounding environment by applying a deep learning model as a black-box to the untrimmed videos to extract video visual representation. Therefore, it is beneficial and potentially improve the performance of TAPG if we can capture these interactions between agents and the environment. In this paper, we propose a novel framework named Agent-Aware Boundary Network (ABN), which consists of two sub-networks (i) an Agent-Aware Representation Network to obtain both agent-agent and agents-environment relationships in the video representation, and (ii) a Boundary Generation Network to estimate the confidence score of temporal intervals. In the Agent-Aware Representation Network, the interactions between agents are expressed through local pathway, which operates at a local level to focus on the motions of agents whereas the overall perception of the surroundings are expressed through global pathway, which operates at a global level to perceive the effects of agents-environment. Comprehensive evaluations on 20-action THUMOS-14 and 200-action ActivityNet-1.3 datasets with different backbone networks (i.e C3D, SlowFast and Two-Stream) show that our proposed ABN robustly outperforms state-of-the-art methods regardless of the employed backbone network on TAPG. We further examine the proposal quality by leveraging proposals generated by our method onto temporal action detection (TAD) frameworks and evaluate their detection performances. The source code can be found in this URL https://github.com/v hvkhoa/TAPG-AgentEnv Network.git.
翻訳日:2022-03-18 14:42:56 公開日:2022-03-16
# Point-Unet: ボリュームセグメンテーションのためのコンテキスト認識型ポイントベースニューラルネットワーク

Point-Unet: A Context-aware Point-based Neural Network for Volumetric Segmentation ( http://arxiv.org/abs/2203.08964v1 )

ライセンス: Link先を確認
Ngoc-Vuong Ho, Tan Nguyen, Gia-Han Diep, Ngan Le, Binh-Son Hua(参考訳) 近年, 深層学習を用いた医用画像解析が盛んに行われており, 医用画像セグメンテーションや兄弟姉妹, ボリューム画像セグメンテーションなど, 下流業務に優れた性能を発揮している。 特に、典型的なボリュームセグメンテーションネットワークは、ボリュームデータを個々のvoxel ‘slices’のスタックとして扱うvoxelグリッド表現に強く依存しており、学習者はvoxelグリッドを既存のイメージベースのセグメンテーションネットワークを3dドメインに拡張するのと同じくらい簡単にセグメンテーションすることができる。 しかしながら、voxelグリッド表現を使用するには、大きなメモリフットプリント、高価なテスト時間、ソリューションのスケーラビリティの制限が必要になる。 本稿では,3次元点雲を用いた深層学習の効率を体積区分に組み込んだ新しい手法であるpoint-unetを提案する。 私たちのキーとなるアイデアは、まず注意確率マップを学習してボリュームの関心領域を予測し、その後、ポイントベースニューラルネットワークを用いて分割されたスパーポイントクラウドにボリュームをサンプリングすることです。 brats18,brats19,brat s20といった小規模データセットと大規模データセットの両方を用いて,医療容積分割タスクの実験を行った。 異なるメトリクスに関する包括的なベンチマークによると、私たちのコンテキスト認識のPoint-Unetは、SOTAのボクセルベースのネットワークを、トレーニング中のメモリ使用量、テスト中の時間消費の両方で、しっかりと性能を上げている。 私たちのコードはhttps://github.com/v inairesearch/point-u netで利用可能です。

Medical image analysis using deep learning has recently been prevalent, showing great performance for various downstream tasks including medical image segmentation and its sibling, volumetric image segmentation. Particularly, a typical volumetric segmentation network strongly relies on a voxel grid representation which treats volumetric data as a stack of individual voxel `slices', which allows learning to segment a voxel grid to be as straightforward as extending existing image-based segmentation networks to the 3D domain. However, using a voxel grid representation requires a large memory footprint, expensive test-time and limiting the scalability of the solutions. In this paper, we propose Point-Unet, a novel method that incorporates the efficiency of deep learning with 3D point clouds into volumetric segmentation. Our key idea is to first predict the regions of interest in the volume by learning an attentional probability map, which is then used for sampling the volume into a sparse point cloud that is subsequently segmented using a point-based neural network. We have conducted the experiments on the medical volumetric segmentation task with both a small-scale dataset Pancreas and large-scale datasets BraTS18, BraTS19, and BraTS20 challenges. A comprehensive benchmark on different metrics has shown that our context-aware Point-Unet robustly outperforms the SOTA voxel-based networks at both accuracies, memory usage during training, and time consumption during testing. Our code is available at https://github.com/V inAIResearch/Point-U net.
翻訳日:2022-03-18 14:42:27 公開日:2022-03-16
# 比較スコアの融合による静脈攻撃データベースの広範囲な脅威解析と攻撃検出

Extensive Threat Analysis of Vein Attack Databases and Attack Detection by Fusion of Comparison Scores ( http://arxiv.org/abs/2203.08972v1 )

ライセンス: Link先を確認
Johannes Schuiki and Michael Linortner and Georg Wimmer and Andreas Uhl(参考訳) この10年で、指および手静脈バイオメトリクスの領域に対する提示攻撃検出に関する多くの大きな貢献がもたらされた。 これらの貢献の中で、プライベートであるか、研究コミュニティが公開しているさまざまな攻撃データベースを見つけることができる。 しかし、使用する攻撃サンプルが実際に現実的な静脈認識システムを欺く能力を持っているかどうかは必ずしも示されていない。 本研究は,3つの指静脈発作データベースと1つの私的背静脈発作データベースを含む,系統的な脅威評価を行う。 そのため、14の異なる静脈認識スキームが攻撃サンプルと対向し、不正に受け入れられた攻撃サンプルの割合をインポスタ攻撃提示マッチングレートとして報告する。 第2のステップとして、スコアレベル融合とプレゼンテーション攻撃検出の目標とを用いて、異なる認識方式による比較スコアを組み合わせる。

The last decade has brought forward many great contributions regarding presentation attack detection for the domain of finger and hand vein biometrics. Among those contributions, one is able to find a variety of different attack databases that are either private or made publicly available to the research community. However, it is not always shown whether the used attack samples hold the capability to actually deceive a realistic vein recognition system. Inspired by previous works, this study provides a systematic threat evaluation including three publicly available finger vein attack databases and one private dorsal hand vein database. To do so, 14 distinct vein recognition schemes are confronted with attack samples and the percentage of wrongly accepted attack samples is then reported as the Impostor Attack Presentation Match Rate. As a second step, comparison scores from different recognition schemes are combined using score level fusion with the goal of performing presentation attack detection.
翻訳日:2022-03-18 14:41:58 公開日:2022-03-16
# 人工知能の数学

The Mathematics of Artificial Intelligence ( http://arxiv.org/abs/2203.08890v1 )

ライセンス: Link先を確認
Gitta Kutyniok(参考訳) 私たちは現在、科学と公共の生活の両方で人工知能の素晴らしい成功を目撃しています。 しかし、厳密な数学的基礎の開発はまだ初期段階にある。 この調査記事は、2022年の国際数学会議(International Congress of Mathematicians)の招待講演に基づいており、人工知能の現在の「ワークホース」、すなわちディープニューラルネットワークに焦点を当てる。 いくつかの模範的な結果とともに、主要な理論的方向性を示し、主要な開問題について議論する。

We currently witness the spectacular success of artificial intelligence in both science and public life. However, the development of a rigorous mathematical foundation is still at an early stage. In this survey article, which is based on an invited lecture at the International Congress of Mathematicians 2022, we will in particular focus on the current "workhorse" of artificial intelligence, namely deep neural networks. We will present the main theoretical directions along with several exemplary results and discuss key open problems.
翻訳日:2022-03-18 14:11:21 公開日:2022-03-16
# SC2: スプリットコンピューティングのための最適化圧縮

SC2: Supervised Compression for Split Computing ( http://arxiv.org/abs/2203.08875v1 )

ライセンス: Link先を確認
Yoshitomo Matsubara, Ruihan Yang, Marco Levorato, Stephan Mandt(参考訳) スプリットコンピューティングは、モバイルデバイスとより強力なエッジサーバの間でニューラルネットワーク(例えば分類タスク)の実行を分散する。 ネットワークを分割する簡単な代替手段は、完全なデータを圧縮して送信しながら、監督されたタスクをエッジサーバ上で純粋に実行することである。 本稿では,モバイル端末からエッジサーバへ効率よく送信する中間機能アクティベーションの離散化とエントロピー符号化のための新しい手法を提案する。 効率的な分割可能なネットワークアーキテクチャは、3方向のトレードオフの結果であることを示す。 (a)モバイルデバイス上の計算を最小化すること。 (b)送信するデータのサイズを最小化すること。 (c)モデルの予測性能を最大化する。 本稿では,このトレードオフに基づくアーキテクチャを提案し,知識蒸留フレームワークにおいて分割可能ネットワークとエントロピーモデルを訓練する。 3つのビジョンタスク、3つのデータセット、9つのベースライン、180以上のトレーニングモデルを含む広範な実験において、我々は、かなり小さなエンコーダサイズを維持しながら、教師付きレート歪みトレードオフを改善した。 また、インストール可能なPythonパッケージである sc2bench をリリースし、スプリットコンピューティング(SC2)のための教師付き圧縮に関する将来の研究を奨励し、促進します。

Split computing distributes the execution of a neural network (e.g., for a classification task) between a mobile device and a more powerful edge server. A simple alternative to splitting the network is to carry out the supervised task purely on the edge server while compressing and transmitting the full data, and most approaches have barely outperformed this baseline. This paper proposes a new approach for discretizing and entropy-coding intermediate feature activations to efficiently transmit them from the mobile device to the edge server. We show that a efficient splittable network architecture results from a three-way tradeoff between (a) minimizing the computation on the mobile device, (b) minimizing the size of the data to be transmitted, and (c) maximizing the model's prediction performance. We propose an architecture based on this tradeoff and train the splittable network and entropy model in a knowledge distillation framework. In an extensive set of experiments involving three vision tasks, three datasets, nine baselines, and more than 180 trained models, we show that our approach improves supervised rate-distortion tradeoffs while maintaining a considerably smaller encoder size. We also release sc2bench, an installable Python package, to encourage and facilitate future studies on supervised compression for split computing (SC2).
翻訳日:2022-03-18 14:10:38 公開日:2022-03-16
# 医用画像におけるファウショット学習のためのNASのメタラーニング

Meta-Learning of NAS for Few-shot Learning in Medical Image Applications ( http://arxiv.org/abs/2203.08951v1 )

ライセンス: Link先を確認
Viet-Khoa Vo-Ho, Kashu Yamazaki, Hieu Hoang, Minh-Triet Tran, Ngan Le(参考訳) ディープラーニングの手法は、機械学習の課題の解決に成功しており、非構造化データから機能を自動的に抽出する能力によって、多くの分野においてブレークスルーを遂げている。 しかしながら、それらのパフォーマンスは、適切なネットワークアーキテクチャ、トレーニングのためのハイパーパラメータ、および前/後プロデューサを選択するための手動の試行錯誤プロセスに依存している。 ネットワークアーキテクチャは、データと最終的なパフォーマンスから特徴表現機能を学ぶ上で重要な役割を果たすことが示されているが、最良のネットワークアーキテクチャの探索は計算量が多く、研究者の経験に大きく依存している。 機械学習(AutoML)とその高度な技術であるニューラルアーキテクチャサーチ(NAS)は、これらの制限に対処するために推進されている。 一般的なコンピュータビジョンタスクだけでなく、NASは医療画像を含む様々な分野で様々な応用を動機付けてきた。 医用画像では、nasは画像分類、セグメンテーション、再構成などの精度向上に有意な進歩を遂げている。 しかし、NASは大量の注釈付きデータ、かなりの計算資源、事前定義されたタスクの可用性を必要とする。 このような制限に対処するため、メタ学習は、数ショットの学習と複数のタスクのシナリオで採用されている。 本章では,探索空間,探索戦略,評価戦略においてよく知られたアプローチについて議論し,NASについて概説する。 次に, 分類, 分節化, 検出, 再構成など様々な応用を用いて, 医療画像におけるnasアプローチについて紹介する。 少数の学習と複数のタスクのためのnasのメタラーニングが説明される。 最後に,NASにおけるいくつかの問題について述べる。

Deep learning methods have been successful in solving tasks in machine learning and have made breakthroughs in many sectors owing to their ability to automatically extract features from unstructured data. However, their performance relies on manual trial-and-error processes for selecting an appropriate network architecture, hyperparameters for training, and pre-/post-procedures . Even though it has been shown that network architecture plays a critical role in learning feature representation feature from data and the final performance, searching for the best network architecture is computationally intensive and heavily relies on researchers' experience. Automated machine learning (AutoML) and its advanced techniques i.e. Neural Architecture Search (NAS) have been promoted to address those limitations. Not only in general computer vision tasks, but NAS has also motivated various applications in multiple areas including medical imaging. In medical imaging, NAS has significant progress in improving the accuracy of image classification, segmentation, reconstruction, and more. However, NAS requires the availability of large annotated data, considerable computation resources, and pre-defined tasks. To address such limitations, meta-learning has been adopted in the scenarios of few-shot learning and multiple tasks. In this book chapter, we first present a brief review of NAS by discussing well-known approaches in search space, search strategy, and evaluation strategy. We then introduce various NAS approaches in medical imaging with different applications such as classification, segmentation, detection, reconstruction, etc. Meta-learning in NAS for few-shot learning and multiple tasks is then explained. Finally, we describe several open problems in NAS.
翻訳日:2022-03-18 14:10:17 公開日:2022-03-16
# 対人訓練における認知的解離緩和によるロバスト性

Robustness through Cognitive Dissociation Mitigation in Contrastive Adversarial Training ( http://arxiv.org/abs/2203.08959v1 )

ライセンス: Link先を確認
Adir Rahamim, Itay Naeh(参考訳) 本稿では,コントラスト学習 (cl) とコントラストトレーニング (at) を組み合わせることで,高いクリーンな精度を維持しつつ,敵の攻撃に対するモデルの敵の頑健性を高める新しいニューラルネットワークトレーニングフレームワークを提案する。 本研究では,データ拡張と逆摂動の両方において一貫した特徴表現を学習することにより,敵攻撃に対するモデルロバスト性を改善することを提案する。 また,データサンプルのランダムな拡張と,その逆の例との類似性を最大化しつつ,分類ヘッドと埋め込み空間との認知的解離を回避するために,常に分類ヘッドを更新しながら,比較学習を活用して,逆向きの頑健性を向上させる。 この解離は、CLがネットワークを埋め込み空間に更新し、新しい正の逆例を生成するために使用される分類ヘッドを凍結するという事実によって引き起こされる。 我々は,CIFAR-10データセットを用いて,代替教師付き・自己教師型対向学習法よりも頑健な精度とクリーンな精度を両立させる手法であるContrastive Learning with Adversarial Features(CLAF)を検証する。

In this paper, we introduce a novel neural network training framework that increases model's adversarial robustness to adversarial attacks while maintaining high clean accuracy by combining contrastive learning (CL) with adversarial training (AT). We propose to improve model robustness to adversarial attacks by learning feature representations that are consistent under both data augmentations and adversarial perturbations. We leverage contrastive learning to improve adversarial robustness by considering an adversarial example as another positive example, and aim to maximize the similarity between random augmentations of data samples and their adversarial example, while constantly updating the classification head in order to avoid a cognitive dissociation between the classification head and the embedding space. This dissociation is caused by the fact that CL updates the network up to the embedding space, while freezing the classification head which is used to generate new positive adversarial examples. We validate our method, Contrastive Learning with Adversarial Features(CLAF), on the CIFAR-10 dataset on which it outperforms both robust accuracy and clean accuracy over alternative supervised and self-supervised adversarial learning methods.
翻訳日:2022-03-18 14:09:52 公開日:2022-03-16
# 低リソース言語の形態素処理:我々はどこにいて、次に何があるのか

Morphological Processing of Low-Resource Languages: Where We Are and What's Next ( http://arxiv.org/abs/2203.08909v1 )

ライセンス: Link先を確認
Adam Wiemerslage and Miikka Silfverberg and Changbing Yang and Arya D. McCarthy and Garrett Nicolai and Eliana Colunga and Katharina Kann(参考訳) 自動形態素処理は下流の自然言語処理アプリケーション、特に低リソース言語を補助し、絶滅危惧言語のための言語文書作成を支援する。 長く多言語でありながら、計算形態学の分野は、最小あるいは無注釈のリソースを持つ言語に適したアプローチへと向かっている。 まず,低リソース言語に着目した計算形態学の最近の発展について調査する。 第二に、この分野は、言語の形態を生のテキストだけで理解する、論理的な次の課題に取り組む準備ができている、と論じる。 我々は、真に教師なしのパラダイム完了タスクについて実証的研究を行い、既存の最先端モデルが新たに提案した2つのモデルでブリッジされているにもかかわらず、改善の余地がまだたくさんあることを示した。 この課題を解決することで、形態素資源の言語カバレッジを数桁増やすことができます。

Automatic morphological processing can aid downstream natural language processing applications, especially for low-resource languages, and assist language documentation efforts for endangered languages. Having long been multilingual, the field of computational morphology is increasingly moving towards approaches suitable for languages with minimal or no annotated resources. First, we survey recent developments in computational morphology with a focus on low-resource languages. Second, we argue that the field is ready to tackle the logical next challenge: understanding a language's morphology from raw text alone. We perform an empirical study on a truly unsupervised version of the paradigm completion task and show that, while existing state-of-the-art models bridged by two newly proposed models we devise perform reasonably, there is still much room for improvement. The stakes are high: solving this task will increase the language coverage of morphological resources by a number of magnitudes.
翻訳日:2022-03-18 14:04:50 公開日:2022-03-16
# 質問応答のドメイン適応のための合成質問値推定

Synthetic Question Value Estimation for Domain Adaptation of Question Answering ( http://arxiv.org/abs/2203.08926v1 )

ライセンス: Link先を確認
Xiang Yue and Ziyu Yao and Huan Sun(参考訳) QAペアと質問生成器(QG)を対象領域に合成することは、質問応答モデル(QA)のドメイン適応のための一般的なアプローチとなっている。 合成質問は実際はノイズが多いため、既存の作業は、事前訓練されたQA(あるいはQG)モデルからのスコアを基準として、高品質な質問を選択する。 しかし、これらのスコアは、ターゲットドメインでのQAパフォーマンスを改善するという最終的な目標に直接役に立たない。 本稿では,対象領域のQA性能を改善するために,合成質問の有用性を直接推定する質問値推定器(QVE)をトレーニングする新しいアイデアを紹介する。 総合的な実験を行うことで,QVEが選択した合成質問は,既存の手法と比較して,目標領域のQA性能の向上に役立つことを示す。 さらに、対象ドメインのヒューマンアノテーションの約15%で、このような質問を使用することで、完全に監督されたベースラインと同等のパフォーマンスを達成できることも示します。

Synthesizing QA pairs with a question generator (QG) on the target domain has become a popular approach for domain adaptation of question answering (QA) models. Since synthetic questions are often noisy in practice, existing work adapts scores from a pretrained QA (or QG) model as criteria to select high-quality questions. However, these scores do not directly serve the ultimate goal of improving QA performance on the target domain. In this paper, we introduce a novel idea of training a question value estimator (QVE) that directly estimates the usefulness of synthetic questions for improving the target-domain QA performance. By conducting comprehensive experiments, we show that the synthetic questions selected by QVE can help achieve better target-domain QA performance, in comparison with existing techniques. We additionally show that by using such questions and only around 15% of the human annotations on the target domain, we can achieve comparable performance to the fully-supervised baselines.
翻訳日:2022-03-18 14:04:34 公開日:2022-03-16
# C-MORE:数百万の参考文献を照会してオープンドメインの質問に答える

C-MORE: Pretraining to Answer Open-Domain Questions by Consulting Millions of References ( http://arxiv.org/abs/2203.08928v1 )

ライセンス: Link先を確認
Xiang Yue, Xiaoman Pan, Wenlin Yao, Dian Yu, Dong Yu and Jianshu Chen(参考訳) 我々は、強い転送能力を持つ2段階のオープンドメイン質問応答(qa)システム(retriever + reader)を事前トレーニングする問題を考える。 重要な課題は、タスク固有のアノテーションを使わずに、高品質な質問応答コンテキスト三つ子をどのように構築するかである。 特に、トリプレットは下記のタスクとうまく連携するべきである。 (i)広い範囲のドメイン(オープンドメインアプリケーション)をカバーすること。 (ii)質問とその意味的に関連のある文脈と(レトリバーを訓練するために)裏付ける証拠を結びつけること (iii)(読者を訓練するために)文脈における正しい回答を特定すること。 以前の事前学習アプローチは、一般的にこれらの要件の1つまたは複数に満たない。 本研究では,ウィキペディアで引用される数百万の参照を参考に,3つの基準をすべて満たす大規模コーパスを自動構築する。 整列した事前学習信号は、レトリバーとリーダーの両方に有益である。 事前学習したリトリーバーは、20の精度で2%-10%の絶対ゲインを得る。 トレーニング済みの読者では、システム全体の正確なマッチが最大4%向上します。

We consider the problem of pretraining a two-stage open-domain question answering (QA) system (retriever + reader) with strong transfer capabilities. The key challenge is how to construct a large amount of high-quality question-answer-cont ext triplets without task-specific annotations. Specifically, the triplets should align well with downstream tasks by: (i) covering a wide range of domains (for open-domain applications), (ii) linking a question to its semantically relevant context with supporting evidence (for training the retriever), and (iii) identifying the correct answer in the context (for training the reader). Previous pretraining approaches generally fall short of one or more of these requirements. In this work, we automatically construct a large-scale corpus that meets all three criteria by consulting millions of references cited within Wikipedia. The well-aligned pretraining signals benefit both the retriever and the reader significantly. Our pretrained retriever leads to 2%-10% absolute gains in top-20 accuracy. And with our pretrained reader, the entire system improves by up to 4% in exact match.
翻訳日:2022-03-18 14:04:20 公開日:2022-03-16
# わずかなショット名付きエンティティ認識のためのラベルセマンティクス

Label Semantics for Few Shot Named Entity Recognition ( http://arxiv.org/abs/2203.08985v1 )

ライセンス: Link先を確認
Jie Ma, Miguel Ballesteros, Srikanth Doss, Rishita Anubhai, Sunil Mallya, Yaser Al-Onaizan, Dan Roth(参考訳) 名前付きエンティティ認識におけるショット学習の問題点について検討した。 具体的には,ラベル名に含まれる意味情報を,モデルに付加的な信号を与え,よりリッチな事前情報を与える方法として活用する。 我々は2つのbertエンコーダからなるニューラルネットワークを提案する。1つは文書とそのトークンをエンコードし、もう1つは各ラベルを自然言語形式でエンコードする。 本モデルは、第1エンコーダで計算された名前付きエンティティの表現と、第2エンコーダで計算されたラベル表現とのマッチングを学習する。 ラベルセマンティクス信号は、複数のショットNERベンチマークにおける最先端結果の改善と、標準ベンチマークにおけるオンパーパフォーマンスをサポートする。 私たちのモデルは特に低リソース設定で効果的です。

We study the problem of few shot learning for named entity recognition. Specifically, we leverage the semantic information in the names of the labels as a way of giving the model additional signal and enriched priors. We propose a neural architecture that consists of two BERT encoders, one to encode the document and its tokens and another one to encode each of the labels in natural language format. Our model learns to match the representations of named entities computed by the first encoder with label representations computed by the second encoder. The label semantics signal is shown to support improved state-of-the-art results in multiple few shot NER benchmarks and on-par performance in standard benchmarks. Our model is especially effective in low resource settings.
翻訳日:2022-03-18 14:04:08 公開日:2022-03-16
# AdapLeR: 適応長短縮による推論の高速化

AdapLeR: Speeding up Inference by Adaptive Length Reduction ( http://arxiv.org/abs/2203.08991v1 )

ライセンス: Link先を確認
Ali Modarressi, Hosein Mohebbi, Mohammad Taher Pilehvar(参考訳) 事前訓練された言語モデルは、様々な下流タスクで恒星の性能を示している。 しかし、これは通常、高いレイテンシと計算コストを伴い、リソース制限された設定での使用を妨げる。 本研究では,下流性能の低下を最小限に抑えながら,BERTの計算コストを削減する手法を提案する。 提案手法は,レイヤ間の寄与の少ないトークンを動的に除去し,より短い長さと計算コストを低減させる。 トークン表現の重要性を判定するために,勾配法を用いて各層に対する寄与予測器を訓練する。 様々な分類タスクに関する実験では、性能の犠牲を伴わずに、推論時間中に最大22倍のスピードアップを示す。 また,ERASERベンチマークにおける人間のアノテーションを用いて,選択したトークンの品質を検証した。 塩分や注意などの重要なトークンを選定するための他の広く使われる戦略と比較すると,提案手法は理論的根拠を生成する際の偽陽性率を有意に低下させる。 私たちのコードはhttps://github.com/a modaresi/AdapLeR で無償で利用可能です。

Pre-trained language models have shown stellar performance in various downstream tasks. But, this usually comes at the cost of high latency and computation, hindering their usage in resource-limited settings. In this work, we propose a novel approach for reducing the computational cost of BERT with minimal loss in downstream performance. Our method dynamically eliminates less contributing tokens through layers, resulting in shorter lengths and consequently lower computational cost. To determine the importance of each token representation, we train a Contribution Predictor for each layer using a gradient-based saliency method. Our experiments on several diverse classification tasks show speedups up to 22x during inference time without much sacrifice in performance. We also validate the quality of the selected tokens in our method using human annotations in the ERASER benchmark. In comparison to other widely used strategies for selecting important tokens, such as saliency and attention, our proposed method has a significantly lower false positive rate in generating rationales. Our code is freely available at https://github.com/a modaresi/AdapLeR .
翻訳日:2022-03-18 14:03:57 公開日:2022-03-16
# 3D-UCaps:ボリュームイメージセグメンテーションのための3DカプセルUnet

3D-UCaps: 3D Capsules Unet for Volumetric Image Segmentation ( http://arxiv.org/abs/2203.08965v1 )

ライセンス: Link先を確認
Tan Nguyen, Binh-Son Hua, Ngan Le(参考訳) 医用画像のセグメンテーションは、CNN(Convolutional Neural Networks)で有望な成果を上げてきた。 しかし、従来のcnnでは、そのプーリング層が位置などの重要な情報を破棄する傾向がある。 さらに、CNNは回転とアフィン変換に敏感である。 カプセルネットワークはデータ効率のよいネットワーク設計であり、プール層を動的ルーティングと畳み込みストライドに置き換えることでそのような制限を克服することを目的としている。 カプセルネットワークは画像認識と自然言語処理において優れた性能を示してきたが、医用画像セグメンテーション、特にボリューム画像セグメンテーションの応用は限られている。 本研究では,医療用ボリューム画像セグメンテーションのための3dボクセル型カプセルネットワークである3d-ucapsを提案する。 第1の経路は3次元カプセルブロックで符号化され、第2の経路は3次元CNNブロックで復号化される。 したがって、3D-UCapは両方のCapsuleネットワークの利点を継承し、空間的関係を保ち、CNNは視覚表現を学ぶ。 我々は,iseg-2017,luna16,海馬,心臓などの3d-ucapのロバスト性を示すために,各種データセットを用いた実験を行った。

Medical image segmentation has been so far achieving promising results with Convolutional Neural Networks (CNNs). However, it is arguable that in traditional CNNs, its pooling layer tends to discard important information such as positions. Moreover, CNNs are sensitive to rotation and affine transformation. Capsule network is a data-efficient network design proposed to overcome such limitations by replacing pooling layers with dynamic routing and convolutional strides, which aims to preserve the part-whole relationships. Capsule network has shown a great performance in image recognition and natural language processing, but applications for medical image segmentation, particularly volumetric image segmentation, has been limited. In this work, we propose 3D-UCaps, a 3D voxel-based Capsule network for medical volumetric image segmentation. We build the concept of capsules into a CNN by designing a network with two pathways: the first pathway is encoded by 3D Capsule blocks, whereas the second pathway is decoded by 3D CNNs blocks. 3D-UCaps, therefore inherits the merits from both Capsule network to preserve the spatial relationship and CNNs to learn visual representation. We conducted experiments on various datasets to demonstrate the robustness of 3D-UCaps including iSeg-2017, LUNA16, Hippocampus, and Cardiac, where our method outperforms previous Capsule networks and 3D-Unets.
翻訳日:2022-03-18 13:44:50 公開日:2022-03-16
# ニューラルネットワークを用いた暗黒物質ハロ密度プロファイルの構築ブロックの発見

Discovering the building blocks of dark matter halo density profiles with neural networks ( http://arxiv.org/abs/2203.08827v1 )

ライセンス: Link先を確認
Luisa Lucie-Smith, Hiranya V. Peiris, Andrew Pontzen, Brian Nord, Jeyan Thiyagalingam, Davide Piras(参考訳) ダークマターハロの密度プロファイルは、通常、緩和ハロの密度プロファイルに適合する経験式を用いてモデル化される。 本研究では,各ハロを含む原密度場からダークマター密度プロファイルへのマッピングを学習するためのニューラルネットワークモデルを提案する。 本モデルでは,広範に使用されているナバロ・フレンク・ホワイト(NFW)プロファイルをウイルス半径まで復元し,ハロス外面の変動を記述できることを示す。 ニューラルネットワークアーキテクチャは教師付きエンコーダ-デコーダフレームワークで構成されており、まず密度入力を低次元の潜在表現に圧縮し、次に任意の所望の値である半径$r$に対して$\rho(r)$を出力する。 潜在表現は、密度プロファイルを予測するためにモデルが使用する全ての情報を含んでいる。 これにより,表象とhalos' ground-truth density profile間の相互情報を定量化することにより,潜在表現を解釈することができる。 2次元の表現は、ヴィリアル半径までの密度プロファイルを正確にモデル化するのに十分であるが、3次元の表現はヴィリアル半径を超える外分布を記述するのに必要である。 表現の付加次元は、ダークマター・ハロースの外側のプロファイルに落下する物質に関する情報を含んでいるため、ハロースの力学履歴を事前に知ることなくハローのスプラッシュバック境界を発見することができる。

The density profiles of dark matter halos are typically modeled using empirical formulae fitted to the density profiles of relaxed halo populations. We present a neural network model that is trained to learn the mapping from the raw density field containing each halo to the dark matter density profile. We show that the model recovers the widely-used Navarro-Frenk-White (NFW) profile out to the virial radius, and can additionally describe the variability in the outer profile of the halos. The neural network architecture consists of a supervised encoder-decoder framework, which first compresses the density inputs into a low-dimensional latent representation, and then outputs $\rho(r)$ for any desired value of radius $r$. The latent representation contains all the information used by the model to predict the density profiles. This allows us to interpret the latent representation by quantifying the mutual information between the representation and the halos' ground-truth density profiles. A two-dimensional representation is sufficient to accurately model the density profiles up to the virial radius; however, a three-dimensional representation is required to describe the outer profiles beyond the virial radius. The additional dimension in the representation contains information about the infalling material in the outer profiles of dark matter halos, thus discovering the splashback boundary of halos without prior knowledge of the halos' dynamical history.
翻訳日:2022-03-18 13:41:23 公開日:2022-03-16
# 分類器の校正評価における適合度評価の有用性について

On the Usefulness of the Fit-on-the-Test View on Evaluating Calibration of Classifiers ( http://arxiv.org/abs/2203.08958v1 )

ライセンス: Link先を確認
Markus K\"angsepp, Kaspar Valk, Meelis Kull(参考訳) すべてのuncalibrated分類器は、その信頼度を規定する真のキャリブレーションマップを持っている。 アイデンティティマップからのこの理想主義写像の逸脱は、誤校正を明らかにする。 このようなキャリブレーション誤差は、バリデーションデータセット上のある種のキャリブレーションマップに適合する多くのポストホックキャリブレーション法によって低減することができる。 対照的に、テストセット上のキャリブレーション誤差(ECE)によるキャリブレーションの評価は、明示的には適用しない。 しかしながら、私たちが実証したように、ECEはテストデータに関数のファミリーを適合させるかのように見ることができます。 第一に、テストデータ上のキャリブレーションマップを近似し、第二に、アイデンティティからの距離を定量化する。 この考え方を活用すれば,(1)キャリブレーションの評価にポストホックキャリブレーション法を多用する,(2)ece内のビンの数をクロスバリデーションで調整するといった,逃避する機会を解放できる。 さらに,(3)真のキャリブレーションマップを正確に推定できる擬似実データに対するベンチマーク,(4)新しいキャリブレーションマップファミリーPLとPL3を用いた新しいキャリブレーションと評価手法を提案する。

Every uncalibrated classifier has a corresponding true calibration map that calibrates its confidence. Deviations of this idealistic map from the identity map reveal miscalibration. Such calibration errors can be reduced with many post-hoc calibration methods which fit some family of calibration maps on a validation dataset. In contrast, evaluation of calibration with the expected calibration error (ECE) on the test set does not explicitly involve fitting. However, as we demonstrate, ECE can still be viewed as if fitting a family of functions on the test data. This motivates the fit-on-the-test view on evaluation: first, approximate a calibration map on the test data, and second, quantify its distance from the identity. Exploiting this view allows us to unlock missed opportunities: (1) use the plethora of post-hoc calibration methods for evaluating calibration; (2) tune the number of bins in ECE with cross-validation. Furthermore, we introduce: (3) benchmarking on pseudo-real data where the true calibration map can be estimated very precisely; and (4) novel calibration and evaluation methods using new calibration map families PL and PL3.
翻訳日:2022-03-18 13:16:02 公開日:2022-03-16
# 確率的ブール論理に対する適応n-ary Activation関数

Adaptive n-ary Activation Functions for Probabilistic Boolean Logic ( http://arxiv.org/abs/2203.08977v1 )

ライセンス: Link先を確認
Jed A. Duersch, Thomas A. Catanach, and Niladri Das(参考訳) 観測データに含まれる情報に対するモデルの複雑さのバランスをとることが、学習の重要な課題である。 複雑性効率のモデルが存在し、高次元で発見できるためには、複雑性の概念を単純なパラメータ表現に関連付ける計算フレームワークが必要である。 さらに、このフレームワークは勾配に基づく最適化を通じて、余分な複雑さを徐々に除去しなければなりません。 n-ary、n-argument、アクティベーション関数は、確率のロジット表現を用いて信念関数(確率論理)を近似することでこのギャップを埋めます。 ブール論理が一連の先行命題間の関係から連関主張の真理を決定するのと同じように、確率的定式化は、先行命題、真理表、そして連続体が不確実性を保持するときの予測を一般化する。 我々のアクティベーション関数は、二項排他的ジャンクション (p xor q) や三項条件付きジャンクション (c ? p : q ) のような任意の論理を、マッチングあるいはより大きいアリティのアクティベーション関数を用いて単一の層で学習する能力を示す。 さらに,ゼロでないパラメータの数と信念関数の有効性を直接関連付ける基礎を用いて信念表を表現し,論理複雑性と効率的なパラメータ表現との具体的関係を捉えた。 これにより、パラメータの間隔を誘導することで論理的複雑性を低減する最適化アプローチが開かれる。

Balancing model complexity against the information contained in observed data is the central challenge to learning. In order for complexity-efficient models to exist and be discoverable in high dimensions, we require a computational framework that relates a credible notion of complexity to simple parameter representations. Further, this framework must allow excess complexity to be gradually removed via gradient-based optimization. Our n-ary, or n-argument, activation functions fill this gap by approximating belief functions (probabilistic Boolean logic) using logit representations of probability. Just as Boolean logic determines the truth of a consequent claim from relationships among a set of antecedent propositions, probabilistic formulations generalize predictions when antecedents, truth tables, and consequents all retain uncertainty. Our activation functions demonstrate the ability to learn arbitrary logic, such as the binary exclusive disjunction (p xor q) and ternary conditioned disjunction ( c ? p : q ), in a single layer using an activation function of matching or greater arity. Further, we represent belief tables using a basis that directly associates the number of nonzero parameters to the effective arity of the belief function, thus capturing a concrete relationship between logical complexity and efficient parameter representations. This opens optimization approaches to reduce logical complexity by inducing parameter sparsity.
翻訳日:2022-03-18 13:15:41 公開日:2022-03-16
# 疾患関連抽出のためのグラフのマルチモーダル学習

Multimodal Learning on Graphs for Disease Relation Extraction ( http://arxiv.org/abs/2203.08893v1 )

ライセンス: Link先を確認
Yucong Lin, Keming Lu, Sheng Yu, Tianxi Cai, Marinka Zitnik(参考訳) 目的: 疾患知識グラフは、人工知能(AI)に多くの利点がある疾患に関する情報を接続し、整理し、アクセスする手段である。 知識グラフを作成するためには,病的概念と関係型の両方を正規化するために,マルチモーダルデータセットから知識を抽出する必要がある。 方法: 疾患関連抽出と分類のためのマルチモーダルアプローチであるREMAPを導入する。 REMAP機械学習アプローチは、部分的で不完全な知識グラフと医療言語データセットをコンパクトな潜在ベクトル空間に共同で埋め込み、次いで、最適な疾患関係抽出のためのマルチモーダル埋め込みを調整する。 結果:remapアプローチを96,913の関連のある疾患知識グラフと124万文のテキストデータセットに適用した。 人間の専門家がアノテートしたデータセット上で、remapは、病気の知識グラフとテキスト情報を用いて、テキストベースの病気関係抽出を10.0%(正確)および17.2%(f1-score)改善する。 さらに、REMAPはテキスト情報を活用して知識グラフの新しい関係を推奨し、グラフベースの手法を8.4%(精度)、10.4%(F1スコア)で上回る。 議論: 体系化された知識はAIのバックボーンとなり、AIにセマンティクスを注入し、機械学習アルゴリズムに完全に統合する機会を生み出している。 従来の意味知識はテキストから疾患関係を抽出するのに役立つが、既存の手法ではマルチモーダルデータセットを完全に活用することはできない。 結論: remapは構造的知識とテキスト情報を用いて疾患関係を抽出・分類するためのマルチモーダルアプローチである。 REMAPは、疾患の概念間のAI駆動関係を見つけ、アクセスし、検証するための柔軟なニューラルネットワークを提供する。

Objective: Disease knowledge graphs are a way to connect, organize, and access disparate information about diseases with numerous benefits for artificial intelligence (AI). To create knowledge graphs, it is necessary to extract knowledge from multimodal datasets in the form of relationships between disease concepts and normalize both concepts and relationship types. Methods: We introduce REMAP, a multimodal approach for disease relation extraction and classification. The REMAP machine learning approach jointly embeds a partial, incomplete knowledge graph and a medical language dataset into a compact latent vector space, followed by aligning the multimodal embeddings for optimal disease relation extraction. Results: We apply REMAP approach to a disease knowledge graph with 96,913 relations and a text dataset of 1.24 million sentences. On a dataset annotated by human experts, REMAP improves text-based disease relation extraction by 10.0% (accuracy) and 17.2% (F1-score) by fusing disease knowledge graphs with text information. Further, REMAP leverages text information to recommend new relationships in the knowledge graph, outperforming graph-based methods by 8.4% (accuracy) and 10.4% (F1-score). Discussion: Systematized knowledge is becoming the backbone of AI, creating opportunities to inject semantics into AI and fully integrate it into machine learning algorithms. While prior semantic knowledge can assist in extracting disease relationships from text, existing methods can not fully leverage multimodal datasets. Conclusion: REMAP is a multimodal approach for extracting and classifying disease relationships by fusing structured knowledge and text information. REMAP provides a flexible neural architecture to easily find, access, and validate AI-driven relationships between disease concepts.
翻訳日:2022-03-18 13:10:40 公開日:2022-03-16
# セルベースニューラルアーキテクチャサーチにおける冗長性と多様性について

On Redundancy and Diversity in Cell-based Neural Architecture Search ( http://arxiv.org/abs/2203.08887v1 )

ライセンス: Link先を確認
Xingchen Wan, Binxin Ru, Pedro M. Esperan\c{c}a, Zhenguo Li(参考訳) アーキテクチャセルの探索はNASの主要なパラダイムである。 しかし,NASの継続的な発展には極めて重要であるにもかかわらず,細胞ベースの検索空間の分析にはほとんど注目されていない。 本研究では,一般的なセルベース検索空間からのアーキテクチャの実証的ポストホック解析を行い,既存の検索空間には高い冗長性が含まれていることを発見した。アーキテクチャ性能は,セルの広い部分における変化に対して最小限に敏感であり,縮小セルの明示的な探索のような普遍的に採用された設計は,複雑さを著しく増大させるが,性能に非常に限定的な影響を与える。 多様な検索戦略によって発見されたアーキテクチャ全体にわたって、アーキテクチャのパフォーマンスに重要なセルの部分は、しばしば類似した単純なパターンに従う。 細胞にこれらのパターンを明示的に含ませることによって、ランダムにサンプリングされたアーキテクチャは、芸術の状態をマッチさせたり、上回ったりすることができる。 これらの発見は、既存のセルベースの検索空間で真に新しいアーキテクチャを発見する能力に疑問を投げかけ、今後のnas研究を導くための改善の提案を刺激しました。 コードはhttps://github.com/x ingchenwan/cell-base d-NAS-analysisで入手できる。

Searching for the architecture cells is a dominant paradigm in NAS. However, little attention has been devoted to the analysis of the cell-based search spaces even though it is highly important for the continual development of NAS. In this work, we conduct an empirical post-hoc analysis of architectures from the popular cell-based search spaces and find that the existing search spaces contain a high degree of redundancy: the architecture performance is minimally sensitive to changes at large parts of the cells, and universally adopted designs, like the explicit search for a reduction cell, significantly increase the complexities but have very limited impact on the performance. Across architectures found by a diverse set of search strategies, we consistently find that the parts of the cells that do matter for architecture performance often follow similar and simple patterns. By explicitly constraining cells to include these patterns, randomly sampled architectures can match or even outperform the state of the art. These findings cast doubts into our ability to discover truly novel architectures in the existing cell-based search spaces, and inspire our suggestions for improvement to guide future NAS research. Code is available at https://github.com/x ingchenwan/cell-base d-NAS-analysis.
翻訳日:2022-03-18 13:09:43 公開日:2022-03-16
# 検診マンモグラフィにおける自己教師付きディープラーニングによる乳癌検出

Self-Supervised Deep Learning to Enhance Breast Cancer Detection on Screening Mammography ( http://arxiv.org/abs/2203.08812v1 )

ライセンス: Link先を確認
John D. Miller, Vignesh A. Arasu, Albert X. Pu, Laurie R. Margolies, Weiva Sieh, Li Shen(参考訳) 人工知能(AI)システムにディープラーニングを適用する際の大きな制限は、高品質なキュレートデータセットの不足である。 本稿では,この問題に対処するために,強化強化型自己教師付き学習(ssl)手法を検討する。 乳がん検出を例として,まずマンモグラム特異的なトランスフォーメーションパラダイムを同定し,近年の4つのSSL手法を系統的に比較した。 本研究では,一様タイル付きパッチの予測から画像全体への事前学習モデルを変換する手法と,分類性能を向上させるアテンションベースプーリング手法を提案する。 最高のSSLモデルはベースライン管理モデルよりも大幅に優れていた。 最高のsslモデルはサンプルラベリングのデータ効率をほぼ4倍に向上し、データセットから別のデータに高い転送性を持っていた。 SSLはコンピュータビジョンにおける大きなブレークスルーであり、医療画像分野のAIが、教師付き学習や不足ラベルへの依存から脱却するのに役立つ可能性がある。

A major limitation in applying deep learning to artificial intelligence (AI) systems is the scarcity of high-quality curated datasets. We investigate strong augmentation based self-supervised learning (SSL) techniques to address this problem. Using breast cancer detection as an example, we first identify a mammogram-specific transformation paradigm and then systematically compare four recent SSL methods representing a diversity of approaches. We develop a method to convert a pretrained model from making predictions on uniformly tiled patches to whole images, and an attention-based pooling method that improves the classification performance. We found that the best SSL model substantially outperformed the baseline supervised model. The best SSL model also improved the data efficiency of sample labeling by nearly 4-fold and was highly transferrable from one dataset to another. SSL represents a major breakthrough in computer vision and may help the AI for medical imaging field to shift away from supervised learning and dependency on scarce labels.
翻訳日:2022-03-18 13:06:53 公開日:2022-03-16
# 例 パープレキシティ

Example Perplexity ( http://arxiv.org/abs/2203.08813v1 )

ライセンス: Link先を確認
Nevin L. Zhang, Weiyan Xie, Zhi Lin, Guanfang Dong, Xiao-Hui Li, Caleb Chen Cao, Yunpeng Wang(参考訳) 人間が他のものより分類しやすい例もある。 ディープニューラルネットワーク(DNN)に関しても同じことが言えます。 例の分類の難易度を示すために、例の難易度という用語を用いる。 本稿では,実例のパープレキシティを計測する手法を提案し,高実例のパープレキシティにどのような寄与があるかを検討する。 関連するコードとリソースはhttps://github.com/v aynexie/example-perp lexityで入手できる。

Some examples are easier for humans to classify than others. The same should be true for deep neural networks (DNNs). We use the term example perplexity to refer to the level of difficulty of classifying an example. In this paper, we propose a method to measure the perplexity of an example and investigate what factors contribute to high example perplexity. The related codes and resources are available at https://github.com/v aynexie/Example-Perp lexity.
翻訳日:2022-03-18 13:06:36 公開日:2022-03-16
# 拡散確率モデルによる映像生成

Diffusion Probabilistic Modeling for Video Generation ( http://arxiv.org/abs/2203.09481v1 )

ライセンス: Link先を確認
Ruihan Yang, Prakhar Srivastava, Stephan Mandt(参考訳) デノージング拡散確率モデル(denoising diffusion probabilistic models)は、知覚メトリクスにおいてganと競合する有望な新しい生成モデルである。 本稿では,ビデオの逐次生成の可能性について考察する。 近年のニューラルビデオ圧縮の進展に触発されて,分極拡散モデルを用いて決定論的次のフレーム予測の残差を確率的に生成する。 このアプローチを、4つのデータセット上で2つの逐次VAEと2つのGANベースラインと比較し、生成されたフレームを知覚品質と地上の真理フレームに対する予測精度でテストする。 複雑な高解像度ビデオのフレーム予測において,すべてのデータに対する知覚品質の面での大幅な改善と,その改善が期待できる。

Denoising diffusion probabilistic models are a promising new class of generative models that are competitive with GANs on perceptual metrics. In this paper, we explore their potential for sequentially generating video. Inspired by recent advances in neural video compression, we use denoising diffusion models to stochastically generate a residual to a deterministic next-frame prediction. We compare this approach to two sequential VAE and two GAN baselines on four datasets, where we test the generated frames for perceptual quality and forecasting accuracy against ground truth frames. We find significant improvements in terms of perceptual quality on all data and improvements in terms of frame forecasting for complex high-resolution videos.
翻訳日:2022-03-18 13:04:01 公開日:2022-03-16
# Layer Ensembles: セグメンテーションのためのディープラーニングにおける単一パス不確実性推定

Layer Ensembles: A Single-Pass Uncertainty Estimation in Deep Learning for Segmentation ( http://arxiv.org/abs/2203.08878v1 )

ライセンス: Link先を確認
Kaisar Kushibar, V\'ictor Manuel Campello, Lidia Garrucho Moras, Akis Linardos, Petia Radeva, Karim Lekadir(参考訳) 深層学習における不確実性推定は、臨床実践におけるAIアルゴリズムの安全な活用の必要性から、医用画像解析における主要な研究分野となっている。 不確実性推定のアプローチのほとんどは、複数のネットワークのテストやトレーニング中に、ネットワークの重みを複数回サンプリングする必要がある。 これにより、時間と計算リソースの観点から、トレーニングとテストのコストが高まる。 本稿では,ネットワークの予測不確実性を推定するために,単一のパスのみを必要とする新しい不確実性推定手法であるLayer Ensemblesを提案する。 さらに,エントロピーや分散といった一般的な画素単位の指標と比較して,分割作業に有利な画像レベルの不確実性指標を導入する。 2dおよび3d,バイナリおよびマルチクラスの医用画像セグメンテーションタスクに対するアプローチを評価した。 提案手法は,1つのネットワークと1つのパスしか必要とせず,最先端のDeep Ensemblesと競合する結果を示す。

Uncertainty estimation in deep learning has become a leading research field in medical image analysis due to the need for safe utilisation of AI algorithms in clinical practice. Most approaches for uncertainty estimation require sampling the network weights multiple times during testing or training multiple networks. This leads to higher training and testing costs in terms of time and computational resources. In this paper, we propose Layer Ensembles, a novel uncertainty estimation method that uses a single network and requires only a single pass to estimate predictive uncertainty of a network. Moreover, we introduce an image-level uncertainty metric, which is more beneficial for segmentation tasks compared to the commonly used pixel-wise metrics such as entropy and variance. We evaluate our approach on 2D and 3D, binary and multi-class medical image segmentation tasks. Our method shows competitive results with state-of-the-art Deep Ensembles, requiring only a single network and a single pass.
翻訳日:2022-03-18 13:00:21 公開日:2022-03-16
# 関節間隙狭化を伴う変形性膝関節症の自動評価

Automated Grading of Radiographic Knee Osteoarthritis Severity Combined with Joint Space Narrowing ( http://arxiv.org/abs/2203.08914v1 )

ライセンス: Link先を確認
Hanxue Gu, Keyu Li, Roy J. Colglazier, Jichen Yang, Michael Lebhar, Jonathan O'Donnell, William A. Jiranek, Richard C. Mather, Rob J. French, Nicholas Said, Jikai Zhang, Christine Park, Maciej A. Mazurowski(参考訳) 人工膝関節全置換術における膝関節炎(KOA)重症度の評価は中心的基準である。 しかし、この評価は不正確な基準と非常に高いリーダー間変動に苦しむ。 KOAの重症度をアルゴリズムで自動評価することで、膝置換術の全体的な成績を向上させることができる。 We propose a novel deep learning-based five-step algorithm to automatically grade KOA from posterior-anterior (PA) views of radiographs: (1) image preprocessing (2) localization of knees joints in the image using the YOLO v3-Tiny model, (3) initial assessment of the severity of osteoarthritis using a convolutional neural network-based classifier, (4) segmentation of the joints and calculation of the joint space narrowing (JSN), and (5), a combination of the JSN and the initial assessment to determine a final Kellgren-Lawrence (KL) score. さらに,評価に使用するセグメンテーションマスクを表示することで,一般的な「ブラックボックス」深層学習分類器と比較して高い透明性を示す。 2つの公開データセットと1つのデータセットを用いて総合的な評価を行い,そのアルゴリズムが最先端の性能に達することを示す。 また,当院における複数の放射線科医のレーティングを収集し,放射線科レベルでのアルゴリズムの成績を示した。 このソフトウェアはhttps://github.com/M aciejMazurowski/oste oarthritis-classific ationで公開されている。

The assessment of knee osteoarthritis (KOA) severity on knee X-rays is a central criteria for the use of total knee arthroplasty. However, this assessment suffers from imprecise standards and a remarkably high inter-reader variability. An algorithmic, automated assessment of KOA severity could improve overall outcomes of knee replacement procedures by increasing the appropriateness of its use. We propose a novel deep learning-based five-step algorithm to automatically grade KOA from posterior-anterior (PA) views of radiographs: (1) image preprocessing (2) localization of knees joints in the image using the YOLO v3-Tiny model, (3) initial assessment of the severity of osteoarthritis using a convolutional neural network-based classifier, (4) segmentation of the joints and calculation of the joint space narrowing (JSN), and (5), a combination of the JSN and the initial assessment to determine a final Kellgren-Lawrence (KL) score. Furthermore, by displaying the segmentation masks used to make the assessment, our algorithm demonstrates a higher degree of transparency compared to typical "black box" deep learning classifiers. We perform a comprehensive evaluation using two public datasets and one dataset from our institution, and show that our algorithm reaches state-of-the art performance. Moreover, we also collected ratings from multiple radiologists at our institution and showed that our algorithm performs at the radiologist level. The software has been made publicly available at https://github.com/M aciejMazurowski/oste oarthritis-classific ation.
翻訳日:2022-03-18 13:00:07 公開日:2022-03-16
# スパースオールMLPを用いた効率的な言語モデリング

Efficient Language Modeling with Sparse all-MLP ( http://arxiv.org/abs/2203.06850v2 )

ライセンス: Link先を確認
Ping Yu, Mikel Artetxe, Myle Ott, Sam Shleifer, Hongyu Gong, Ves Stoyanov, Xian Li(参考訳) オールMLPアーキテクチャはアテンションベースのモデルに代わるものとして関心を集めている。 NLPでは、gMLPのような最近の研究により、すべてのMLPが言語モデリングにおいてTransformerにマッチするが、下流タスクでは遅れていることを示している。 本研究では,表現性におけるMLPの限界を解析し,特徴量と入力量の両方において,MLPを混合した疎活性化(MoEs)を提案する。 このようなスパースなオールMLPは、計算定数を維持しながら、モデルのキャパシティと表現性を著しく向上させる。 条件計算を2つのルーティング戦略に組み込む上で重要な課題に対処する。 提案したスパースオールMLPは、言語モデリングの難易度を改善し、トランスフォーマーベースのMoE(GShard, Switch Transformer, Base Layers, HASH Layers)と高密度トランスフォーマーとオールMLPの両方と比較して、トレーニング効率を最大2$\times$で改善する。 最後に、6つの下流タスクにおけるゼロショットインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを超越していることを見出した。

All-MLP architectures have attracted increasing interest as an alternative to attention-based models. In NLP, recent work like gMLP shows that all-MLPs can match Transformers in language modeling, but still lag behind in downstream tasks. In this work, we analyze the limitations of MLPs in expressiveness, and propose sparsely activated MLPs with mixture-of-experts (MoEs) in both feature and input (token) dimensions. Such sparse all-MLPs significantly increase model capacity and expressiveness while keeping the compute constant. We address critical challenges in incorporating conditional computation with two routing strategies. The proposed sparse all-MLP improves language modeling perplexity and obtains up to 2$\times$ improvement in training efficiency compared to both Transformer-based MoEs (GShard, Switch Transformer, Base Layers and HASH Layers) as well as dense Transformers and all-MLPs. Finally, we evaluate its zero-shot in-context learning performance on six downstream tasks, and find that it surpasses Transformer-based MoEs and dense Transformers.
翻訳日:2022-03-18 10:46:56 公開日:2022-03-16
# 最適化のためのシンボリックラーニング:解釈可能性とスケーラビリティを目指して

Symbolic Learning to Optimize: Towards Interpretability and Scalability ( http://arxiv.org/abs/2203.06578v2 )

ライセンス: Link先を確認
Wenqing Zheng, Tianlong Chen, Ting-Kuei Hu, Zhangyang Wang(参考訳) 近年のL2O(Learning to Optimize)研究は,複雑なタスクに対する最適化手順の自動化と高速化に期待できる道のりを示唆している。 既存のL2Oモデルは、ニューラルネットワークによる最適化ルールをパラメータ化し、メタトレーニングを通じてそれらの数値ルールを学ぶ。 スケーラビリティ: ニューラルネットワークで表される数値ルールは、L2Oモデルを適用するための余分なメモリオーバーヘッドを生成し、より大きなタスクを最適化するためにそれらの適用性を制限します。 両者の落とし穴を避けるため,本論文では,l2o に記号回帰の強力なツールを導入することで,「1石で2羽の鳥を殺す」ことができるという概念を実証する。 本稿では,L2Oの総合的な記号表現と解析の枠組みを構築し,学習可能なオプティマイザに一連の洞察を与える。 また,本研究の成果を生かして,大規模問題にメタトレーニングを施す軽量なL2Oモデルを提案する。 我々の研究は、l2o研究に新しい視点を提供する予定です。 コードは、https://github.com/V ITA-Group/Symbolic-L earning-To-Optimizeで入手できる。

Recent studies on Learning to Optimize (L2O) suggest a promising path to automating and accelerating the optimization procedure for complicated tasks. Existing L2O models parameterize optimization rules by neural networks, and learn those numerical rules via meta-training. However, they face two common pitfalls: (1) scalability: the numerical rules represented by neural networks create extra memory overhead for applying L2O models, and limit their applicability to optimizing larger tasks; (2) interpretability: it is unclear what an L2O model has learned in its black-box optimization rule, nor is it straightforward to compare different L2O models in an explainable way. To avoid both pitfalls, this paper proves the concept that we can "kill two birds by one stone", by introducing the powerful tool of symbolic regression to L2O. In this paper, we establish a holistic symbolic representation and analysis framework for L2O, which yields a series of insights for learnable optimizers. Leveraging our findings, we further propose a lightweight L2O model that can be meta-trained on large-scale problems and outperformed human-designed and tuned optimizers. Our work is set to supply a brand-new perspective to L2O research. Codes are available at: https://github.com/V ITA-Group/Symbolic-L earning-To-Optimize.
翻訳日:2022-03-18 10:46:14 公開日:2022-03-16
# ポリグロットファイルの検出に向けて

Toward the Detection of Polyglot Files ( http://arxiv.org/abs/2203.07561v2 )

ライセンス: Link先を確認
Luke Koch, Sean Oesch, Mary Adkisson, Sam Erwin, Brian Weber, Amul Chaulagain(参考訳) 標準化されたファイルフォーマットは、コンピュータソフトウェアの開発と利用において重要な役割を果たす。 しかし、複数のファイルフォーマットで有効なファイルを作成することで、標準化されたファイルフォーマットを悪用することができる。 結果として生じる多言語(多くの言語)ファイルは、ファイルフォーマットの識別を結合することができ、ファイルの要素が解析を回避できる。 ファイルシグネチャに依存するファイルフォーマット識別プロセスは、特定のファイルフォーマットのフォーマット仕様の柔軟性により、容易に回避できる。 ファイルシグネチャよりも包括的な方法でファイル形式を特定する作業は行われているが、ポリグロットファイルの正確な識別は未解決のままである。 マルウェア検出システムはファイル形式固有の特徴抽出を日常的に行うため、これらのシステムによる取り込み前にポリグロットファイルをフィルタリングする必要がある。 そうでなければ、悪意のあるコンテンツは検出されない。 ポリグロット検出の問題を解決するために,mitraツールを用いてデータセットを組み立てた。 そして、最もよく使われるファイル識別ツールであるfileの性能を評価した。 最後に,機械学習モデルとディープラーニングモデルの精度,精度,リコール,F1スコアを実証した。 malconv2とcatboostはそれぞれ95.16%と95.34%という高いリコールを示しました。 これらのモデルは、ファイルフォーマットに依存した機能抽出が行われる前に、悪意のあるポリグロットをフィルタリングするために、マルウェア検出のファイル処理パイプラインに組み込むことができる。

Standardized file formats play a key role in the development and use of computer software. However, it is possible to abuse standardized file formats by creating a file that is valid in multiple file formats. The resulting polyglot (many languages) file can confound file format identification, allowing elements of the file to evade analysis.This is especially problematic for malware detection systems that rely on file format identification for feature extraction. File format identification processes that depend on file signatures can be easily evaded thanks to flexibility in the format specifications of certain file formats. Although work has been done to identify file formats using more comprehensive methods than file signatures, accurate identification of polyglot files remains an open problem. Since malware detection systems routinely perform file format-specific feature extraction, polyglot files need to be filtered out prior to ingestion by these systems. Otherwise, malicious content could pass through undetected. To address the problem of polyglot detection we assembled a data set using the mitra tool. We then evaluated the performance of the most commonly used file identification tool, file. Finally, we demonstrated the accuracy, precision, recall and F1 score of a range of machine and deep learning models. Malconv2 and Catboost demonstrated the highest recall on our data set with 95.16% and 95.34%, respectively. These models can be incorporated into a malware detector's file processing pipeline to filter out potentially malicious polyglots before file format-dependent feature extraction takes place.
翻訳日:2022-03-18 10:41:28 公開日:2022-03-16
# (参考訳) nurd: オンラインデータセンタストラグラー予測のための負ラベル学習 [全文訳有]

NURD: Negative-Unlabeled Learning for Online Datacenter Straggler Prediction ( http://arxiv.org/abs/2203.08339v1 )

ライセンス: CC BY 4.0
Yi Ding, Avinash Rao, Hyebin Song, Rebecca Willett, Henry Hoffmann(参考訳) データセンターは、小さなタスクで構成される大規模な計算ジョブを実行する。 ジョブはすべてのタスクが完了すると完了するため、ストラグラー(まれだが非常に遅いタスク)はデータセンタのパフォーマンスにとって大きな障害となる。 正確な予測によって、ストラグラーのプロアクティブな介入が可能となり、データセンターオペレーターは、ストラグラーがジョブを遅延する前に軽減できる。 多くの先行研究がコンピュータシステムの性能を予測するために機械学習を適用しているが、これらのアプローチは完全なラベル、すなわち、ストラグリングやノンストラグリングを含む全ての可能な振る舞いの十分な例、あるいは基礎となる遅延分布に関する強い仮定、例えばガウス的かどうかに頼っている。 しかし、実行中のジョブ内では、ストラグラーがすでにジョブを遅らせていることを明かすまで、これらの情報は利用できない。 本稿では,遅延分布の正の例や仮定をラベル付けせずに,トラグラーを正確に,早期に予測するために,負および未ラベルのストリーミングデータのみをトレーニングするReweighting and Distribution-compens ationを用いた新しい負の非ラベル学習手法であるNURDを提案する。 鍵となる考え方は、非ストラグラーの完了タスクを使用して予測器を訓練し、未ラベル実行タスクの遅延を予測し、その特徴空間の重み付け関数に基づいて各未ラベルタスクの予測を再重み付けすることである。 我々は,google と alibaba の2つの生産トレースから nurd を評価し,最高のベースラインアプローチと比較し,予測精度の観点から f1 スコアの 2-11 ポイント増加と4.7--8.8 パーセンテージのジョブ完了時間の改善を見出した。

Datacenters execute large computational jobs, which are composed of smaller tasks. A job completes when all its tasks finish, so stragglers -- rare, yet extremely slow tasks -- are a major impediment to datacenter performance. Accurately predicting stragglers would enable proactive intervention, allowing datacenter operators to mitigate stragglers before they delay a job. While much prior work applies machine learning to predict computer system performance, these approaches rely on complete labels -- i.e., sufficient examples of all possible behaviors, including straggling and non-straggling -- or strong assumptions about the underlying latency distributions -- e.g., whether Gaussian or not. Within a running job, however, none of this information is available until stragglers have revealed themselves when they have already delayed the job. To predict stragglers accurately and early without labeled positive examples or assumptions on latency distributions, this paper presents NURD, a novel Negative-Unlabeled learning approach with Reweighting and Distribution-compens ation that only trains on negative and unlabeled streaming data. The key idea is to train a predictor using finished tasks of non-stragglers to predict latency for unlabeled running tasks, and then reweight each unlabeled task's prediction based on a weighting function of its feature space. We evaluate NURD on two production traces from Google and Alibaba, and find that compared to the best baseline approach, NURD produces 2--11 percentage point increases in the F1 score in terms of prediction accuracy, and 4.7--8.8 percentage point improvements in job completion time.
翻訳日:2022-03-18 05:21:33 公開日:2022-03-16
# (参考訳) Adaptive Noisy Matrix Completion [全文訳有]

Adaptive Noisy Matrix Completion ( http://arxiv.org/abs/2203.08340v1 )

ライセンス: CC BY 4.0
Ilqar Ramazanli(参考訳) 低ランク行列の完備化は様々な種類で広く研究されている。 問題はノイズのある完了または正確な完了、アクティブまたはパッシブな完了アルゴリズムに分類される。 本稿では,有界型雑音を用いた適応行列補完に着目する。 回復を目標とする行列 $\mathbf{M}$ は、束縛された小さな雑音を加えた低ランク行列として構成されると仮定する。 この問題は以前、固定サンプリングモデルで \cite{nina} によって研究されてきた。 そこで本研究では,低ランク部分空間と雑音付加部分空間との角度の上限を連続的に推定する適応的な設定でこの問題を考察する。 さらに, 提案手法は, 上記の方法よりもはるかに小さな観察を必要とする。

Low-rank matrix completion has been studied extensively under various type of categories. The problem could be categorized as noisy completion or exact completion, also active or passive completion algorithms. In this paper we focus on adaptive matrix completion with bounded type of noise. We assume that the matrix $\mathbf{M}$ we target to recover is composed as low-rank matrix with addition of bounded small noise. The problem has been previously studied by \cite{nina}, in a fixed sampling model. Here, we study this problem in adaptive setting that, we continuously estimate an upper bound for the angle with the underlying low-rank subspace and noise-added subspace. Moreover, the method suggested here, could be shown requires much smaller observation than aforementioned method.
翻訳日:2022-03-18 04:55:45 公開日:2022-03-16
# (参考訳) 野生動物におけるドメイン適応ハンドキーポイントとピクセル局在

Domain Adaptive Hand Keypoint and Pixel Localization in the Wild ( http://arxiv.org/abs/2203.08344v1 )

ライセンス: CC BY 4.0
Takehiko Ohkawa, Yu-Jhe Li, Qichen Fu, Rosuke Furuta, Kris M. Kitani and Yoichi Sato(参考訳) 異なる条件(例えば屋内)で撮影されるラベル付き画像しか持たない場合、新しい撮像条件(例えば屋外)下で手指のキーポイントの後退や画素レベルのハンドマスクのセグメンテーションの性能を向上させることを目的としている。 実世界では,両タスクを訓練したモデルが様々な撮像条件下で動作することが重要である。 しかし、既存のラベル付きハンドデータセットでカバーされているバリエーションは限られている。 したがって、ラベル付き画像(ソース)で訓練されたモデルを、未表示の画像(ターゲット)に未表示の撮像条件で適応させる必要がある。 どちらの課題も自己学習型ドメイン適応法(すなわちラベルなしの目標画像からの学習)が開発されているが、対象画像の予測が騒がしい場合、その訓練は性能を低下させる可能性がある。 これを避けるために、自己学習中のノイズ予測に低重要性(自信)重みを割り当てることが重要である。 本稿では,2つの予測の発散を利用して,両タスクの目標画像の信頼度を推定する。 これらの予測は2つの別々のネットワークから与えられ、その分岐はノイズの予測を特定するのに役立つ。 提案する信頼度推定を自己学習に組み込むために,2つのネットワーク(教師)が自己学習のためのネットワーク(学生)に監督を提供し,教師が知識蒸留によって生徒から学習する教師教育枠組みを提案する。 本実験は,照明,物体の把握,背景,カメラ視点の調整において,最先端の手法よりも優れていることを示す。 本手法は,最新の逆適応法と比較して,HO3Dのマルチタスクスコアを4%改善する。 また, ego4d, egocentric videoにおいて, 屋外の撮像条件の急激な変化を検証した。

We aim to improve the performance of regressing hand keypoints and segmenting pixel-level hand masks under new imaging conditions (e.g., outdoors) when we only have labeled images taken under very different conditions (e.g., indoors). In the real world, it is important that the model trained for both tasks works under various imaging conditions. However, their variation covered by existing labeled hand datasets is limited. Thus, it is necessary to adapt the model trained on the labeled images (source) to unlabeled images (target) with unseen imaging conditions. While self-training domain adaptation methods (i.e., learning from the unlabeled target images in a self-supervised manner) have been developed for both tasks, their training may degrade performance when the predictions on the target images are noisy. To avoid this, it is crucial to assign a low importance (confidence) weight to the noisy predictions during self-training. In this paper, we propose to utilize the divergence of two predictions to estimate the confidence of the target image for both tasks. These predictions are given from two separate networks, and their divergence helps identify the noisy predictions. To integrate our proposed confidence estimation into self-training, we propose a teacher-student framework where the two networks (teachers) provide supervision to a network (student) for self-training, and the teachers are learned from the student by knowledge distillation. Our experiments show its superiority over state-of-the-art methods in adaptation settings with different lighting, grasping objects, backgrounds, and camera viewpoints. Our method improves by 4% the multi-task score on HO3D compared to the latest adversarial adaptation method. We also validate our method on Ego4D, egocentric videos with rapid changes in imaging conditions outdoors.
翻訳日:2022-03-18 04:44:38 公開日:2022-03-16
# (参考訳) アフリカ言語のためのアフロセントリックなnlpに向けて:どこにいて、どこへ行けるか [全文訳有]

Towards Afrocentric NLP for African Languages: Where We Are and Where We Can Go ( http://arxiv.org/abs/2203.08351v1 )

ライセンス: CC BY 4.0
Ife Adebara and Muhammad Abdul-Mageed(参考訳) ACL 2022 の特別テーマ "Language Diversity: from Low Resource to Endangered Languages" に従って,アフリカ言語のためのNLP技術開発に直面する主要な言語的・社会的課題について論じる。 アフリカの言語を類型的枠組みで分類し,これらの言語の特徴をどのように活用できるかを論じる。 今後の研究を促進するために、現在の取り組み、コミュニティ、会場、データセット、ツールも強調します。 私たちの主な目的は、技術開発におけるアフロ中心のアプローチを動機付け、提唱することです。 このことを念頭に置いて、ローカルアフリカコミュニティのニーズに基づいて、構築、評価、デプロイするために、構築する \textit{what} テクノロジと、構築する \textit{how} テクノロジを推奨します。

Aligning with ACL 2022 special Theme on "Language Diversity: from Low Resource to Endangered Languages", we discuss the major linguistic and sociopolitical challenges facing development of NLP technologies for African languages. Situating African languages in a typological framework, we discuss how the particulars of these languages can be harnessed. To facilitate future research, we also highlight current efforts, communities, venues, datasets, and tools. Our main objective is to motivate and advocate for an Afrocentric approach to technology development. With this in mind, we recommend \textit{what} technologies to build and \textit{how} to build, evaluate, and deploy them based on the needs of local African communities.
翻訳日:2022-03-18 04:42:39 公開日:2022-03-16
# (参考訳) 画像間翻訳のための二重拡散インプリシットブリッジ [全文訳有]

Dual Diffusion Implicit Bridges for Image-to-Image Translation ( http://arxiv.org/abs/2203.08382v1 )

ライセンス: CC BY 4.0
Xuan Su, Jiaming Song, Chenlin Meng, Stefano Ermon(参考訳) 画像と画像の共通翻訳法は、ソースドメインとターゲットドメインの両方のデータに対する共同トレーニングに依存している。 これは、ドメインデータがプライベートである場合(例えば、フェデレートされた設定)を除外し、しばしば新しいモデルを新しいドメインのためにトレーニングする必要があることを意味する。 本稿では,拡散モデルに基づく画像翻訳手法であるDual Diffusion Implicit Bridges (DDIBs)を提案する。 DDIBは任意のソースターゲットドメイン間の変換を可能にし、それぞれのドメイン上で独立に訓練された拡散モデルを与える。 ddibsはまずソース拡散モデルを用いてソースイメージの潜在エンコーディングを取得し、次にターゲットモデルを用いてそのエンコーディングをデコードしてターゲットイメージを構築する。 さらに、DDIBはサイクル一貫性をデフォルトで実現し、理論的には最適な輸送に結びついている。 実験では,ddibを様々な合成・高分解能画像データセットに適用し,サンプルガイドカラー転送,画像から画像への変換,および最適なトランスポート手法への接続においてその有用性を示す。

Common image-to-image translation methods rely on joint training over data from both source and target domains. This excludes cases where domain data is private (e.g., in a federated setting), and often means that a new model has to be trained for a new pair of domains. We present Dual Diffusion Implicit Bridges (DDIBs), an image translation method based on diffusion models, that circumvents training on domain pairs. DDIBs allow translations between arbitrary pairs of source-target domains, given independently trained diffusion models on the respective domains. Image translation with DDIBs is a two-step process: DDIBs first obtain latent encodings for source images with the source diffusion model, and next decode such encodings using the target model to construct target images. Moreover, DDIBs enable cycle-consistency by default and is theoretically connected to optimal transport. Experimentally, we apply DDIBs on a variety of synthetic and high-resolution image datasets, demonstrating their utility in example-guided color transfer, image-to-image translation as well as their connections to optimal transport methods.
翻訳日:2022-03-18 03:33:26 公開日:2022-03-16
# (参考訳) ディープニューラルネットワークにおけるフリップ誤差の低減 [全文訳有]

Reducing Flipping Errors in Deep Neural Networks ( http://arxiv.org/abs/2203.08390v1 )

ライセンス: CC BY 4.0
Xiang Deng, Yun Xiao, Bo Long, Zhongfei Zhang(参考訳) ディープニューラルネットワーク(DNN)は、コンピュータビジョンや自然言語処理など、人工知能の様々な分野に広く応用されている。 DNNは一般的に多くのエポックに対してトレーニングされ、検証データセットを使用してエポック内のDNNを選択する(このエポックを"最後のエポック"と呼ぶ)。 興味深い疑問は、「最後のエポックでDNNが誤って分類したテスト(見えない)サンプルが、最後のエポックの前にDNNによって正しく分類されたか」である。 本稿では,この質問を経験的に研究し,前四半期の誤分類されたサンプルの大多数が前四半期より前に正しく分類されていたことを示すベンチマークデータセットを複数発見する。 そこで本研究では,DNNの動作変化を正しく分類したサンプルに対して制限することにより,適切な局所境界を維持することができ,未知のサンプルの反転誤差を大幅に低減できることを示す。 現代のネットワークアーキテクチャの異なるベンチマークデータセットに対する大規模な実験により、提案されたフリップエラー削減(FER)アプローチは、ネットワークパラメータや推論コストを付加することなく、DNNの一般化、堅牢性、転送可能性を大幅に改善できることを示した。

Deep neural networks (DNNs) have been widely applied in various domains in artificial intelligence including computer vision and natural language processing. A DNN is typically trained for many epochs and then a validation dataset is used to select the DNN in an epoch (we simply call this epoch "the last epoch") as the final model for making predictions on unseen samples, while it usually cannot achieve a perfect accuracy on unseen samples. An interesting question is "how many test (unseen) samples that a DNN misclassifies in the last epoch were ever correctly classified by the DNN before the last epoch?". In this paper, we empirically study this question and find on several benchmark datasets that the vast majority of the misclassified samples in the last epoch were ever classified correctly before the last epoch, which means that the predictions for these samples were flipped from "correct" to "wrong". Motivated by this observation, we propose to restrict the behavior changes of a DNN on the correctly-classified samples so that the correct local boundaries can be maintained and the flipping error on unseen samples can be largely reduced. Extensive experiments on different benchmark datasets with different modern network architectures demonstrate that the proposed flipping error reduction (FER) approach can substantially improve the generalization, the robustness, and the transferability of DNNs without introducing any additional network parameters or inference cost, only with a negligible training overhead.
翻訳日:2022-03-18 03:18:12 公開日:2022-03-16
# (参考訳) GPT-3 バイオメディカルIEの文脈学習を考える もう一度考えて [全文訳有]

Thinking about GPT-3 In-Context Learning for Biomedical IE? Think Again ( http://arxiv.org/abs/2203.08410v1 )

ライセンス: CC BY 4.0
Bernal Jim\'enez Guti\'errez, Nikolas McNeal, Clay Washington, You Chen, Lang Li, Huan Sun, Yu Su(参考訳) GPT-3のような大規模事前学習型言語モデル(PLM)の強力な文脈内学習能力は、特にデータアノテーションが高価である生体医学的応用に非常に優れている。 本稿では,GPT-3インコンテクスト学習と小文字小文字(BERTサイズ)PLMの2つの高度に代表される生体情報抽出タスク(エンティティ認識と関係抽出)を比較した,最初の体系的,総合的な研究を提案する。 実数ショット設定に従うことで、大きなバリデーションセットよりもモデル選択によるモデルの最小ショット性能を過大評価しないようにします。 また,GPT-3の性能を文脈キャリブレーションや動的文脈内サンプル検索などの既知の手法で最適化する。 しかし,本実験では,同一の訓練セットを用いたplmの小型化に比べ,gpt-3の精度は有意に低かった。 さらに、実用的なアプリケーションで等しく重要であるのは、ラベル付きデータの追加が確実にモデルパフォーマンスの向上をもたらすことである。 小型のPLMを微調整する場合はそうであるが、GPT-3の性能はデータを追加する際にはほとんど改善されない。 詳細な分析により、情報抽出タスク全般に有害である可能性のある、コンテキスト内学習設定の問題点が明らかになった。 GPT-3を高コストで実験することを考えると,本研究は生物医学研究者や実践者に対して,微調整GPT-3や小型PLMなど,より有望な方向に向けてのガイダンスを提供することを願っている。

The strong few-shot in-context learning capability of large pre-trained language models (PLMs) such as GPT-3 is highly appealing for biomedical applications where data annotation is particularly costly. In this paper, we present the first systematic and comprehensive study to compare the few-shot performance of GPT-3 in-context learning with fine-tuning smaller (i.e., BERT-sized) PLMs on two highly representative biomedical information extraction tasks, named entity recognition and relation extraction. We follow the true few-shot setting to avoid overestimating models' few-shot performance by model selection over a large validation set. We also optimize GPT-3's performance with known techniques such as contextual calibration and dynamic in-context example retrieval. However, our results show that GPT-3 still significantly underperforms compared with simply fine-tuning a smaller PLM using the same small training set. Moreover, what is equally important for practical applications is that adding more labeled data would reliably yield an improvement in model performance. While that is the case when fine-tuning small PLMs, GPT-3's performance barely improves when adding more data. In-depth analyses further reveal issues of the in-context learning setting that may be detrimental to information extraction tasks in general. Given the high cost of experimenting with GPT-3, we hope our study provides guidance for biomedical researchers and practitioners towards more promising directions such as fine-tuning GPT-3 or small PLMs.
翻訳日:2022-03-18 03:04:16 公開日:2022-03-16
# (参考訳) FormNet:フォームドキュメンテーション情報抽出におけるシーケンスモデリング以外の構造エンコーディング [全文訳有]

FormNet: Structural Encoding beyond Sequential Modeling in Form Document Information Extraction ( http://arxiv.org/abs/2203.08411v1 )

ライセンス: CC BY 4.0
Chen-Yu Lee, Chun-Liang Li, Timothy Dozat, Vincent Perot, Guolong Su, Nan Hua, Joshua Ainslie, Renshen Wang, Yasuhisa Fujii, Tomas Pfister(参考訳) シーケンスモデリングは、自然言語と文書理解タスクにおける最先端のパフォーマンスを示す。 しかし,様々なレイアウトパターンのため,トークンを形式的な文書で正しくシリアライズすることは困難である。 本稿では,フォームのサブオプティカルシリアライズを緩和する構造認識シーケンスモデルformnetを提案する。 まず,トークン間の空間的関係を利用したリッチアテンションを設計し,より正確なアテンションスコア計算を行う。 次に,隣接するトークンからグラフ畳み込みによる表現を埋め込み,各単語に対するスーパートークンを構築する。 したがってformnetは、シリアライズ中に失われた可能性のあるローカルな構文情報を明示的に復元する。 実験では、FormNetは、CORD、FUNSD、Paymentベンチマーク上で、よりコンパクトなモデルサイズとより少ない事前トレーニングデータで既存のメソッドよりも優れています。

Sequence modeling has demonstrated state-of-the-art performance on natural language and document understanding tasks. However, it is challenging to correctly serialize tokens in form-like documents in practice due to their variety of layout patterns. We propose FormNet, a structure-aware sequence model to mitigate the suboptimal serialization of forms. First, we design Rich Attention that leverages the spatial relationship between tokens in a form for more precise attention score calculation. Second, we construct Super-Tokens for each word by embedding representations from their neighboring tokens through graph convolutions. FormNet therefore explicitly recovers local syntactic information that may have been lost during serialization. In experiments, FormNet outperforms existing methods with a more compact model size and less pre-training data, establishing new state-of-the-art performance on CORD, FUNSD and Payment benchmarks.
翻訳日:2022-03-18 02:44:03 公開日:2022-03-16
# (参考訳) ソフトウェア脆弱性評価モデルにおけるきめ細かい脆弱性コード文の利用について [全文訳有]

On the Use of Fine-grained Vulnerable Code Statements for Software Vulnerability Assessment Models ( http://arxiv.org/abs/2203.08417v1 )

ライセンス: CC BY 4.0
Triet H. M. Le, M. Ali Babar(参考訳) 多くの研究が、ソフトウェア脆弱性(SV)を関数で検出する機械学習(ML)アプローチと、そのようなSVを引き起こす細かいコード文を開発した。 しかし、データ駆動型SVアセスメントにそのような検出出力を活用することで、SVのエクスプロイラビリティ、影響、重大さに関する情報を提供することはほとんどない。 情報はSVを理解し、修正を優先順位付けすることが重要です。 実世界の200のプロジェクトで429のSVの1,782の関数の大規模データを用いて,機能レベルのSVアセスメントタスクを自動化するMLモデル,すなわち,CVSS(Common Vulnerability Scoring System)の7つのメトリクスを予測する。 特に,機能内のSVがこれらのステートメントに起源を持つため,アセスメントモデルを開発するための入力として脆弱なステートメントの価値と使用について検討する。 脆弱なステートメントはサイズが5.8倍小さいが,評価性能が7.5-114.5%向上している(matthews correlation coefficient (mcc))。 脆弱なステートメントを組み込むと、パフォーマンスはさらに8.9%向上する(0.64 MCCと0.75 F1-Score)。 全体として、機能レベルのSV評価のためのMLベースのベースラインを最初に提供し、この方向へのさらなる研究の道を開く。

Many studies have developed Machine Learning (ML) approaches to detect Software Vulnerabilities (SVs) in functions and fine-grained code statements that cause such SVs. However, there is little work on leveraging such detection outputs for data-driven SV assessment to give information about exploitability, impact, and severity of SVs. The information is important to understand SVs and prioritize their fixing. Using large-scale data from 1,782 functions of 429 SVs in 200 real-world projects, we investigate ML models for automating function-level SV assessment tasks, i.e., predicting seven Common Vulnerability Scoring System (CVSS) metrics. We particularly study the value and use of vulnerable statements as inputs for developing the assessment models because SVs in functions are originated in these statements. We show that vulnerable statements are 5.8 times smaller in size, yet exhibit 7.5-114.5% stronger assessment performance (Matthews Correlation Coefficient (MCC)) than non-vulnerable statements. Incorporating context of vulnerable statements further increases the performance by up to 8.9% (0.64 MCC and 0.75 F1-Score). Overall, we provide the initial yet promising ML-based baselines for function-level SV assessment, paving the way for further research in this direction.
翻訳日:2022-03-18 02:00:46 公開日:2022-03-16
# (参考訳) 重力波サーロゲートモデリングのための残留誤差とバグオブトリック学習

Deep Residual Error and Bag-of-Tricks Learning for Gravitational Wave Surrogate Modeling ( http://arxiv.org/abs/2203.08434v1 )

ライセンス: CC BY 4.0
Styliani-Christina Fragkouli, Paraskevi Nousi, Nikolaos Passalis, Panagiotis Iosif, Nikolaos Stergioulas, Anastasios Tefas(参考訳) 深層学習法は重力波天文学において、スピン整列ブラックホール双対の吸気のための代理波形の構築を加速するために用いられている。 本研究では、サーロゲート波形展開の係数(特に波形の位相の係数)をモデル化するニューラルネットワークの残差誤差が、第2のネットワークで学習可能な十分な構造を有することを示す。 この第2のネットワークを追加して,検証セットにおける波形の最大ミスマッチを1桁以上削減することができた。 また、波形間の類似性の利用、トレーニングセットの強化、入力空間の切断、出力係数ごとの専用ネットワークの利用、出力拡張など、サロゲートモデルの精度を向上させるためのいくつかのアイデアについても検討した。 いくつかのケースでは小さな改善が見られるが、最も大きな改善は残差エラーをモデル化する第2のネットワークの追加によるものである。 より一般的なサロゲート波形モデル(例えば偏心性を含む場合)の残差も特定の構造を持つ可能性があるため、精度の上昇が計算時間において顕著な利得をもたらす場合に適用できると期待できる。

Deep learning methods have been employed in gravitational-wave astronomy to accelerate the construction of surrogate waveforms for the inspiral of spin-aligned black hole binaries, among other applications. We demonstrate, that the residual error of an artificial neural network that models the coefficients of the surrogate waveform expansion (especially those of the phase of the waveform) has sufficient structure to be learnable by a second network. Adding this second network, we were able to reduce the maximum mismatch for waveforms in a validation set by more than an order of magnitude. We also explored several other ideas for improving the accuracy of the surrogate model, such as the exploitation of similarities between waveforms, the augmentation of the training set, the dissection of the input space, using dedicated networks per output coefficient and output augmentation. In several cases, small improvements can be observed, but the most significant improvement still comes from the addition of a second network that models the residual error. Since the residual error for more general surrogate waveform models (when e.g. eccentricity is included) may also have a specific structure, one can expect our method to be applicable to cases where the gain in accuracy could lead to significant gains in computational time.
翻訳日:2022-03-18 01:34:17 公開日:2022-03-16
# (参考訳) 知らないことを言うな - ビームサーチの制約による抽象的な要約の一貫性の向上 [全文訳有]

Don't Say What You Don't Know: Improving the Consistency of Abstractive Summarization by Constraining Beam Search ( http://arxiv.org/abs/2203.08436v1 )

ライセンス: CC BY 4.0
Daniel King, Zejiang Shen, Nishant Subramani, Daniel S. Weld, Iz Beltagy, Doug Downey(参考訳) 抽象的要約システムは、今日では、フルーエントで関連する出力を生成するが、しばしばソーステキストでサポートされていないステートメントを「幻覚」する。 本研究は,幻覚とトレーニングデータの関連性を解析し,学習対象の要約を学習した結果,モデルが幻覚する証拠を見出した。 そこで本研究では,ビーム探索を制約して幻覚を回避し,トランスベース抽象要約器の一貫性を向上させる新しい復号法であるpinocchioを提案する。 モデル状態と出力が与えられたステップで与えられた場合、PINOCCHIOはソーステキストへの様々な帰属度に基づいてモデル幻覚を検出する。 PINOCCHIOは、より一貫性のある出力を見つけるためにバックトラックを作成し、一貫性のある生成が見つからない場合、サマリをまったく生成しない。 実験の結果、PINOCCHIOは2つの抽象的な要約データセットに対して平均67%の差で生成の整合性(F1)を向上させることがわかった。

Abstractive summarization systems today produce fluent and relevant output, but often "hallucinate" statements not supported by the source text. We analyze the connection between hallucinations and training data, and find evidence that models hallucinate because they train on target summaries that are unsupported by the source. Based on our findings, we present PINOCCHIO, a new decoding method that improves the consistency of a transformer-based abstractive summarizer by constraining beam search to avoid hallucinations. Given the model states and outputs at a given step, PINOCCHIO detects likely model hallucinations based on various measures of attribution to the source text. PINOCCHIO backtracks to find more consistent output, and can opt to produce no summary at all when no consistent generation can be found. In experiments, we find that PINOCCHIO improves the consistency of generation (in terms of F1) by an average of~67% on two abstractive summarization datasets.
翻訳日:2022-03-18 01:33:12 公開日:2022-03-16
# (参考訳) 追加検出ヘッドを用いた視覚トランスフォーマによるオープンセット認識 [全文訳有]

Open Set Recognition using Vision Transformer with an Additional Detection Head ( http://arxiv.org/abs/2203.08441v1 )

ライセンス: CC BY 4.0
Feiyang Cai, Zhenkai Zhang, Jie Liu, Xenofon Koutsoukos(参考訳) ディープニューラルネットワークは、テストデータがトレーニングデータと同じ分布から来るクローズドセット設定において、画像分類タスクに顕著な能力を示している。 しかし、より現実的なオープンセットのシナリオでは、不完全な知識を持つ従来の分類器は、トレーニングクラスからではないテストデータに対処できない。 オープンセット認識(OSR)は、未知のクラスを識別し、既知のクラスを同時に識別することでこの問題に対処することを目的としている。 本稿では,視覚変換器(ViT)技術に基づくOSRの新しいアプローチを提案する。 具体的には,2つの異なる訓練段階を用いる。 まず、閉集合分類を行うためにViTモデルを訓練する。 そして、ViTによって抽出された埋め込み特徴に付加検出ヘッドを取り付け、既知のデータの表現をクラス固有のクラスタにコンパクトに強制するように訓練する。 テスト例は、クラスタセンターへの距離に基づいて、既知の、または未知のものとして識別される。 我々の知る限り、OSRの目的のためにViTを活用するのはこれが初めてであり、OSRベンチマークデータセットに対する広範な評価により、我々のアプローチが他のベースラインメソッドを大幅に上回っており、新しい最先端のパフォーマンスが得られることが明らかになった。

Deep neural networks have demonstrated prominent capacities for image classification tasks in a closed set setting, where the test data come from the same distribution as the training data. However, in a more realistic open set scenario, traditional classifiers with incomplete knowledge cannot tackle test data that are not from the training classes. Open set recognition (OSR) aims to address this problem by both identifying unknown classes and distinguishing known classes simultaneously. In this paper, we propose a novel approach to OSR that is based on the vision transformer (ViT) technique. Specifically, our approach employs two separate training stages. First, a ViT model is trained to perform closed set classification. Then, an additional detection head is attached to the embedded features extracted by the ViT, trained to force the representations of known data to class-specific clusters compactly. Test examples are identified as known or unknown based on their distance to the cluster centers. To the best of our knowledge, this is the first time to leverage ViT for the purpose of OSR, and our extensive evaluation against several OSR benchmark datasets reveals that our approach significantly outperforms other baseline methods and obtains new state-of-the-art performance.
翻訳日:2022-03-18 01:10:52 公開日:2022-03-16
# (参考訳) ブロックで遊ぶ: サイドチャネルプロファイル攻撃のためのディープラーニングモデルの再使用に向けて [全文訳有]

Playing with blocks: Toward re-usable deep learning models for side-channel profiled attacks ( http://arxiv.org/abs/2203.08448v1 )

ライセンス: CC BY 4.0
Servio Paguada, Lejla Batina, Ileana Buhan, Igor Armendariz(参考訳) 本稿では,サイドチャネル解析のためのディープラーニングモジュールネットワークを提案する。 我々のディープラーニングアプローチは、その部分(モジュール)を他のネットワークと交換する機能を備えている。 評価毎にアーキテクチャを構築するのではなく、サイドチャネル分析に再利用可能なトレーニングされたモジュールを導入することを目的としています。 本実験は,本論文で提案するネットワークにおいて,学習の伝達性が可能であることを示す側チャネル評価が可能であることを示す。

This paper introduces a deep learning modular network for side-channel analysis. Our deep learning approach features the capability to exchange part of it (modules) with others networks. We aim to introduce reusable trained modules into side-channel analysis instead of building architectures for each evaluation, reducing the body of work when conducting those. Our experiments demonstrate that our architecture feasibly assesses a side-channel evaluation suggesting that learning transferability is possible with the network we propose in this paper.
翻訳日:2022-03-18 00:56:30 公開日:2022-03-16
# (参考訳) 検索に基づく未知物体の3次元位置推定のための局所的類似性

Fusing Local Similarities for Retrieval-based 3D Orientation Estimation of Unseen Objects ( http://arxiv.org/abs/2203.08472v1 )

ライセンス: CC BY 4.0
Chen Zhao, Yinlin Hu, Mathieu Salzmann(参考訳) 本稿では,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。 このタスクは、一般的にテスト対象がトレーニング中に観測されたと仮定する、既存のほとんどのディープラーニング手法で検討されているものとは対照的である。 未発見のオブジェクトを扱うために,検索ベースの戦略に従い,クエリ画像と合成した参照画像との複数スケールの局所的類似性を計算することにより,ネットワークがオブジェクト固有の特徴を学習することを防止する。 次に、局所的な類似性をペア画像のグローバルな類似度スコアに頑健に集約する適応融合モジュールを導入する。 さらに,高速なクラスタリングに基づく検索戦略を開発し,検索プロセスを高速化する。 また,LineMOD,LineMOD-Occ luded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。

In this paper, we tackle the task of estimating the 3D orientation of previously-unseen objects from monocular images. This task contrasts with the one considered by most existing deep learning methods which typically assume that the testing objects have been observed during training. To handle the unseen objects, we follow a retrieval-based strategy and prevent the network from learning object-specific features by computing multi-scale local similarities between the query image and synthetically-genera ted reference images. We then introduce an adaptive fusion module that robustly aggregates the local similarities into a global similarity score of pairwise images. Furthermore, we speed up the retrieval process by developing a fast clustering-based retrieval strategy. Our experiments on the LineMOD, LineMOD-Occluded, and T-LESS datasets show that our method yields a significantly better generalization to unseen objects than previous works.
翻訳日:2022-03-18 00:36:57 公開日:2022-03-16
# (参考訳) 2次元モデルからの知識伝達によるデータ有効3次元学習者

Data Efficient 3D Learner via Knowledge Transferred from 2D Model ( http://arxiv.org/abs/2203.08479v1 )

ライセンス: CC BY 4.0
Ping-Chung Yu, Cheng Sun, Min Sun(参考訳) 登録された3dポイントクラウドの収集とラベリングは費用がかかる。 結果として、トレーニング用の3Dリソースは通常、2D画像と比較して量的に制限される。 本研究では,RGB-D画像を用いた強力な2次元モデルから知識を伝達することで,3次元タスクのデータ不足に対処する。 具体的には,2次元画像に対して,強いセマンティックセグメンテーションモデルを用いて,擬似ラベルを用いたRGB-D画像の増強を行う。 拡張データセットは、3dモデルの事前トレーニングに使用できる。 最後に,数個のラベル付き3Dインスタンスを微調整するだけで,既存の3Dラベルの効率向上に適した最先端技術よりも優れています。 また,前訓練により平均教師とエントロピー最小化の結果が改善できることを示し,半教師設定において伝達知識が有効であることを示唆した。 2つの一般的な3Dモデルと3つの異なるタスクに対するアプローチの有効性を検証する。 また,scannetのオフィシャル評価において,データ効率のよいトラック上で,新たな意味セグメンテーション結果を確立する。

Collecting and labeling the registered 3D point cloud is costly. As a result, 3D resources for training are typically limited in quantity compared to the 2D images counterpart. In this work, we deal with the data scarcity challenge of 3D tasks by transferring knowledge from strong 2D models via RGB-D images. Specifically, we utilize a strong and well-trained semantic segmentation model for 2D images to augment RGB-D images with pseudo-label. The augmented dataset can then be used to pre-train 3D models. Finally, by simply fine-tuning on a few labeled 3D instances, our method already outperforms existing state-of-the-art that is tailored for 3D label efficiency. We also show that the results of mean-teacher and entropy minimization can be improved by our pre-training, suggesting that the transferred knowledge is helpful in semi-supervised setting. We verify the effectiveness of our approach on two popular 3D models and three different tasks. On ScanNet official evaluation, we establish new state-of-the-art semantic segmentation results on the data-efficient track.
翻訳日:2022-03-18 00:36:07 公開日:2022-03-16
# (参考訳) MLPを用いた音声表現の学習 [全文訳有]

Learning Audio Representations with MLPs ( http://arxiv.org/abs/2203.08490v1 )

ライセンス: CC BY-SA 4.0
Mashrur M. Morshed, Ahmad Omar Ahsan, Hasan Mahmud, Md. Kamrul Hasan(参考訳) 本稿では,タイムスタンプやシーンレベルのオーディオ埋め込みなどの音声表現を効率よく学習する手法を提案する。 我々は、2次元MFCCを入力として受け入れる逐次的に積み重ねられたゲート型MLPブロックからなるエンコーダを使用する。 さらに,タイムスタンプ埋め込みからシーンレベルの埋め込みを計算するための簡易な時間補間に基づくアルゴリズムも提供する。 提案手法により生成された音声表現は,NeurIPS 2021コンペティショントラックで開催されているHEARチャレンジにおいて,様々なベンチマークで評価される。 我々は、Speech Commands(フル)、Speech Commands(5時間)、Moridingham Tonicベンチマークで1位を獲得しました。 さらに,本手法は,モデルパラメータの数と埋め込み計算に要する時間の両方の観点から,提案手法の中で最も資源効率が高い。

In this paper, we propose an efficient MLP-based approach for learning audio representations, namely timestamp and scene-level audio embeddings. We use an encoder consisting of sequentially stacked gated MLP blocks, which accept 2D MFCCs as inputs. In addition, we also provide a simple temporal interpolation-based algorithm for computing scene-level embeddings from timestamp embeddings. The audio representations generated by our method are evaluated across a diverse set of benchmarks at the Holistic Evaluation of Audio Representations (HEAR) challenge, hosted at the NeurIPS 2021 competition track. We achieved first place on the Speech Commands (full), Speech Commands (5 hours), and the Mridingham Tonic benchmarks. Furthermore, our approach is also the most resource-efficient among all the submitted methods, in terms of both the number of model parameters and the time required to compute embeddings.
翻訳日:2022-03-18 00:35:06 公開日:2022-03-16
# (参考訳) Deepchecks: マシンラーニングモデルとデータのテストと検証のためのライブラリ [全文訳有]

Deepchecks: A Library for Testing and Validating Machine Learning Models and Data ( http://arxiv.org/abs/2203.08491v1 )

ライセンス: CC BY 4.0
Shir Chorev, Philip Tannor, Dan Ben Israel, Noam Bressler, Itay Gabbay, Nir Hutnik, Jonatan Liberman, Matan Perlmutter, Yurii Romanyshyn, Lior Rokach(参考訳) 本稿では,機械学習モデルとデータを包括的に検証するPythonライブラリであるDeepchecksを提案する。 私たちの目標は、モデル予測パフォーマンス、データ完全性、データ分散ミスマッチなど、さまざまなタイプの問題に関連する多くのチェックからなる、使いやすいライブラリを提供することです。 このパッケージはGNU Affero General Public License (AGPL)の下で配布されており、科学的なPythonエコシステムのコアライブラリであるScikit-learn、PyTorch、NumPy、pandas、SciPyに依存している。 ソースコード、ドキュメント、例、および広範なユーザーガイドは、 \url{https://github.com/d eepchecks/deepchecks } と \url{https://docs.deepche cks.com/} にある。

This paper presents Deepchecks, a Python library for comprehensively validating machine learning models and data. Our goal is to provide an easy-to-use library comprising of many checks related to various types of issues, such as model predictive performance, data integrity, data distribution mismatches, and more. The package is distributed under the GNU Affero General Public License (AGPL) and relies on core libraries from the scientific Python ecosystem: scikit-learn, PyTorch, NumPy, pandas, and SciPy. Source code, documentation, examples, and an extensive user guide can be found at \url{https://github.com/d eepchecks/deepchecks } and \url{https://docs.deepche cks.com/}.
翻訳日:2022-03-18 00:18:08 公開日:2022-03-16
# (参考訳) Monte Carlo PINNs:高次元分数偏微分方程式を含む前・逆問題に対するディープラーニングアプローチ [全文訳有]

Monte Carlo PINNs: deep learning approach for forward and inverse problems involving high dimensional fractional partial differential equations ( http://arxiv.org/abs/2203.08501v1 )

ライセンス: CC BY 4.0
Ling Guo, Hao Wu, Xiaochen Yu, Tao Zhou(参考訳) 本稿では,サンプリングに基づく機械学習手法であるモンテカルロ物理情報ニューラルネットワーク(MC-PINN)を導入し,FPDEの前方および逆分数偏微分方程式を解く。 物理学的インフォームドニューラルネットワーク(pinns)の一般化として,dnn出力の分数微分を計算するための確率的近似戦略に加えて,ディープニューラルネットワークサロゲートを用いる。 mcピンの重要な要素は、損失関数における物理的ソフト制約の偏りのない推定を構築することである。 直接サンプリング手法は, \cite{pang2019fpinns} で提案されているfpinnに比べて計算コストを低減し,高次元分数 pdes の解法を提供する。 我々は,高次元積分分数ラプラシア方程式,時間空間分数PDEのパラメトリック同定,ランダムな入力を伴う分数拡散方程式などの例を用いて,MC-PINNs法の性能を検証する。 その結果,MC-PINNは柔軟で,高次元FPDEへの取り組みが期待できることがわかった。

We introduce a sampling based machine learning approach, Monte Carlo physics informed neural networks (MC-PINNs), for solving forward and inverse fractional partial differential equations (FPDEs). As a generalization of physics informed neural networks (PINNs), our method relies on deep neural network surrogates in addition to a stochastic approximation strategy for computing the fractional derivatives of the DNN outputs. A key ingredient in our MC-PINNs is to construct an unbiased estimation of the physical soft constraints in the loss function. Our directly sampling approach can yield less overall computational cost compared to fPINNs proposed in \cite{pang2019fpinns} and thus provide an opportunity for solving high dimensional fractional PDEs. We validate the performance of MC-PINNs method via several examples that include high dimensional integral fractional Laplacian equations, parametric identification of time-space fractional PDEs, and fractional diffusion equation with random inputs. The results show that MC-PINNs is flexible and promising to tackle high-dimensional FPDEs.
翻訳日:2022-03-18 00:12:42 公開日:2022-03-16
# (参考訳) 歴史的文書画像データセットの調査

A Survey of Historical Document Image Datasets ( http://arxiv.org/abs/2203.08504v1 )

ライセンス: CC BY 4.0
Konstantina Nikolaidou, Mathias Seuret, Hamam Mokayed, Marcus Liwicki(参考訳) 本稿では,文書画像解析のための画像データセットの体系的な文献レビューを行い,手書き原稿や初期印刷などの歴史的文書に注目した。 歴史的文書分析に適切なデータセットを見つけることは、異なる機械学習アルゴリズムを用いた研究を容易にするための重要な前提条件である。 しかし、実際のデータ(スクリプト、タスク、日付、サポートシステム、劣化量など)が非常に多様であるため、データとラベル表現の異なるフォーマット、そして異なる評価プロセスとベンチマークのため、適切なデータセットを見つけることは難しい作業である。 この作業はこのギャップを埋め、既存のデータセットにメタスタディを提供する。 体系的な選択プロセス(prismaガイドラインによる)の後、出版年、記事に実装されたメソッドの数、選択されたアルゴリズムの信頼性、データセットサイズ、ジャーナルアウトレットなど、さまざまな要因に基づいて選択された56の研究を選択します。 各研究は、文書分類、レイアウト構造、意味分析の3つのタスクのうちの1つに割り当てることで要約する。 我々は、各データセットの統計、文書タイプ、言語、タスク、入力視覚的側面、および根拠真理情報を提示する。 さらに、これらの論文や最近のコンペティションのベンチマークタスクや結果も提供します。 この領域におけるギャップと課題をさらに議論する。 私たちは、共通のフォーマット(例えば、コンピュータビジョンタスクのCOCOフォーマット)への変換ツールの提供を提唱し、研究に匹敵する結果を得るために、単に1つではなく一連の評価指標を提供しています。

This paper presents a systematic literature review of image datasets for document image analysis, focusing on historical documents, such as handwritten manuscripts and early prints. Finding appropriate datasets for historical document analysis is a crucial prerequisite to facilitate research using different machine learning algorithms. However, because of the very large variety of the actual data (e.g., scripts, tasks, dates, support systems, and amount of deterioration), the different formats for data and label representation, and the different evaluation processes and benchmarks, finding appropriate datasets is a difficult task. This work fills this gap, presenting a meta-study on existing datasets. After a systematic selection process (according to PRISMA guidelines), we select 56 studies that are chosen based on different factors, such as the year of publication, number of methods implemented in the article, reliability of the chosen algorithms, dataset size, and journal outlet. We summarize each study by assigning it to one of three pre-defined tasks: document classification, layout structure, or semantic analysis. We present the statistics, document type, language, tasks, input visual aspects, and ground truth information for every dataset. In addition, we provide the benchmark tasks and results from these papers or recent competitions. We further discuss gaps and challenges in this domain. We advocate for providing conversion tools to common formats (e.g., COCO format for computer vision tasks) and always providing a set of evaluation metrics, instead of just one, to make results comparable across studies.
翻訳日:2022-03-17 23:56:53 公開日:2022-03-16
# (参考訳) contintin: タスク命令からの継続的学習 [全文訳有]

ConTinTin: Continual Learning from Task Instructions ( http://arxiv.org/abs/2203.08512v1 )

ライセンス: CC BY 4.0
Wenpeng Yin, Jia Li, Caiming Xiong(参考訳) nlpの主流となる機械学習パラダイムは、しばしば2つの前提で機能する。 まず、ターゲットのタスクは事前に定義され、静的である。 第二に、タスクの監督は主にラベル付き例のセットから行われる。 新しいタスクを指示から学習し続けるシステムを構築するには、どうすればよいのか? この研究は、システムが新しいタスクのシーケンスを1つずつ学習し、各タスクをテキスト命令で説明すべき新しい学習パラダイム(タスク命令からの継続的な学習)を定義している。 システムは必要です (i)その指示から学習することにより、新たなタスクの期待出力を生成する。 (二)下流のタスク(すなわち、前方のタスク)を解決するために上流のタスクから得られた知識を転送すること。 (iii)新しいタスク(つまり後方転送)を学習した後、以前のタスクのパフォーマンスを維持または改善すること。 この新しい問題は60以上のタスクのストリームで研究され、それぞれに命令が組み込まれている。 技術的には,タスク命令をフル活用して前方転送と後方転送を改善する手法が2つ含まれており,一方は負の出力から学習し,もう一方は先行タスクの指示を再閲覧する手法である。 私たちの知る限り、NLPでConTinTinを研究するのは今回が初めてです。 この問題の定式化と将来的なアプローチに加えて,本研究は,この新たな学習問題をより深く理解するために,コミュニティに豊富な分析を提供することにも貢献する。

The mainstream machine learning paradigms for NLP often work with two underlying presumptions. First, the target task is predefined and static, a system just needs to learn to solve it exclusively. Second, the supervision of a task mainly comes from a set of labeled examples. A question arises: how to build a system that can keep learning new tasks from their instructions? This work defines a new learning paradigm ConTinTin (Continual Learning from Task Instructions), in which a system should learn a sequence of new tasks one by one, each task is explained by a piece of textual instruction. The system is required to (i) generate the expected outputs of a new task by learning from its instruction, (ii) transfer the knowledge acquired from upstream tasks to help solve downstream tasks (i.e, forward-transfer), and (iii) retain or even improve the performance on earlier tasks after learning new tasks (i.e., backward-transfer). This new problem is studied on a stream of more than 60 tasks, each equipped with an instruction. Technically, our method InstructionSpeak contains two strategies that make full use of task instructions to improve forward-transfer and backward-transfer: one is to learn from the negative output, the other is to re-visit instructions of prior tasks. To our knowledge, this is the first time to study ConTinTin in NLP. In addition to the problem formulation and our promising approach, this work also contributes to providing rich analyses for the community to better understand this novel learning problem.
翻訳日:2022-03-17 22:51:42 公開日:2022-03-16
# (参考訳) 視覚に基づくディープラーニングへの言語指導の統合 [全文訳有]

Integrating Language Guidance into Vision-based Deep Metric Learning ( http://arxiv.org/abs/2203.08543v1 )

ライセンス: CC BY 4.0
Karsten Roth, Oriol Vinyals, Zeynep Akata(参考訳) Deep Metric Learning (DML)は、意味的類似性を埋め込み空間距離としてエンコードする距離空間を学習することを提案する。 これらの空間は、トレーニング中に見られる以上のクラスに転送可能であるべきである。 一般的に、DMLはタスクネットワークを使ってバイナリクラス割り当てで定義された対照的なランキングタスクを解決する。 しかし、このようなアプローチは実際のクラス間の高度な意味関係を無視する。 これにより、学習された埋め込み空間は不完全意味文脈を符号化し、クラス間の意味関係を誤って表現し、学習された計量空間の一般化可能性に影響を与える。 本稿では,視覚類似性学習のための言語指導目標を提案する。 専門家と疑似クラス名の言語埋め込みを活用することで、意味のある言語意味論に対応する視覚的表現空間を文脈化し、現実的に表現し、セマンティック一貫性を向上させる。 広範な実験とアブレーションは,提案手法の強い動機を与え,dmlに対する重要な,モデルに依存しない改善を提供し,すべてのベンチマークで競争力と最先端の結果を得る言語ガイダンスを示す。 コードはhttps://github.com/e xplainableml/languag eguidance_for_dml。

Deep Metric Learning (DML) proposes to learn metric spaces which encode semantic similarities as embedding space distances. These spaces should be transferable to classes beyond those seen during training. Commonly, DML methods task networks to solve contrastive ranking tasks defined over binary class assignments. However, such approaches ignore higher-level semantic relations between the actual classes. This causes learned embedding spaces to encode incomplete semantic context and misrepresent the semantic relation between classes, impacting the generalizability of the learned metric space. To tackle this issue, we propose a language guidance objective for visual similarity learning. Leveraging language embeddings of expert- and pseudo-classnames, we contextualize and realign visual representation spaces corresponding to meaningful language semantics for better semantic consistency. Extensive experiments and ablations provide a strong motivation for our proposed approach and show language guidance offering significant, model-agnostic improvements for DML, achieving competitive and state-of-the-art results on all benchmarks. Code available at https://github.com/E xplainableML/Languag eGuidance_for_DML.
翻訳日:2022-03-17 22:35:22 公開日:2022-03-16
# (参考訳) プロキシに基づくDeep Metric Learningのための非等方正則化 [全文訳有]

Non-isotropy Regularization for Proxy-based Deep Metric Learning ( http://arxiv.org/abs/2203.08547v1 )

ライセンス: CC BY 4.0
Karsten Roth, Oriol Vinyals, Zeynep Akata(参考訳) Deep Metric Learning (DML) は、意味的関係を予め定義された距離メトリクスで簡単に表現できる表現空間を学習することを目的としている。 ベストパフォーマンスアプローチは、よくクラスプロキシをサンプルのスタンドインとして利用して収束と一般化を改善する。 しかし、これらのプロキシメソッドはサンプルプロキシ距離のみを最適化する。 使用距離関数の固有の非単射性を考えると、これは局所等方性サンプル分布を誘導し、局所構造を解くのが困難であり、サンプル間のクラス内関係が欠落する。 この問題を緩和するために、プロキシベースのDeep Metric Learningのための非等方正則化($\mathbb{NIR}$)を提案する。 フローの正規化を活用することで,各クラスプロキシからのサンプルのユニークな変換性を実現する。 これにより、プロキシの周囲のサンプルの非等方分布を明示的に誘導して最適化することが可能になる。 そのため、プロキシベースの目的を設定して、ローカル構造をよりよく学習する。 大規模な実験は、標準ベンチマークであるCUB200-2011、Cars196、Stanford Online Productsの競争力と最先端のパフォーマンスを達成しつつ、$\mathbb{NIR}$の一貫性のある一般化の利点を強調している。 さらに、プロキシベースのメソッドの優れた収束特性は保持または改善される必要があり、実使用には$\mathbb{nir}$が非常に魅力的である。 コードはhttps://github.com/e xplainableml/nonisot ropicproxydml。

Deep Metric Learning (DML) aims to learn representation spaces on which semantic relations can simply be expressed through predefined distance metrics. Best performing approaches commonly leverage class proxies as sample stand-ins for better convergence and generalization. However, these proxy-methods solely optimize for sample-proxy distances. Given the inherent non-bijectiveness of used distance functions, this can induce locally isotropic sample distributions, leading to crucial semantic context being missed due to difficulties resolving local structures and intraclass relations between samples. To alleviate this problem, we propose non-isotropy regularization ($\mathbb{NIR}$) for proxy-based Deep Metric Learning. By leveraging Normalizing Flows, we enforce unique translatability of samples from their respective class proxies. This allows us to explicitly induce a non-isotropic distribution of samples around a proxy to optimize for. In doing so, we equip proxy-based objectives to better learn local structures. Extensive experiments highlight consistent generalization benefits of $\mathbb{NIR}$ while achieving competitive and state-of-the-art performance on the standard benchmarks CUB200-2011, Cars196 and Stanford Online Products. In addition, we find the superior convergence properties of proxy-based methods to still be retained or even improved, making $\mathbb{NIR}$ very attractive for practical usage. Code available at https://github.com/E xplainableML/NonIsot ropicProxyDML.
翻訳日:2022-03-17 22:05:10 公開日:2022-03-16
# (参考訳) すべてクラスタゲームですか? --埋め込み空間におけるクラスタリングに基づく分布外検出の探索 [全文訳有]

Is it all a cluster game? -- Exploring Out-of-Distribution Detection based on Clustering in the Embedding Space ( http://arxiv.org/abs/2203.08549v1 )

ライセンス: CC BY 4.0
Poulami Sinhamahapatra, Rajat Koner, Karsten Roscher, Stephan G\"unnemann(参考訳) 新しい入力がトレーニング分布と大きく異なるタイミングを決定するためには、ディープニューラルネットワークの安全性クリティカルな応用が不可欠である。 本稿では,トレーニングデータの意味的に類似した組込みのクラスタを用いた画像分類におけるod(out-of-distributi on)検出問題を調査し,これらのクラスタ間の距離関係の差異を生かした。 組込み空間におけるクラスタの構造と分離について検討し、教師付きコントラスト学習が十分に分離されたクラスタに繋がる一方、自己教師型クラスタはそれを行うことができないことを示す。 さまざまなトレーニング方法、クラスタリング戦略、距離メトリクス、しきい値アプローチの広範な分析では、明確な勝者が存在しないことが分かりました。 最適なアプローチは、モデルアーキテクチャと、イン・オブ・オブ・ディストリビューションのための選択されたデータセットに依存する。 CIFAR-10のコントラストトレーニングを非分布データとして再現することができたが、コサイン類似性と組み合わせた標準的なクロスエントロピーは、CIFAR-100のトレーニングにおいて、全てのコントラストトレーニング方法よりも優れていた。 クロスエントロピーは、高価な対照的な訓練方法と比較して競争力のある結果をもたらす。

It is essential for safety-critical applications of deep neural networks to determine when new inputs are significantly different from the training distribution. In this paper, we explore this out-of-distribution (OOD) detection problem for image classification using clusters of semantically similar embeddings of the training data and exploit the differences in distance relationships to these clusters between in- and out-of-distribution data. We study the structure and separation of clusters in the embedding space and find that supervised contrastive learning leads to well-separated clusters while its self-supervised counterpart fails to do so. In our extensive analysis of different training methods, clustering strategies, distance metrics, and thresholding approaches, we observe that there is no clear winner. The optimal approach depends on the model architecture and selected datasets for in- and out-of-distribution. While we could reproduce the outstanding results for contrastive training on CIFAR-10 as in-distribution data, we find standard cross-entropy paired with cosine similarity outperforms all contrastive training methods when training on CIFAR-100 instead. Cross-entropy provides competitive results as compared to expensive contrastive training methods.
翻訳日:2022-03-17 21:42:47 公開日:2022-03-16
# (参考訳) Few-Shot対話状態追跡のための文脈学習 [全文訳有]

In-Context Learning for Few-Shot Dialogue State Tracking ( http://arxiv.org/abs/2203.08568v1 )

ライセンス: CC BY 4.0
Yushi Hu, Chia-Hsuan Lee, Tianbao Xie, Tao Yu, Noah A. Smith, Mari Ostendorf(参考訳) タスク指向対話の収集と注釈付けには時間と費用がかかります。 このように、対話タスクのための数発の学習は、エキサイティングな機会となる。 本研究では,大規模な事前学習言語モデル(LM)がテストインスタンスといくつかの注釈付きサンプルを入力として取り出し,パラメータを更新せずに直接対話状態を復号する,数ショット対話状態追跡(DST)のためのコンテキスト内学習フレームワークを提案する。 これにより、新しいドメインやシナリオに適応する際の以前のdstよりも、lmの柔軟性と拡張性が向上する。 対話コンテキストをlmsのプロンプトとして定式化する方法を検討し,テストインスタンスと少数のサンプルの選択プールを与えられた例として,対話を検索するための効率的な手法を提案する。 また,事前学習したLMをよりよく活用するために,DSTをテキストからSQLへ変換する。 MultiWOZ 2.1 と 2.4 の実証実験の結果、IC-DST 法は、過去の微調整された最先端モデルを数ショット設定で上回っていることがわかった。

Collecting and annotating task-oriented dialogues is time-consuming and costly. Thus, few-shot learning for dialogue tasks presents an exciting opportunity. In this work, we propose an in-context (IC) learning framework for few-shot dialogue state tracking (DST), where a large pre-trained language model (LM) takes a test instance and a few annotated examples as input, and directly decodes the dialogue states without any parameter updates. This makes the LM more flexible and scalable compared to prior few-shot DST work when adapting to new domains and scenarios. We study ways to formulate dialogue context into prompts for LMs and propose an efficient approach to retrieve dialogues as exemplars given a test instance and a selection pool of few-shot examples. To better leverage the pre-trained LMs, we also reformulate DST into a text-to-SQL problem. Empirical results on MultiWOZ 2.1 and 2.4 show that our method IC-DST outperforms previous fine-tuned state-of-the-art models in few-shot settings.
翻訳日:2022-03-17 21:25:52 公開日:2022-03-16
# (参考訳) 生成木を用いた平滑な因果推定器 [全文訳有]

Undersmoothing Causal Estimators with Generative Trees ( http://arxiv.org/abs/2203.08570v1 )

ライセンス: CC BY 4.0
Damian Machlanski, Spyros Samothrakis, Paul Clarke(参考訳) 観察データから個別に治療効果を推定することで、標的となる介入の可能性を解き放つことができる。 しかし、観測データからこれらの効果を推測することは困難である。 最大の問題は共変量シフト(covariate shift)で、そこではデータ (outcome) 条件分布は同じだが、トレーニングとテストセットの間で共変量 (input) 分布が変化する。 観測データ設定では、異なる分布から来る制御および処理単位においてこの問題が成立する。 一般的な解決策は、リウィーディングスキーム(例えば、確率スコア)を通じて学習方法を強化することである。 これらはモデルの誤特定によって必要となるが、個々のケースではパフォーマンスを損なう可能性がある。 本稿では,モデル不特定性に直接取り組み,下流推定器の堅牢性向上を支援する,新しい生成木に基づく手法を提案する。 モデルクラスの選択が最終的な性能に著しく影響を及ぼし、リウィーディング手法が個々の効果推定に苦しむことを実証的に示す。 提案手法は, 平均治療効果に対する改善法と競合するが, 個別治療効果は有意に良好である。

Inferring individualised treatment effects from observational data can unlock the potential for targeted interventions. It is, however, hard to infer these effects from observational data. One major problem that can arise is covariate shift where the data (outcome) conditional distribution remains the same but the covariate (input) distribution changes between the training and test set. In an observational data setting, this problem is materialised in control and treated units coming from different distributions. A common solution is to augment learning methods through reweighing schemes (e.g. propensity scores). These are needed due to model misspecification, but might hurt performance in the individual case. In this paper, we explore a novel generative tree based approach that tackles model misspecification directly, helping downstream estimators achieve better robustness. We show empirically that the choice of model class can indeed significantly affect the final performance and that reweighing methods can struggle in individualised effect estimation. Our proposed approach is competitive with reweighing methods on average treatment effects while performing significantly better on individualised treatment effects.
翻訳日:2022-03-17 21:06:47 公開日:2022-03-16
# (参考訳) 対話性(主観的)の優先事項をウィッシャーする? [全文訳有]

Whither the Priors for (Vocal) Interactivity? ( http://arxiv.org/abs/2203.08578v1 )

ライセンス: CC BY 4.0
Roger K. Moore(参考訳) 音声ベースのコミュニケーションは、人間とロボットが対話する最も「自然な」方法の1つとしてしばしば言及されており、近年、正確な自動音声認識と理解可能な音声合成が利用可能になったことで、研究者は高度な市販の音声技術コンポーネントをロボットプラットフォームに統合できるようになった。 それにもかかわらず、結果として生じる相互作用は‘自然’に過ぎません。 それは、単にロボットに声を与えるだけでは、ユーザーがそれと対話する方法(またはいつ)を知っていないということであり、結果として生じる「会話」は、片思いにしがみつき、短くなる傾向がある。 表面的には、これらの困難は、ユーザがロボットに慣れていないこと(および‘emph{vice versa}’)によってかなり自明な結果となり、どんな問題でもロボットによる「深層学習」と組み合わさって、人間による長期的な使用によって軽減される。 しかし、このようなコミュニケーションの失敗は、基礎原理の基本的な欠如、特に音声に基づく相互作用の基盤となる、より深い誤認の現れである、とここでは主張されている。 これは、現代の音声言語システムでは、幼児が経験したよりもマグニチュードが大きい訓練データセットが既に必要であるだけでなく、効果的なコミュニケーション的人間とロボットの相互作用を生み出すための設計原則が欠如していることによって証明されている。 この短い位置の論文は、これらの欠点を克服するために理論的洞察が役立つかもしれない重要な領域を明らかにした。

Voice-based communication is often cited as one of the most `natural' ways in which humans and robots might interact, and the recent availability of accurate automatic speech recognition and intelligible speech synthesis has enabled researchers to integrate advanced off-the-shelf spoken language technology components into their robot platforms. Despite this, the resulting interactions are anything but `natural'. It transpires that simply giving a robot a voice doesn't mean that a user will know how (or when) to talk to it, and the resulting `conversations' tend to be stilted, one-sided and short. On the surface, these difficulties might appear to be fairly trivial consequences of users' unfamiliarity with robots (and \emph{vice versa}), and that any problems would be mitigated by long-term use by the human, coupled with `deep learning' by the robot. However, it is argued here that such communication failures are indicative of a deeper malaise: a fundamental lack of basic principles -- \emph{priors} -- underpinning not only speech-based interaction in particular, but (vocal) interactivity in general. This is evidenced not only by the fact that contemporary spoken language systems already require training data sets that are orders-of-magnitude greater than that experienced by a young child, but also by the lack of design principles for creating effective communicative human-robot interaction. This short position paper identifies some of the key areas where theoretical insights might help overcome these shortfalls.
翻訳日:2022-03-17 20:49:26 公開日:2022-03-16
# (参考訳) MIMO-GAN:ジェネレーティブMIMOチャネルモデリング [全文訳有]

MIMO-GAN: Generative MIMO Channel Modeling ( http://arxiv.org/abs/2203.08588v1 )

ライセンス: CC BY 4.0
Tribhuvanesh Orekondy, Arash Behboodi, Joseph B. Soriaga(参考訳) チャネル入力出力の測定から統計的チャネルモデルを学習するための生成チャネルモデリングを提案する。 生成チャネルモデルは、より複雑な分布を学び、フィールドデータをより忠実に表現することができる。 それらは抽出可能で、サンプルも容易で、シミュレーションラウンドをスピードアップする可能性がある。 そこで我々は,観測結果から確率的MIMOチャネル上の暗黙分布の学習を支援するGANの進歩を活用する。 特に,mimo-ganアプローチは,帯域制限されたインパルス応答の時間領域分布として無線チャネルを暗黙的にモデル化する。 我々は,3GPP TDL MIMOチャネル上でMIMO-GANを評価し,基礎となるチャネルの捕捉,遅延,空間相関の統計値に高い一貫性を観測した。 特に、MIMO-GANが平均遅延3.57 ns、-18.7 dBの誤差を達成するのを観察する。

We propose generative channel modeling to learn statistical channel models from channel input-output measurements. Generative channel models can learn more complicated distributions and represent the field data more faithfully. They are tractable and easy to sample from, which can potentially speed up the simulation rounds. To achieve this, we leverage advances in GAN, which helps us learn an implicit distribution over stochastic MIMO channels from observed measurements. In particular, our approach MIMO-GAN implicitly models the wireless channel as a distribution of time-domain band-limited impulse responses. We evaluate MIMO-GAN on 3GPP TDL MIMO channels and observe high-consistency in capturing power, delay and spatial correlation statistics of the underlying channel. In particular, we observe MIMO-GAN achieve errors of under 3.57 ns average delay and -18.7 dB power.
翻訳日:2022-03-17 20:42:25 公開日:2022-03-16
# (参考訳) ダンピングと積み重ねを用いた敵対的学習フェア表現 [全文訳有]

Adversarial Learned Fair Representations using Dampening and Stacking ( http://arxiv.org/abs/2203.08637v1 )

ライセンス: CC BY 4.0
Max Knobbout(参考訳) 日々の意思決定が自動化されると、公平な意思決定を行う機械学習アルゴリズムの必要性が高まる。 公平な表現学習では、センシティブな変数が検閲されるデータの適切な表現を見つけることが求められます。 最近の研究は、敵対的学習を通じて公平な表現を学ぶことを目的としている。 本稿では, 制振と積み重ねを用いて, 敵対的公正表現を学習する新しいアルゴリズムを提案する。 その結果,このアルゴリズムは,検閲と再構成の両面で初期の作業により改善されていることがわかった。

As more decisions in our daily life become automated, the need to have machine learning algorithms that make fair decisions increases. In fair representation learning we are tasked with finding a suitable representation of the data in which a sensitive variable is censored. Recent work aims to learn fair representations through adversarial learning. This paper builds upon this work by introducing a novel algorithm which uses dampening and stacking to learn adversarial fair representations. Results show that that our algorithm improves upon earlier work in both censoring and reconstruction.
翻訳日:2022-03-17 20:29:19 公開日:2022-03-16
# (参考訳) 文脈認識ドリフト検出 [全文訳有]

Context-Aware Drift Detection ( http://arxiv.org/abs/2203.08644v1 )

ライセンス: CC BY 4.0
Oliver Cobb and Arnaud Van Looveren(参考訳) 機械学習システムを監視する場合、同質性の2サンプルテストは、既存のドリフト検出手法が構築する基盤となる。 それらは、最近のデプロイメントデータを支える分布が、過去の参照データと異なるという証拠をテストするために使用される。 しかし、時間的相関のような様々な要因により、最近の展開データのバッチは、歴史的データ分布からi.d.サンプルを形成することは期待できない。 その代わり、変更が許される \textit{context} の条件付き分布の差異をテストしたいかもしれません。 これを容易にするために、我々は因果推論領域から機械を借り、条件分布処理効果の2サンプル試験の基礎の上に構築されたより一般的なドリフト検出フレームワークを開発する。 最大条件平均不一致に基づくフレームワークの特定のインスタンス化を推奨する。 そこで,本研究では,データサブポピュレーションを基礎とする分布におけるドリフトの検出を,それぞれの頻度に敏感な方法で行うなど,実践的関心のドリフト検出問題に対するその有効性を示す実証的研究を行った。 この研究は、imagenet-scale vision問題への適用性も示している。

When monitoring machine learning systems, two-sample tests of homogeneity form the foundation upon which existing approaches to drift detection build. They are used to test for evidence that the distribution underlying recent deployment data differs from that underlying the historical reference data. Often, however, various factors such as time-induced correlation mean that batches of recent deployment data are not expected to form an i.i.d. sample from the historical data distribution. Instead we may wish to test for differences in the distributions conditional on \textit{context} that is permitted to change. To facilitate this we borrow machinery from the causal inference domain to develop a more general drift detection framework built upon a foundation of two-sample tests for conditional distributional treatment effects. We recommend a particular instantiation of the framework based on maximum conditional mean discrepancies. We then provide an empirical study demonstrating its effectiveness for various drift detection problems of practical interest, such as detecting drift in the distributions underlying subpopulations of data in a manner that is insensitive to their respective prevalences. The study additionally demonstrates applicability to ImageNet-scale vision problems.
翻訳日:2022-03-17 20:13:51 公開日:2022-03-16
# (参考訳) 構造的不確かさ問題と Lov\'asz ヒンジ [全文訳有]

The Structured Abstain Problem and the Lov\'asz Hinge ( http://arxiv.org/abs/2203.08645v1 )

ライセンス: CC BY 4.0
Jessie Finocchiaro and Rafael Frongilo and Enrique Nueve(参考訳) lov\'asz ヒンジは構造化バイナリ分類のために最近提案された凸サーロゲートで、$k$ バイナリの予測が同時に行われ、エラーは部分モジュラー集合関数によって判断される。 画像のセグメンテーションや関連する問題で広く使われているが、一貫性は依然として維持されている。 この開問題は、Lov\'asz のヒンジが、集合関数がモジュラーでない限り、その所望の目的に対して矛盾しないことを示す。 最近の組込みフレームワークを利用することで、lov\'aszヒンジが一貫性のあるターゲット損失を導出します。 このターゲットは構造化アブスタン問題(structured abstain problem)と呼ばれ、$k$の予測の任意のサブセットを棄却できる。 2つのリンク関数を導出し、それぞれがすべての部分モジュラー集合関数に対して同一である。

The Lov\'asz hinge is a convex surrogate recently proposed for structured binary classification, in which $k$ binary predictions are made simultaneously and the error is judged by a submodular set function. Despite its wide usage in image segmentation and related problems, its consistency has remained open. We resolve this open question, showing that the Lov\'asz hinge is inconsistent for its desired target unless the set function is modular. Leveraging a recent embedding framework, we instead derive the target loss for which the Lov\'asz hinge is consistent. This target, which we call the structured abstain problem, allows one to abstain on any subset of the $k$ predictions. We derive two link functions, each of which are consistent for all submodular set functions simultaneously.
翻訳日:2022-03-17 19:40:25 公開日:2022-03-16
# (参考訳) ビデオ符号化における学習ループ内フィルタリングの複雑性低減 [全文訳有]

Complexity Reduction of Learned In-Loop Filtering in Video Coding ( http://arxiv.org/abs/2203.08650v1 )

ライセンス: CC BY 4.0
Woody Bayliss, Luka Murn, Ebroul Izquierdo, Qianni Zhang, Marta Mrak(参考訳) ビデオ符号化では、インループフィルタを再構成されたビデオフレームに適用し、その知覚的品質を高める。 普通? ループフィルタは手作りの手法で得られる。 近年,注目機構を利用した畳み込みニューラルネットワークに基づく学習フィルタは,従来の手法により改善されている。 しかしながら、これらの解は典型的には計算コストが著しく高く、実用的な応用の可能性を制限する。 提案手法は,学習したインループフィルタの複雑性低減のために,スポーシティと構造化プルーニングを組み合わせた新しい手法である。 これは、マグニチュード誘導プルーニング、重要なニューロンの識別と除去、微調整という3段階のトレーニングプロセスを通じて行われる。 初期テストにより、ネットワーク性能に最小限の影響を与えることなく、ネットワークパラメータを著しく削減できることがわかった。

In video coding, in-loop filters are applied on reconstructed video frames to enhance their perceptual quality, before storing the frames for output. Conventional in? loop filters are obtained by hand-crafted methods. Recently, learned filters based on convolutional neural networks that utilize attention mechanisms have been shown to improve upon traditional techniques. However, these solutions are typically significantly more computationally expensive, limiting their potential for practical applications. The proposed method uses a novel combination of sparsity and structured pruning for complexity reduction of learned in-loop filters. This is done through a three-step training process of magnitude-guidedweig ht pruning, insignificant neuron identification and removal, and fine-tuning. Through initial tests we find that network parameters can be significantly reduced with a minimal impact on network performance.
翻訳日:2022-03-17 19:00:49 公開日:2022-03-16
# (参考訳) 第二意見の因果推論 [全文訳有]

Counterfactual Inference of Second Opinions ( http://arxiv.org/abs/2203.08653v1 )

ライセンス: CC BY 4.0
Nina Corvelo Benz and Manuel Gomez Rodriguez(参考訳) 専門家から第2の意見を推測できる自動意思決定支援システムは、リソースのより効率的な配分を促進する可能性がある。 本稿では, 対実的推論の観点から, この種の支援システムの設計について考察する。 我々は,マルチクラス分類の設定に注目し,専門家が自身で予測を行う場合,それらの予測を生成する基礎となる因果メカニズムが望ましいセット不変性を満たす必要があることを示す。 さらに, この特性を満たす因果機構には, それぞれの専門家による予測が, 共通のノイズによって支配される独立したサブメカニズムによって生成される, 等価なメカニズムが存在することを示す。 このことは、Gumbel-Max構造因果モデルの設計を動機付け、モデルを支えるサブメカニズムを規定するノイズの構造は、データから推定できる専門家間の類似性の直感的な概念に依存する。 合成データと実データの両方で実験した結果、我々のモデルは第二の意見をより正確に推測できることがわかった。

Automated decision support systems that are able to infer second opinions from experts can potentially facilitate a more efficient allocation of resources; they can help decide when and from whom to seek a second opinion. In this paper, we look at the design of this type of support systems from the perspective of counterfactual inference. We focus on a multiclass classification setting and first show that, if experts make predictions on their own, the underlying causal mechanism generating their predictions needs to satisfy a desirable set invariant property. Further, we show that, for any causal mechanism satisfying this property, there exists an equivalent mechanism where the predictions by each expert are generated by independent sub-mechanisms governed by a common noise. This motivates the design of a set invariant Gumbel-Max structural causal model where the structure of the noise governing the sub-mechanisms underpinning the model depends on an intuitive notion of similarity between experts which can be estimated from data. Experiments on both synthetic and real data show that our model can be used to infer second opinions more accurately than its non-causal counterpart.
翻訳日:2022-03-17 18:51:20 公開日:2022-03-16
# (参考訳) スパース観測時空間ダイナミクス予測のための未達成マルチレベル変換ネットワーク [全文訳有]

Unraveled Multilevel Transformation Networks for Predicting Sparsely-Observed Spatiotemporal Dynamics ( http://arxiv.org/abs/2203.08655v1 )

ライセンス: CC BY 4.0
Priyabrata Saha and Saibal Mukhopadhyay(参考訳) 本稿では,不規則な空間的位置で利用可能なデータが記録されたときに,複雑で非線形な時空間ダイナミクスを予測する問題に対処する。 時空間力学をモデル化するための既存のディープラーニングモデルのほとんどは、正規グリッド内のデータのために設計されているか、スパースや不規則に間隔を置いたデータサイトから空間関係を明らかにするのに苦労している。 疎分散データサイトからのデータを用いて,未知の時空間ダイナミクスを学習する深層学習モデルを提案する。 我々は、偏微分方程式(PDE)のメッシュフリー解によく用いられる放射基底関数(RBF)のコロケーション法に基づく。 RBFフレームワークにより、観測された時空間関数を解き、RBF空間上のデータサイト間の空間的相互作用を学習することができる。 学習された空間的特徴は、生観測のマルチレベル変換を構成し、将来の時間ステップでその進化を予測するために使用される。 合成および実世界の気候データを用いて,本手法の利点を実証する。

In this paper, we address the problem of predicting complex, nonlinear spatiotemporal dynamics when available data is recorded at irregularly-spaced sparse spatial locations. Most of the existing deep learning models for modeling spatiotemporal dynamics are either designed for data in a regular grid or struggle to uncover the spatial relations from sparse and irregularly-spaced data sites. We propose a deep learning model that learns to predict unknown spatiotemporal dynamics using data from sparsely-distributed data sites. We base our approach on Radial Basis Function (RBF) collocation method which is often used for meshfree solution of partial differential equations (PDEs). The RBF framework allows us to unravel the observed spatiotemporal function and learn the spatial interactions among data sites on the RBF-space. The learned spatial features are then used to compose multilevel transformations of the raw observations and predict its evolution in future time steps. We demonstrate the advantage of our approach using both synthetic and real-world climate data.
翻訳日:2022-03-17 18:23:18 公開日:2022-03-16
# (参考訳) 予測感度によるテキスト分類器の公正度測定 [全文訳有]

Measuring Fairness of Text Classifiers via Prediction Sensitivity ( http://arxiv.org/abs/2203.08670v1 )

ライセンス: CC BY 4.0
Satyapriya Krishna, Rahul Gupta, Apurv Verma, Jwala Dhamala, Yada Pruksachatkun, Kai-Wei Chang(参考訳) 言語処理アプリケーションの急速な成長に伴い、公正性はデータ駆動型ソリューションにおいて重要な考慮事項となっている。 近年の文献では様々なフェアネスの定義が検討されているが、どの指標がシステムのフェアネスを最も正確に反映しているかについてのコンセンサスがない。 本研究では,入力特徴の摂動に対するモデルの予測感度に基づいて,機械学習モデルの公平性を測定する新しい定式化法を提案する。 メートル法は、保護された属性が保護されたグループ内の個人のメンバシップステータスを符号化する保護された属性に依存する程度を定量化しようとする。 計量は、理論上、群フェアネス(統計的パリティ)と個々フェアネスの特定の概念と結びつくことが示されている。 また、人間の公平感ともよく関連している。 JIGSAW TOXICITYとBIAS in BIOSの2つのテキスト分類データセットを用いて実験を行い、モデルが公正な結果をもたらすかどうかのメトリクスと手動アノテーションの相関性を評価する。 予測感度に基づく公正度指標は, 既存の非事実的公正度指標よりも, 統計的に人間の注記と相関している。

With the rapid growth in language processing applications, fairness has emerged as an important consideration in data-driven solutions. Although various fairness definitions have been explored in the recent literature, there is lack of consensus on which metrics most accurately reflect the fairness of a system. In this work, we propose a new formulation : ACCUMULATED PREDICTION SENSITIVITY, which measures fairness in machine learning models based on the model's prediction sensitivity to perturbations in input features. The metric attempts to quantify the extent to which a single prediction depends on a protected attribute, where the protected attribute encodes the membership status of an individual in a protected group. We show that the metric can be theoretically linked with a specific notion of group fairness (statistical parity) and individual fairness. It also correlates well with humans' perception of fairness. We conduct experiments on two text classification datasets : JIGSAW TOXICITY, and BIAS IN BIOS, and evaluate the correlations between metrics and manual annotations on whether the model produced a fair outcome. We observe that the proposed fairness metric based on prediction sensitivity is statistically significantly more correlated with human annotation than the existing counterfactual fairness metric.
翻訳日:2022-03-17 18:08:17 公開日:2022-03-16
# (参考訳) 脱カップリング知識蒸留

Decoupled Knowledge Distillation ( http://arxiv.org/abs/2203.08679v1 )

ライセンス: CC BY 4.0
Borui Zhao, Quan Cui, Renjie Song, Yiyu Qiu, Jiajun Liang(参考訳) 最先端の蒸留法は主に中間層からの深層蒸留に基づいているが、ロジット蒸留の意義は見過ごされている。 ロジット蒸留研究の新しい視点として、古典的kd損失を2つの部分、すなわち、目標クラス知識蒸留(tckd)と非目標クラス知識蒸留(nckd)に再構成する。 TCKDはトレーニングサンプルの「難易度」に関する知識を伝達するが、NCKDはロジット蒸留が機能する顕著な理由である。 さらに,古典的KD損失は結合定式化であり,(1)NCKDの有効性を抑制し,(2)これらの2つの部分のバランスをとる柔軟性を制限する。 これらの問題に対処するために,tckd と nckd がより効率的かつ柔軟に役割を果たすことができるdkd (decoupled knowledge distillation) を提案する。 複雑な機能ベース手法と比較すると,dkdはcifar-100,imagenet,m s-cocoデータセットにおける画像分類やオブジェクト検出のトレーニング効率が向上する。 本稿では,ロジット蒸留の可能性を示すとともに,今後の研究に役立つことを期待する。 コードはhttps://github.com/m egvii-research/mdist illerで入手できる。

State-of-the-art distillation methods are mainly based on distilling deep features from intermediate layers, while the significance of logit distillation is greatly overlooked. To provide a novel viewpoint to study logit distillation, we reformulate the classical KD loss into two parts, i.e., target class knowledge distillation (TCKD) and non-target class knowledge distillation (NCKD). We empirically investigate and prove the effects of the two parts: TCKD transfers knowledge concerning the "difficulty" of training samples, while NCKD is the prominent reason why logit distillation works. More importantly, we reveal that the classical KD loss is a coupled formulation, which (1) suppresses the effectiveness of NCKD and (2) limits the flexibility to balance these two parts. To address these issues, we present Decoupled Knowledge Distillation (DKD), enabling TCKD and NCKD to play their roles more efficiently and flexibly. Compared with complex feature-based methods, our DKD achieves comparable or even better results and has better training efficiency on CIFAR-100, ImageNet, and MS-COCO datasets for image classification and object detection tasks. This paper proves the great potential of logit distillation, and we hope it will be helpful for future research. The code is available at https://github.com/m egvii-research/mdist iller.
翻訳日:2022-03-17 17:50:22 公開日:2022-03-16
# (参考訳) 教育における回答を意識した質問生成の可能性に関する研究 [全文訳有]

A Feasibility Study of Answer-Unaware Question Generation for Education ( http://arxiv.org/abs/2203.08685v1 )

ライセンス: CC BY 4.0
Liam Dugan, Eleni Miltsakaki, Shriyash Upadhyay, Etan Ginsberg, Hannah Gonzalez, Dayheon Choi, Chuning Yuan, Chris Callison-Burch(参考訳) 本研究は,質問生成モデルが教科書に応用可能かどうかについて検討する。 このようなシステムにおけるエラーのかなりの部分は、無関係または解釈不能な質問から発生し、要約された入力を提供することで、そのようなエラーを改善できることを示します。 原文の代わりに人書き要約を付与すると、専門家アノテータによって決定されるような、生成した質問(33%$\rightarrow$83% )の受理性が著しく向上することがわかった。 また、人間が書いた要約がなければ、自動要約が良い中間地盤として役立つこともわかりました。

We conduct a feasibility study into the applicability of answer-unaware question generation models to textbook passages. We show that a significant portion of errors in such systems arise from asking irrelevant or uninterpretable questions and that such errors can be ameliorated by providing summarized input. We find that giving these models human-written summaries instead of the original text results in a significant increase in acceptability of generated questions (33% $\rightarrow$ 83%) as determined by expert annotators. We also find that, in the absence of human-written summaries, automatic summarization can serve as a good middle ground.
翻訳日:2022-03-17 17:49:16 公開日:2022-03-16
# (参考訳) 関連性を考慮したオンラインマイニングによるビデオ検索モデルの学習 [全文訳有]

Learning video retrieval models with relevance-aware online mining ( http://arxiv.org/abs/2203.08688v1 )

ライセンス: CC BY 4.0
Alex Falcon, Giuseppe Serra, Oswald Lanz(参考訳) 毎時アップロードされるビデオや関連キャプションの量から、クロスモーダルビデオ検索のためのディープラーニングベースのソリューションが、ますます注目を集めている。 典型的なアプローチは、ビデオと関連するキャプションの類似度が最大化され、他の全てのキャプションでより低い類似度が強制される、共同のテキストビデオ埋め込み空間を学習することである。 このアプローチでは、データセット内のビデオとキャプションペアのみが有効であると仮定するが、異なるキャプション — 肯定的な — もまたその視覚的内容を記述する可能性があるため、そのいくつかは誤って罰せられる可能性がある。 この欠点に対処するために、我々は、負のセマンティクスに基づいて、それらの選択を改善しつつ、他の有効な正の類似性を高めた、関連認識負のマイニング(RANP)を提案する。 EPIC-Kitchens-100 と MSR-VTT の2つのビデオテキストデータセットに対するこれらの手法の影響について検討する。 提案手法を用いることで, EPIC-Kitchens-100におけるnDCGおよびmAPの精度が向上し, EPIC-Kitchens-100におけるnDCG+5.3%, mAP+3.0%といった最先端の結果が得られた。 コードと事前トレーニングされたモデルは \url{https://github.com/a ranciokov/ranp} で共有します。

Due to the amount of videos and related captions uploaded every hour, deep learning-based solutions for cross-modal video retrieval are attracting more and more attention. A typical approach consists in learning a joint text-video embedding space, where the similarity of a video and its associated caption is maximized, whereas a lower similarity is enforced with all the other captions, called negatives. This approach assumes that only the video and caption pairs in the dataset are valid, but different captions - positives - may also describe its visual contents, hence some of them may be wrongly penalized. To address this shortcoming, we propose the Relevance-Aware Negatives and Positives mining (RANP) which, based on the semantics of the negatives, improves their selection while also increasing the similarity of other valid positives. We explore the influence of these techniques on two video-text datasets: EPIC-Kitchens-100 and MSR-VTT. By using the proposed techniques, we achieve considerable improvements in terms of nDCG and mAP, leading to state-of-the-art results, e.g. +5.3% nDCG and +3.0% mAP on EPIC-Kitchens-100. We share code and pretrained models at \url{https://github.com/a ranciokov/ranp}.
翻訳日:2022-03-17 17:38:04 公開日:2022-03-16
# (参考訳) DeciWatch: 10倍効率の2Dと3Dポス推定のためのシンプルなベースライン

DeciWatch: A Simple Baseline for 10x Efficient 2D and 3D Pose Estimation ( http://arxiv.org/abs/2203.08713v1 )

ライセンス: CC BY 4.0
Ailing Zeng, Xuan Ju, Lei Yang, Ruiyuan Gao, Xizhou Zhu, Bo Dai, Qiang Xu(参考訳) 本稿では,既存の作業の10倍の効率向上を実現するための,映像ベースの2d/3d人物ポーズ推定のためのシンプルなベースラインフレームワークであるdeciwatchを提案する。 ビデオの各フレームを推定する現在のソリューションとは異なり、DeciWatchでは、人間の動きの連続性と軽量ポーズ表現を生かして、わずかにサンプリングされたフレームだけを監視できる、シンプルで効果的なサンプルデノア・リカバリフレームワークを導入している。 具体的には、deciwatchは、詳細な推定のために10%以下のビデオフレームを均一にサンプリングし、推定された2d/3dポーズを効率的なトランスフォーマーアーキテクチャでデノベーションし、残りのフレームを別のトランスフォーマーベースのネットワークで正確に復元する。 deciwatchの効率と有効性を検証する4つのデータセットを用いた3つのビデオベースのポーズ推定とボディメッシュリカバリタスクに関する総合実験結果

This paper proposes a simple baseline framework for video-based 2D/3D human pose estimation that can achieve 10 times efficiency improvement over existing works without any performance degradation, named DeciWatch. Unlike current solutions that estimate each frame in a video, DeciWatch introduces a simple yet effective sample-denoise-recov er framework that only watches sparsely sampled frames, taking advantage of the continuity of human motions and the lightweight pose representation. Specifically, DeciWatch uniformly samples less than 10% video frames for detailed estimation, denoises the estimated 2D/3D poses with an efficient Transformer architecture, and then accurately recovers the rest of the frames using another Transformer-based network. Comprehensive experimental results on three video-based human pose estimation and body mesh recovery tasks with four datasets validate the efficiency and effectiveness of DeciWatch.
翻訳日:2022-03-17 17:23:47 公開日:2022-03-16
# (参考訳) surrogateベースの敵ブラックボックスメソッドでディープネットワークを攻撃するのは簡単 [全文訳有]

Attacking deep networks with surrogate-based adversarial black-box methods is easy ( http://arxiv.org/abs/2203.08725v1 )

ライセンス: CC BY 4.0
Nicholas A. Lord, Romain Mueller, Luca Bertinetto(参考訳) ブラックボックス攻撃に関する最近の研究は、サロゲートモデルからの転送をクエリベースの検索に統合することで復活させた。 しかし、このタイプの既存のアプローチはポテンシャルを過小評価しており、その上複雑すぎる可能性がある。 本稿では,サーロゲートネットワークのクラススコア勾配を用いた検索により,先行処理やヒューリスティック処理を必要とせず,最先端の結果を得るための簡易なアルゴリズムを提案する。 このアルゴリズムの導く前提は、研究対象のネットワークが、類似した関数を学習する基本的な意味で、一方からもう一方への移動攻撃は、かなり「容易」であるべきだというものである。 例えば、サロゲートとしてResNet-152を使用したVGG-16イメージネットネットワークへの未ターゲティング攻撃は、99.9%の成功率で6の中央値のクエリ数が得られる。 コードはhttps://github.com/f iveai/GFCSで入手できる。

A recent line of work on black-box adversarial attacks has revived the use of transfer from surrogate models by integrating it into query-based search. However, we find that existing approaches of this type underperform their potential, and can be overly complicated besides. Here, we provide a short and simple algorithm which achieves state-of-the-art results through a search which uses the surrogate network's class-score gradients, with no need for other priors or heuristics. The guiding assumption of the algorithm is that the studied networks are in a fundamental sense learning similar functions, and that a transfer attack from one to the other should thus be fairly "easy". This assumption is validated by the extremely low query counts and failure rates achieved: e.g. an untargeted attack on a VGG-16 ImageNet network using a ResNet-152 as the surrogate yields a median query count of 6 at a success rate of 99.9%. Code is available at https://github.com/f iveai/GFCS.
翻訳日:2022-03-17 17:22:50 公開日:2022-03-16
# (参考訳) sample, translate, recombine: エンドツーエンド音声翻訳におけるデータ拡張のための音声アライメントの活用 [全文訳有]

Sample, Translate, Recombine: Leveraging Audio Alignments for Data Augmentation in End-to-end Speech Translation ( http://arxiv.org/abs/2203.08757v1 )

ライセンス: CC BY 4.0
Tsz Kin Lam, Shigehiko Schamoni, Stefan Riezler(参考訳) エンドツーエンドの音声翻訳は、対象言語への翻訳とソース言語音声入力を組み合わせるデータに依存している。 このようなデータは、バックトランスレーションや知識蒸留による合成データの増大を、エンドツーエンドのトレーニングに必要な要素にしていることで知られている。 本稿では,音声アライメント,言語特性,翻訳を活用した新しいデータ拡張手法を提案する。 まず、テキストと音声データを格納する接尾辞メモリからサンプリングすることで、書き起こしを増強する。 次に、拡張転写を翻訳します。 最後に、連結した音声セグメントと生成された翻訳を再結合する。 MTシステムのトレーニング以外には、細かいチューニングをすることなく、基本的なオフザシェルフコンポーネントのみを使用します。 知識蒸留と同様の資源要求を持つ一方で,covost 2 の 5 つの言語対と europarl-st の 2 つの言語対において,最大 0.9 と 1.1 の bleu 点の一貫した改善を提供する。

End-to-end speech translation relies on data that pair source-language speech inputs with corresponding translations into a target language. Such data are notoriously scarce, making synthetic data augmentation by back-translation or knowledge distillation a necessary ingredient of end-to-end training. In this paper, we present a novel approach to data augmentation that leverages audio alignments, linguistic properties, and translation. First, we augment a transcription by sampling from a suffix memory that stores text and audio data. Second, we translate the augmented transcript. Finally, we recombine concatenated audio segments and the generated translation. Besides training an MT-system, we only use basic off-the-shelf components without fine-tuning. While having similar resource demands as knowledge distillation, adding our method delivers consistent improvements of up to 0.9 and 1.1 BLEU points on five language pairs on CoVoST 2 and on two language pairs on Europarl-ST, respectively.
翻訳日:2022-03-17 16:58:40 公開日:2022-03-16
# (参考訳) UnseenNet: 目に見えないコンセプトの高速トレーニングディテクター [全文訳有]

UnseenNet: Fast Training Detector for Any Unseen Concept ( http://arxiv.org/abs/2203.08759v1 )

ライセンス: CC BY 4.0
Asra Aslam and Edward Curry(参考訳) 少ないデータを用いた物体検出モデルのトレーニングは、コンピュータビジョンにおける既存のNショット学習モデルの焦点となっている。 このようなメソッドはオブジェクトレベルのラベルを使用し、未使用のクラスをトレーニングするのに数時間を要する。 トレーニング用に利用可能な画像レベルのラベルが多数存在するが、トレーニング用にはほとんどショットオブジェクト検出モデルによって利用できないケースも多い。 目に見えないクラスをトレーニングするのに使用できる機械学習フレームワークが必要であり、リアルタイムの状況で有用になる。 本稿では,ボックスを競合精度で拘束することなく,非常に短時間で未確認のクラスを学習できる「未確認クラス検出器」を提案する。 我々は,既存のオブジェクト検出と画像分類データセットをそれぞれトレーニングした,"Strong" と "Weak" ベースライン検出器のアプローチを構築した。 画像レベルのラベルのみを使用して、強いベースライン検出器上で未確認の概念を微調整し、さらにベースライン間で分類器と検出器の知識を伝達することによって適応する。 我々はセマンティクスと視覚の類似性を用いて,未発見のクラス (ヤギ) の微調整と適応のためのソースクラス (すなわちヒツジ) を識別する。 我々のモデル(unseennet)はimagenet分類データセットでトレーニングされ、オブジェクト検出データセット(openimages)上でテストされます。 UnseenNetは、異なる未確認クラス分割におけるオブジェクト検出の既存のベースライン(半教師付きおよび少数ショット)よりも平均平均精度(mAP)を10%から30%向上させる。 さらに,モデルのトレーニング時間は,各クラスで10分以内である。 質的な結果は、UnseenNetがPascal VOCの少数のクラスだけでなく、どんなデータセットやWebの目に見えないクラスにも適していることを示している。 コードはhttps://github.com/A sra-Aslam/UnseenNetで入手できる。

Training of object detection models using less data is currently the focus of existing N-shot learning models in computer vision. Such methods use object-level labels and takes hours to train on unseen classes. There are many cases where we have large amount of image-level labels available for training but cannot be utilized by few shot object detection models for training. There is a need for a machine learning framework that can be used for training any unseen class and can become useful in real-time situations. In this paper, we proposed an "Unseen Class Detector" that can be trained within a very short time for any possible unseen class without bounding boxes with competitive accuracy. We build our approach on "Strong" and "Weak" baseline detectors, which we trained on existing object detection and image classification datasets, respectively. Unseen concepts are fine-tuned on the strong baseline detector using only image-level labels and further adapted by transferring the classifier-detector knowledge between baselines. We use semantic as well as visual similarities to identify the source class (i.e. Sheep) for the fine-tuning and adaptation of unseen class (i.e. Goat). Our model (UnseenNet) is trained on the ImageNet classification dataset for unseen classes and tested on an object detection dataset (OpenImages). UnseenNet improves the mean average precision (mAP) by 10% to 30% over existing baselines (semi-supervised and few-shot) of object detection on different unseen class splits. Moreover, training time of our model is <10 min for each unseen class. Qualitative results demonstrate that UnseenNet is suitable not only for few classes of Pascal VOC but for unseen classes of any dataset or web. Code is available at https://github.com/A sra-Aslam/UnseenNet.
翻訳日:2022-03-17 16:45:08 公開日:2022-03-16
# (参考訳) PosePipe:臨床研究のためのオープンソースのヒューマン・ポース推定パイプライン [全文訳有]

PosePipe: Open-Source Human Pose Estimation Pipeline for Clinical Research ( http://arxiv.org/abs/2203.08792v1 )

ライセンス: CC BY-SA 4.0
R. James Cotton(参考訳) ヒトのポーズ推定のための機械学習アルゴリズムは、リハビリテーションや運動科学において大きな価値をもたらす可能性がある。 しかし、臨床実習や翻訳研究にこれらのツールを日常的に使用するには、次のような課題が残されている。 1) 参入に対する技術的な障壁が高い。 2) 急速に進化するアルゴリズムの空間。 3)アルゴリズムの相互依存に挑戦し 4) これらのコンポーネント間の複雑なデータ管理要件。 これらの障壁を軽減するために,臨床現場で取得したデータに対する最先端アルゴリズムの実行を容易にする人間のポーズ推定パイプラインを開発した。 本システムでは,複数のアルゴリズムの異なる実装を実行でき,相互依存を容易に処理できる。 これらのアルゴリズムクラスには、対象の識別と追跡、2dキーポイント検出、3dジョイント位置推定、ボディモデルのポーズ推定が含まれる。 システムは、データベースを使用してビデオ、中間解析、各ステージでの計算データを管理する。 また、プライバシーを高めるために顔が見えないビデオオーバーレイを生成するなど、データの視覚化のためのツールも提供する。 本研究の目的は,新しいアルゴリズムの訓練ではなく,臨床・翻訳研究における最先端のポーズ推定アルゴリズムの活用を推し進めることである。 このツールは,歩行検査からクリニック,セラピーの訪問,コミュニティの人々に至るまで,人間の運動のビデオの多岐にわたる分析が容易であることを示す。 また,リハビリテーション施設における臨床対象者に対するアルゴリズムの限界も強調した。

There has been significant progress in machine learning algorithms for human pose estimation that may provide immense value in rehabilitation and movement sciences. However, there remain several challenges to routine use of these tools for clinical practice and translational research, including: 1) high technical barrier to entry, 2) rapidly evolving space of algorithms, 3) challenging algorithmic interdependencies, and 4) complex data management requirements between these components. To mitigate these barriers, we developed a human pose estimation pipeline that facilitates running state-of-the-art algorithms on data acquired in clinical context. Our system allows for running different implementations of several classes of algorithms and handles their interdependencies easily. These algorithm classes include subject identification and tracking, 2D keypoint detection, 3D joint location estimation, and estimating the pose of body models. The system uses a database to manage videos, intermediate analyses, and data for computations at each stage. It also provides tools for data visualization, including generating video overlays that also obscure faces to enhance privacy. Our goal in this work is not to train new algorithms, but to advance the use of cutting-edge human pose estimation algorithms for clinical and translation research. We show that this tool facilitates analyzing large numbers of videos of human movement ranging from gait laboratories analyses, to clinic and therapy visits, to people in the community. We also highlight limitations of these algorithms when applied to clinical populations in a rehabilitation setting.
翻訳日:2022-03-17 16:28:12 公開日:2022-03-16
# CtlGAN: コントラストトランスファー学習によるアーティスティック・ポートフォリオ生成

CtlGAN: Few-shot Artistic Portraits Generation with Contrastive Transfer Learning ( http://arxiv.org/abs/2203.08612v1 )

ライセンス: Link先を確認
Yue Wang, Ran Yi, Ying Tai, Chengjie Wang, Lizhuang Ma(参考訳) 芸術的ポートレートの生成は、コンピュータビジョンにおいて難しい問題である。 高品質な結果を生成する既存のポートレートスタイライゼーションモデルは、画像から画像への変換に基づいており、ソースドメインとターゲットドメインの両方から豊富なデータを必要とする。 しかし、十分なデータがないと、これらの手法は過度に適合する。 そこで本研究では,コントラッシブ・トランスファレンス・ラーニング・ストラテジーを新たに導入した,数枚の画像生成モデルCtlGANを提案する。 ソースドメインで事前学習されたスタイルガンを、10以上の芸術的顔を持つ対象の芸術的ドメインに適応させる。 少数のトレーニング例への過剰適合を減らすために、異なる潜在コードから生成されたターゲットインスタンスを識別可能にする新しいクロスドメイン三重項損失を導入する。 実面をZ+空間に埋め込んだ新しいエンコーダを提案し,適応デコーダに対処し,アーティファクトを除去するためのデュアルパストレーニング戦略を提案する。 広汎な質的,定量的な比較とユーザスタディにより,10ショット,1ショットの条件下では最先端の絵画を著しく上回り,高品質な絵画を制作した。 コードは公開される予定だ。

Generating artistic portraits is a challenging problem in computer vision. Existing portrait stylization models that generate good quality results are based on Image-to-Image Translation and require abundant data from both source and target domains. However, without enough data, these methods would result in overfitting. In this work, we propose CtlGAN, a new few-shot artistic portraits generation model with a novel contrastive transfer learning strategy. We adapt a pretrained StyleGAN in the source domain to a target artistic domain with no more than 10 artistic faces. To reduce overfitting to the few training examples, we introduce a novel Cross-Domain Triplet loss which explicitly encourages the target instances generated from different latent codes to be distinguishable. We propose a new encoder which embeds real faces into Z+ space and proposes a dual-path training strategy to better cope with the adapted decoder and eliminate the artifacts. Extensive qualitative, quantitative comparisons and a user study show our method significantly outperforms state-of-the-arts under 10-shot and 1-shot settings and generates high quality artistic portraits. The code will be made publicly available.
翻訳日:2022-03-17 16:05:54 公開日:2022-03-16
# HRIデータ収集プロセスの形式化に向けて

Towards Formalizing HRI Data Collection Processes ( http://arxiv.org/abs/2203.08396v1 )

ライセンス: Link先を確認
Zhao Han and Tom Williams(参考訳) 人間-ロボット相互作用(HRI)コミュニティでは、多くの研究者が人-物体研究の慎重な設計に注目している。 しかし、コミュニティの他の部分、例えば、技術進歩コミュニティは、厳格な実験設計なしに、ユーザー研究を必要とする方法で、モデルを訓練するためのデータを集めるために、人間オブジェクトの研究を行う必要がある。 このようなデータ収集の設計は、より注目に値する未調査領域である。 本稿では,機械学習モデリングのための3つのステップからなるデータ収集プロセスについて,近年の文献に基礎を置き,参照表現のコーパスの収集を容易にするために,このプロセスの利用について詳述する。 具体的には、データ収集の目標と、タスク環境、タスク自体、学習手順の設計を通じて、十分にカバーされ、豊富な参加者の回答を促すためにどのように取り組んできたかについて論じる。 この作業が、HRIコミュニティにおけるより多くのデータ収集フォーマリズムの取り組みと、ワークショップにおける実りある議論につながることを期待しています。

Within the human-robot interaction (HRI) community, many researchers have focused on the careful design of human-subjects studies. However, other parts of the community, e.g., the technical advances community, also need to do human-subjects studies to collect data to train their models, in ways that require user studies but without a strict experimental design. The design of such data collection is an underexplored area worthy of more attention. In this work, we contribute a clearly defined process to collect data with three steps for machine learning modeling purposes, grounded in recent literature, and detail an use of this process to facilitate the collection of a corpus of referring expressions. Specifically, we discuss our data collection goal and how we worked to encourage well-covered and abundant participant responses, through our design of the task environment, the task itself, and the study procedure. We hope this work would lead to more data collection formalism efforts in the HRI community and a fruitful discussion during the workshop.
翻訳日:2022-03-17 16:05:24 公開日:2022-03-16
# 大規模非線形分類のためのマルチパラメータ更新フーリエオンライン勾配降下アルゴリズム

A Multi-parameter Updating Fourier Online Gradient Descent Algorithm for Large-scale Nonlinear Classification ( http://arxiv.org/abs/2203.08349v1 )

ライセンス: Link先を確認
Yigying Chen(参考訳) 大規模非線形分類はサポートベクトルマシンの分野において難しい課題である。 オンラインランダムフーリエ特徴写像アルゴリズムは大規模非線形分類問題を扱う上で非常に重要な手法である。 これらの方法の主な欠点は、(1)学習中、ランダムな方向が固定されている間、ハイパープレーンベクターだけが更新されるので、データが1つずつ来たときに、これらのオンライン手法がデータ分布の変化に適応できる保証はない。 2) 分類精度を向上させるために, ランダム方向の寸法が高くなる場合が多く, 試験時間が長くなる。 これらの欠点を克服するために,新しいランダム特徴写像に基づく大規模非線形分類問題に対して,マルチパラメータ更新フーリエオンライン勾配降下アルゴリズム (mpu-fogd) を提案する。 提案手法では,提案するランダムな特徴マップの次元は小さく,マルチパラメータ更新戦略では,データが1つずつ来ると,学習モデルがデータ分布の変化に適応できることを保証できる。 理論的には、既存のランダムフーリエ特徴写像と比較して、提案されたランダム特徴写像はより厳密な誤差境界を与えることができる。 いくつかのベンチマークデータセットに関する実証研究は、最先端のオンラインランダムなフーリエ特徴写像法と比較すると、提案したMPU-FOGDはテスト精度が向上することを示した。

Large scale nonlinear classification is a challenging task in the field of support vector machine. Online random Fourier feature map algorithms are very important methods for dealing with large scale nonlinear classification problems. The main shortcomings of these methods are as follows: (1) Since only the hyperplane vector is updated during learning while the random directions are fixed, there is no guarantee that these online methods can adapt to the change of data distribution when the data is coming one by one. (2) The dimension of the random direction is often higher for obtaining better classification accuracy, which results in longer test time. In order to overcome these shortcomings, a multi-parameter updating Fourier online gradient descent algorithm (MPU-FOGD) is proposed for large-scale nonlinear classification problems based on a novel random feature map. In the proposed method, the suggested random feature map has lower dimension while the multi-parameter updating strategy can guarantee the learning model can better adapt to the change of data distribution when the data is coming one by one. Theoretically, it is proved that compared with the existing random Fourier feature maps, the proposed random feature map can give a tighter error bound. Empirical studies on several benchmark data sets demonstrate that compared with the state-of-the-art online random Fourier feature map methods, the proposed MPU-FOGD can obtain better test accuracy.
翻訳日:2022-03-17 16:03:24 公開日:2022-03-16
# COPA:犯罪に対するオフライン強化学習のためのロバストな政策認定

COPA: Certifying Robust Policies for Offline Reinforcement Learning against Poisoning Attacks ( http://arxiv.org/abs/2203.08398v1 )

ライセンス: Link先を確認
Fan Wu, Linyi Li, Chejian Xu, Huan Zhang, Bhavya Kailkhura, Krishnaram Kenthapadi, Ding Zhao, Bo Li(参考訳) 強化学習(RL)は,様々なタスクにおいて,人間レベルに近い性能を達成しているため,その堅牢性に大きな注目を集めている。 多数の研究機関がRLおよび対応する防衛におけるテスト時(回避)攻撃を調査してきたが、訓練時(毒殺)攻撃に対する堅牢性はほとんど未解決のままである。 本研究は, 中毒発生時におけるオフラインRLのロバスト性を検証することに焦点を当て, 訓練軌道のサブセットを任意に操作することができる。 本稿では, 認定基準の異なる場合に許容できる中毒跡数を認定する最初の認証フレームワークであるcopaを提案する。 RLの複雑な構造を考えると、状態ごとの動作安定性と累積報酬バウンドの2つの認定基準を提案する。 認証をさらに改善するために,堅牢なポリシをトレーニングするための新たなパーティショニングおよびアグリゲーションプロトコルを提案する。 さらに,提案手法のいくつかは理論的に厳密であり,一部はNP-Complete問題であることを示す。 我々はCOPAを利用して、異なるアルゴリズムで訓練された3つのRL環境を認証し、(1) 時間的集約のような頑健なアグリゲーションプロトコルが証明を大幅に改善できる、(2) 状態ごとの動作安定性と累積報酬バウンドの両方の認証が効率的かつ厳密である、(3) 異なるトレーニングアルゴリズムと環境の認証が異なり、本質的な堅牢性を示唆する。 実験の結果はすべて、https://copa-leaderb oard.github.ioで入手できる。

As reinforcement learning (RL) has achieved near human-level performance in a variety of tasks, its robustness has raised great attention. While a vast body of research has explored test-time (evasion) attacks in RL and corresponding defenses, its robustness against training-time (poisoning) attacks remains largely unanswered. In this work, we focus on certifying the robustness of offline RL in the presence of poisoning attacks, where a subset of training trajectories could be arbitrarily manipulated. We propose the first certification framework, COPA, to certify the number of poisoning trajectories that can be tolerated regarding different certification criteria. Given the complex structure of RL, we propose two certification criteria: per-state action stability and cumulative reward bound. To further improve the certification, we propose new partition and aggregation protocols to train robust policies. We further prove that some of the proposed certification methods are theoretically tight and some are NP-Complete problems. We leverage COPA to certify three RL environments trained with different algorithms and conclude: (1) The proposed robust aggregation protocols such as temporal aggregation can significantly improve the certifications; (2) Our certification for both per-state action stability and cumulative reward bound are efficient and tight; (3) The certification for different training algorithms and environments are different, implying their intrinsic robustness properties. All experimental results are available at https://copa-leaderb oard.github.io.
翻訳日:2022-03-17 16:02:25 公開日:2022-03-16
# CTDS:マルチエージェント強化学習のための分散学生中心教師

CTDS: Centralized Teacher with Decentralized Student for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2203.08412v1 )

ライセンス: Link先を確認
Jian Zhao, Xunhan Hu, Mingyu Yang, Wengang Zhou, Jiangcheng Zhu and Houqiang Li(参考訳) 多くのマルチエージェント強化学習(MARL)タスクにおける部分的可観測性と通信制約のため、分散実行(CTDE)による集中トレーニングは最も広く使われているMARLパラダイムの1つとなっている。 ctdeでは、集中型情報はミキシングネットワークでチーム報酬の割り当てを学ぶことに専念し、個々のq値の学習は通常局所的な観察に基づいて行われる。 グローバル観測の不十分な実用性は、挑戦的な環境でのパフォーマンスを低下させる。 この目的のために,本研究では,教師モデルと学生モデルからなる,分散学生による集中教師(CTDS)フレームワークを提案する。 具体的には、教師モデルは、グローバル観察に基づく個別のq値を学び、教師モデルは、教師モデルによって推定されるq値の近似に部分的観察を利用する。 このように、CTDSは、トレーニング中のグローバルな観察のフル活用と、オンライン推論のための分散実行の実現可能性のバランスをとる。 私たちのCTDSフレームワークはジェネリックであり、既存のCTDEメソッドに適用してパフォーマンスを向上させる準備ができています。 本手法の有効性を検証するために,StarCraft II マイクロマネジメントの課題に対して実験を行い,CTDS が既存の値ベース MARL 法より優れていることを示す。

Due to the partial observability and communication constraints in many multi-agent reinforcement learning (MARL) tasks, centralized training with decentralized execution (CTDE) has become one of the most widely used MARL paradigms. In CTDE, centralized information is dedicated to learning the allocation of the team reward with a mixing network, while the learning of individual Q-values is usually based on local observations. The insufficient utility of global observation will degrade performance in challenging environments. To this end, this work proposes a novel Centralized Teacher with Decentralized Student (CTDS) framework, which consists of a teacher model and a student model. Specifically, the teacher model allocates the team reward by learning individual Q-values conditioned on global observation, while the student model utilizes the partial observations to approximate the Q-values estimated by the teacher model. In this way, CTDS balances the full utilization of global observation during training and the feasibility of decentralized execution for online inference. Our CTDS framework is generic which is ready to be applied upon existing CTDE methods to boost their performance. We conduct experiments on a challenging set of StarCraft II micromanagement tasks to test the effectiveness of our method and the results show that CTDS outperforms the existing value-based MARL methods.
翻訳日:2022-03-17 16:01:55 公開日:2022-03-16
# 予期せぬクラッシュエージェントのためのコーチ支援マルチエージェント強化学習フレームワーク

Coach-assisted Multi-Agent Reinforcement Learning Framework for Unexpected Crashed Agents ( http://arxiv.org/abs/2203.08454v1 )

ライセンス: Link先を確認
Jian Zhao, Youpeng Zhao, Weixun Wang, Mingyu Yang, Xunhan Hu, Wengang Zhou, Jianye Hao, Houqiang Li(参考訳) マルチエージェント強化学習は実践では適用が困難であり、シミュレーションと実世界のシナリオのギャップが一部原因である。 このギャップの1つの理由は、シミュレーションシステムは常にエージェントが常に正常に動作可能であると仮定するのに対し、実際には1つ以上のエージェントが不必要なハードウェアやソフトウェア障害のために調整プロセス中に予期せず「クラッシュ」する可能性があるからである。 このようなクラッシュはエージェント間の協調を損なうため、パフォーマンスが低下する。 本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの定式化について述べる。 衝突に対するシステムの堅牢性を高めるために,訓練中にクラッシュ率を調整する仮想コーチエージェントを導入した,コーチ支援多エージェント強化学習フレームワークを提案する。 コーチエージェントのための3つのコーチング戦略と再サンプリング戦略を設計します。 私たちの知る限りでは、この研究はマルチエージェントシステムの予期せぬクラッシュを研究する最初の方法です。 グリッドワールドとStarCraft IIのマイクロマネジメントタスクに関する大規模な実験は、固定クラッシュ率戦略やカリキュラム学習戦略と比較して適応戦略の有効性を示した。 アブレーション研究は,我々の再サンプリング戦略の有効性をさらに示している。

Multi-agent reinforcement learning is difficult to be applied in practice, which is partially due to the gap between the simulated and real-world scenarios. One reason for the gap is that the simulated systems always assume that the agents can work normally all the time, while in practice, one or more agents may unexpectedly "crash" during the coordination process due to inevitable hardware or software failures. Such crashes will destroy the cooperation among agents, leading to performance degradation. In this work, we present a formal formulation of a cooperative multi-agent reinforcement learning system with unexpected crashes. To enhance the robustness of the system to crashes, we propose a coach-assisted multi-agent reinforcement learning framework, which introduces a virtual coach agent to adjust the crash rate during training. We design three coaching strategies and the re-sampling strategy for our coach agent. To the best of our knowledge, this work is the first to study the unexpected crashes in the multi-agent system. Extensive experiments on grid-world and StarCraft II micromanagement tasks demonstrate the efficacy of adaptive strategy compared with the fixed crash rate strategy and curriculum learning strategy. The ablation study further illustrates the effectiveness of our re-sampling strategy.
翻訳日:2022-03-17 16:01:33 公開日:2022-03-16
# MPAF: フェイククライアントに基づくフェデレーション学習に対するモデル中毒攻撃

MPAF: Model Poisoning Attacks to Federated Learning based on Fake Clients ( http://arxiv.org/abs/2203.08669v1 )

ライセンス: Link先を確認
Xiaoyu Cao and Neil Zhenqiang Gong(参考訳) フェデレーション学習に対する既存のモデル中毒攻撃は、攻撃者が漏洩した本物のクライアントの大部分にアクセスできると仮定する。 しかし、このような仮定は、数百万のクライアントを含む本番連帯学習システムでは現実的ではない。 そこで本研究では,mpafと呼ばれる偽のクライアントに基づく最初のモデル中毒攻撃を提案する。 具体的には、攻撃者がフェデレートされた学習システムに偽のクライアントを注入し、トレーニング中に慎重に作られた偽のローカルモデル更新をクラウドサーバに送ると仮定する。 この目標に向けて,我々の攻撃は,精度の低い攻撃長ベースモデルに向けてグローバルモデルをドラッグする。 具体的には、フェデレーション学習の各ラウンドにおいて、フェイククライアントは、ベースモデルを指す偽のローカルモデル更新を作成し、それらを拡大して、クラウドサーバに送信する前に影響を増幅する。 実験の結果,MPAFは従来の防御法や標準的なクリッピング法を採用しても,グローバルモデルの試験精度を著しく低下させ,より高度な防御の必要性を浮き彫りにした。

Existing model poisoning attacks to federated learning assume that an attacker has access to a large fraction of compromised genuine clients. However, such assumption is not realistic in production federated learning systems that involve millions of clients. In this work, we propose the first Model Poisoning Attack based on Fake clients called MPAF. Specifically, we assume the attacker injects fake clients to a federated learning system and sends carefully crafted fake local model updates to the cloud server during training, such that the learnt global model has low accuracy for many indiscriminate test inputs. Towards this goal, our attack drags the global model towards an attacker-chosen base model that has low accuracy. Specifically, in each round of federated learning, the fake clients craft fake local model updates that point to the base model and scale them up to amplify their impact before sending them to the cloud server. Our experiments show that MPAF can significantly decrease the test accuracy of the global model, even if classical defenses and norm clipping are adopted, highlighting the need for more advanced defenses.
翻訳日:2022-03-17 16:00:59 公開日:2022-03-16
# ディープニューラルネットワーク加速器のためのハードウェア近似技術:サーベイ

Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey ( http://arxiv.org/abs/2203.08737v1 )

ライセンス: Link先を確認
Giorgos Armeniakos, Georgios Zervakis, Dimitrios Soudris, J\"org Henkel(参考訳) Deep Neural Networks(DNN)は、機械学習(ML)におけるさまざまな認知タスクのパフォーマンスの高さから、非常に人気がある。 近年のDNNの進歩は多くのタスクにおいて人間の精度を超えたが、計算の複雑さのコストがかかる。 DNN推論の効率的な実行を可能にするために、DNNの固有のエラーレジリエンスを活用し、DNNアクセラレータの高エネルギー要求に対応するために近似コンピューティング(AC)の原則を採用する研究がますます増えている。 本稿では,DNN加速器のハードウェア近似技術に関する包括的調査と解析を行う。 まず,手法の状態を解析し,近似族を同定することにより,近似型に関する各作品をクラスタリングする。 次に、実行した評価(データセットとDNNサイズ)の複雑さを分析し、近似DNN加速器の効率、ポテンシャル、限界を評価する。 さらに、DNN加速器の近似単位の設計に適した誤差メトリクスや、DNN推論に適した精度回復手法についても、幅広い議論がなされている。 最後に、DNNアクセラレーターのApproximate Computingは、エネルギー効率を超えて、信頼性とセキュリティの問題にも対処できることを示す。

Deep Neural Networks (DNNs) are very popular because of their high performance in various cognitive tasks in Machine Learning (ML). Recent advancements in DNNs have brought beyond human accuracy in many tasks, but at the cost of high computational complexity. To enable efficient execution of DNN inference, more and more research works, therefore, exploit the inherent error resilience of DNNs and employ Approximate Computing (AC) principles to address the elevated energy demands of DNN accelerators. This article provides a comprehensive survey and analysis of hardware approximation techniques for DNN accelerators. First, we analyze the state of the art and by identifying approximation families, we cluster the respective works with respect to the approximation type. Next, we analyze the complexity of the performed evaluations (with respect to the dataset and DNN size) to assess the efficiency, the potential, and limitations of approximate DNN accelerators. Moreover, a broad discussion is provided, regarding error metrics that are more suitable for designing approximate units for DNN accelerators as well as accuracy recovery approaches that are tailored to DNN inference. Finally, we present how Approximate Computing for DNN accelerators can go beyond energy efficiency and address reliability and security issues, as well.
翻訳日:2022-03-17 15:59:27 公開日:2022-03-16
# (参考訳) フロントビュー埋め込みを用いた効率的な条件付き顔アニメーション [全文訳有]

Efficient conditioned face animation using frontally-viewed embedding ( http://arxiv.org/abs/2203.08765v1 )

ライセンス: CC BY 4.0
Maxime Oquab, Daniel Haziza, Ludovic Schwartz, Tao Xu, Katayoun Zand, Rui Wang, Peirong Liu, Camille Couprie(参考訳) ランドマークから撮影される少数の顔アニメーションの品質が高まるにつれて、高いリアリズムを持つ超低帯域のビデオチャット圧縮のような新しいアプリケーションが可能になる。 しかし、現実の状況で経験を改善するために取り組むべき重要な課題がいくつかある。 特に、現在のアプローチでは、低い計算環境で動作する間、歪みのないプロファイルビューを表現できない。 我々は、プロファイルビューのレンダリングを改善するためにfrontalizerと呼ばれるマルチフレーム組込みを導入することで、この重要な問題に焦点を当てます。 この中核的な改善に加えて,潜在的なコードコンディショニング世代と,表情の伝達を改善するランドマークの学習についても検討する。 本モデルでは,頭部運動を含むDFDCビデオのサブセットを用いて,第1次モデルベースラインにおける知覚品質の22%向上とランドマーク誤差の73%低減を実現している。 モバイルアーキテクチャでは、私たちのモデルは以前の最先端(知覚品質を16%以上改善し、2つのデータセットでランドマークエラーを47%以上削減)よりも優れています。

As the quality of few shot facial animation from landmarks increases, new applications become possible, such as ultra low bandwidth video chat compression with a high degree of realism. However, there are some important challenges to tackle in order to improve the experience in real world conditions. In particular, the current approaches fail to represent profile views without distortions, while running in a low compute regime. We focus on this key problem by introducing a multi-frames embedding dubbed Frontalizer to improve profile views rendering. In addition to this core improvement, we explore the learning of a latent code conditioning generations along with landmarks to better convey facial expressions. Our dense models achieves 22% of improvement in perceptual quality and 73% reduction of landmark error over the first order model baseline on a subset of DFDC videos containing head movements. Declined with mobile architectures, our models outperform the previous state-of-the-art (improving perceptual quality by more than 16% and reducing landmark error by more than 47% on two datasets) while running on real time on iPhone 8 with very low bandwidth requirements.
翻訳日:2022-03-17 15:55:26 公開日:2022-03-16
# 素晴らしいスタイルチャネルとそれを見つける場所:ganの多様な方向を見つけるためのサブモジュラーフレームワーク

Fantastic Style Channels and Where to Find Them: A Submodular Framework for Discovering Diverse Directions in GANs ( http://arxiv.org/abs/2203.08516v1 )

ライセンス: Link先を確認
Enis Simsar and Umut Kocasari and Ezgi G\"ulperi Er and Pinar Yanardag(参考訳) 事前学習されたGANモデルの潜在空間における解釈可能な方向の発見は、最近人気となっている。 特にstylegan2は、リッチで不連続な潜在空間のため、様々な画像生成および操作タスクを可能にした。 このような方向の発見は通常、所望の操作ごとに注釈付きデータを必要とする教師付き方式か、指示を特定するための手作業を必要とする教師なし方式で行われる。 結果として、既存の作業は通常、コントロール可能な編集を行うためのほんの一握りの方向しか見つからない。 本研究では,スタイルガン2の潜在空間における方向の最も代表的かつ多様な部分集合を求める新しい部分モジュラーフレームワークを設計する。 提案手法は,グループに同様の操作を行うチャネルをクラスタ化する,いわゆるスタイル空間という,チャネルワイドなパラメータの潜時空間を利用する。 本フレームワークは,クラスタの概念を用いて多様性を促進し,グリーディ最適化方式で効率的に解ける。 定性的,定量的な実験により,本手法がより多様かつ不整合な方向を見出すことを示す。 私たちのプロジェクトページは http://catlab-team.g ithub.io/fantasticst yles.com にある。

The discovery of interpretable directions in the latent spaces of pre-trained GAN models has recently become a popular topic. In particular, StyleGAN2 has enabled various image generation and manipulation tasks due to its rich and disentangled latent spaces. The discovery of such directions is typically done either in a supervised manner, which requires annotated data for each desired manipulation or in an unsupervised manner, which requires a manual effort to identify the directions. As a result, existing work typically finds only a handful of directions in which controllable edits can be made. In this study, we design a novel submodular framework that finds the most representative and diverse subset of directions in the latent space of StyleGAN2. Our approach takes advantage of the latent space of channel-wise style parameters, so-called stylespace, in which we cluster channels that perform similar manipulations into groups. Our framework promotes diversity by using the notion of clusters and can be efficiently solved with a greedy optimization scheme. We evaluate our framework with qualitative and quantitative experiments and show that our method finds more diverse and disentangled directions. Our project page can be found at http://catlab-team.g ithub.io/fantasticst yles.
翻訳日:2022-03-17 15:37:07 公開日:2022-03-16
# 運動中の人間を捕らえる: 時間的接触型3次元人間のポーズと単眼映像からの形状推定

Capturing Humans in Motion: Temporal-Attentive 3D Human Pose and Shape Estimation from Monocular Video ( http://arxiv.org/abs/2203.08534v1 )

ライセンス: Link先を確認
Wen-Li Wei, Jen-Chun Lin, Tyng-Luh Liu, and Hong-Yuan Mark Liao(参考訳) 人間の動きを捉えるための学習は、3d人間のポーズと単眼ビデオからの形状推定に不可欠である。 しかし、既存の手法は時間的情報をモデル化するために再帰的あるいは畳み込み的操作に主に依存しており、これは人間の動きの非局所的文脈関係を捉える能力を制限する。 そこで本研究では,人間の動きを効果的に捉え,映像から正確な3次元ポーズ・形状を推定する動きポーズ・形状ネットワーク(MPS-Net)を提案する。 具体的には、まず、人間の動きから観察される視覚的手がかりを利用して、動きの連続性依存性をよりよく捉えるために、シーケンス内で注意を必要とする範囲を適応的に再調整する動き連続性注意(MoCA)モジュールを提案する。 そして、隣接した過去と将来の特徴表現を効果的に組み合わせ、時間的相関を強化し、現在のフレームの特徴表現を洗練させる階層的注意機能統合(HAFI)モジュールを開発する。 MoCAとHAFIモジュールを結合することにより、提案したMPS-Netは、ビデオ中の3D人間のポーズと形状を推定できる。 概念的には単純ではあるが、MPS-Netは3DPW、MPI-INF-3DHP、Human3.6Mベンチマークデータセットの最先端メソッドよりも優れており、ネットワークパラメータも少ない。 ビデオデモはhttps://mps-net.gith ub.io/MPS-Net/で見ることができる。

Learning to capture human motion is essential to 3D human pose and shape estimation from monocular video. However, the existing methods mainly rely on recurrent or convolutional operation to model such temporal information, which limits the ability to capture non-local context relations of human motion. To address this problem, we propose a motion pose and shape network (MPS-Net) to effectively capture humans in motion to estimate accurate and temporally coherent 3D human pose and shape from a video. Specifically, we first propose a motion continuity attention (MoCA) module that leverages visual cues observed from human motion to adaptively recalibrate the range that needs attention in the sequence to better capture the motion continuity dependencies. Then, we develop a hierarchical attentive feature integration (HAFI) module to effectively combine adjacent past and future feature representations to strengthen temporal correlation and refine the feature representation of the current frame. By coupling the MoCA and HAFI modules, the proposed MPS-Net excels in estimating 3D human pose and shape in the video. Though conceptually simple, our MPS-Net not only outperforms the state-of-the-art methods on the 3DPW, MPI-INF-3DHP, and Human3.6M benchmark datasets, but also uses fewer network parameters. The video demos can be found at https://mps-net.gith ub.io/MPS-Net/.
翻訳日:2022-03-17 15:36:50 公開日:2022-03-16
# scribble-supervised lidarセマンティクスセグメンテーション

Scribble-Supervised LiDAR Semantic Segmentation ( http://arxiv.org/abs/2203.08537v1 )

ライセンス: Link先を確認
Ozan Unal and Dengxin Dai and Luc Van Gool(参考訳) 厳密な注釈付きLiDARポイントのクラウドは、増え続けるデータの量に追いつくには高価で時間がかかる。 現在の文献は、完全に監督されたパフォーマンスに焦点を当てているが、現実的な弱い監督を生かした効率的な手法の開発はまだ検討されていない。 本稿では,LiDAR の点雲にアノテートするスクリブルと,LiDAR のセマンティックセグメンテーションのための最初のスクリブルアノテートデータセットである ScribbleKITTI のリリースを提案する。 さらに,このような弱いアノテーションを使用する場合に発生するパフォーマンスギャップを低減するパイプラインを提案する。 当社のパイプラインは、すべてのlidarセマンティクスセグメンテーションモデルと組み合わせて、8%のラベル付きポイントを使用して、完全な教師付きパフォーマンスの95.7%を達成する3つのスタンドアローンコントリビューションで構成されています。 scribbleのアノテーションとコードはgithub.com/ouenal/sc ribblekittiで入手できる。

Densely annotating LiDAR point clouds remains too expensive and time-consuming to keep up with the ever growing volume of data. While current literature focuses on fully-supervised performance, developing efficient methods that take advantage of realistic weak supervision have yet to be explored. In this paper, we propose using scribbles to annotate LiDAR point clouds and release ScribbleKITTI, the first scribble-annotated dataset for LiDAR semantic segmentation. Furthermore, we present a pipeline to reduce the performance gap that arises when using such weak annotations. Our pipeline comprises of three stand-alone contributions that can be combined with any LiDAR semantic segmentation model to achieve up to 95.7% of the fully-supervised performance while using only 8% labeled points. Our scribble annotations and code are available at github.com/ouenal/sc ribblekitti.
翻訳日:2022-03-17 15:36:22 公開日:2022-03-16
# monojsg: 単眼3次元物体検出のためのジョイントセマンティクスと幾何コストボリューム

MonoJSG: Joint Semantic and Geometric Cost Volume for Monocular 3D Object Detection ( http://arxiv.org/abs/2203.08563v1 )

ライセンス: Link先を確認
Qing Lian, Peiliang Li, Xiaozhi Chen(参考訳) 2D-3Dプロジェクションの固有の不適切な性質のため、モノクル3Dオブジェクト検出は正確な深度回復能力に欠ける。 ディープニューラルネットワーク(DNN)は、高レベルの学習特徴から単眼深度センシングを可能にするが、ピクセルレベルのキューは通常、ディープ畳み込み機構によって省略される。 DNNにおける強力な特徴表現と画素レベルの幾何的制約の両方の利点を生かし、モノクロ物体の深度推定をプログレッシブリファインメント問題として再構成し、深度誤差をモデル化するための共同意味と幾何コストボリュームを提案する。 具体的には,まずニューラルネットワークを用いて物体の位置,次元,高密度正規化3dオブジェクト座標を学習する。 被写体深度に基づいて、対応する対象特徴とともに密集座標パッチを画像空間に再投影し、共同意味的および幾何学的誤りの方法でコストボリュームを構築する。 最終深度は、コストボリュームを精算ネットワークに供給し、直深度監督により意味的および幾何学的誤差の分布を正規化することにより得られる。 改良フレームワークによる深度誤差を効果的に軽減することにより、KITTIとWaymoの両方のデータセットで最先端の結果が得られる。

Due to the inherent ill-posed nature of 2D-3D projection, monocular 3D object detection lacks accurate depth recovery ability. Although the deep neural network (DNN) enables monocular depth-sensing from high-level learned features, the pixel-level cues are usually omitted due to the deep convolution mechanism. To benefit from both the powerful feature representation in DNN and pixel-level geometric constraints, we reformulate the monocular object depth estimation as a progressive refinement problem and propose a joint semantic and geometric cost volume to model the depth error. Specifically, we first leverage neural networks to learn the object position, dimension, and dense normalized 3D object coordinates. Based on the object depth, the dense coordinates patch together with the corresponding object features is reprojected to the image space to build a cost volume in a joint semantic and geometric error manner. The final depth is obtained by feeding the cost volume to a refinement network, where the distribution of semantic and geometric error is regularized by direct depth supervision. Through effectively mitigating depth error by the refinement framework, we achieve state-of-the-art results on both the KITTI and Waymo datasets.
翻訳日:2022-03-17 15:36:03 公開日:2022-03-16
# EDTER: Transformer によるエッジ検出

EDTER: Edge Detection with Transformer ( http://arxiv.org/abs/2203.08566v1 )

ライセンス: Link先を確認
Mengyang Pu and Yaping Huang and Yuming Liu and Qingji Guan and Haibin Ling(参考訳) 畳み込みニューラルネットワークは、コンテキストとセマンティクスの特徴を段階的に探究することで、エッジ検出において大きな進歩を遂げている。 しかし、受容野の拡大に伴い、地域の詳細は徐々に抑制される。 近年、視覚変換器は長距離依存を捕捉する優れた能力を示している。 そこで本研究では,画像コンテキスト情報と詳細な局所的手がかりを同時に活用することにより,明瞭で鮮明な物体境界と有意義なエッジを抽出できる,新しいトランスフォーマティブ型エッジ検出器 \emph{edge detection transformer (edter)"を提案する。 EDTERは2段階で動作する。 ステージIでは、粗い画像パッチの長距離グローバルコンテキストをキャプチャするためにグローバルトランスフォーマーエンコーダが使用される。 そしてステージIIでは、局所変圧器エンコーダが微細なパッチを使って短距離局所キューを掘削する。 各トランスコーダは精巧に設計された双方向多レベルアグリゲーションデコーダによって高分解能化される。 最後に、グローバルコンテキストとローカルキューはFeature Fusion Moduleによって結合され、エッジ予測のための決定ヘッドに入力される。 BSDS500、NYUDv2、Multicueの大規模な実験は、最先端技術と比較してEDTERの優位性を示している。

Convolutional neural networks have made significant progresses in edge detection by progressively exploring the context and semantic features. However, local details are gradually suppressed with the enlarging of receptive fields. Recently, vision transformer has shown excellent capability in capturing long-range dependencies. Inspired by this, we propose a novel transformer-based edge detector, \emph{Edge Detection TransformER (EDTER)}, to extract clear and crisp object boundaries and meaningful edges by exploiting the full image context information and detailed local cues simultaneously. EDTER works in two stages. In Stage I, a global transformer encoder is used to capture long-range global context on coarse-grained image patches. Then in Stage II, a local transformer encoder works on fine-grained patches to excavate the short-range local cues. Each transformer encoder is followed by an elaborately designed Bi-directional Multi-Level Aggregation decoder to achieve high-resolution features. Finally, the global context and local cues are combined by a Feature Fusion Module and fed into a decision head for edge prediction. Extensive experiments on BSDS500, NYUDv2, and Multicue demonstrate the superiority of EDTER in comparison with state-of-the-arts.
翻訳日:2022-03-17 15:35:40 公開日:2022-03-16
# PMAL:ロバストなプロトタイプマイニングによるオープンセット認識

PMAL: Open Set Recognition via Robust Prototype Mining ( http://arxiv.org/abs/2203.08569v1 )

ライセンス: Link先を確認
Jing Lu, Yunxu Xu, Hao Li, Zhanzhan Cheng and Yi Niu(参考訳) オープンセット認識(OSR)が注目されている。 事前に定義されたクラスを認識するだけでなく、システムは未知のクラスを拒否する必要がある。 プロトタイプ学習は、未知と未知の区別において、表現のクラス内コンパクト性を改善する能力が必要となるため、この問題に対処する潜在的な方法である。 本研究では,新しいPMAL(Prototype Mining And Learning)フレームワークを提案する。 埋め込み空間を最適化する段階でプロトタイプ採掘機構を持ち、プロトタイプセットの高品質と多様性という2つの重要な性質を明示的に考慮している。 具体的には、まず、データ不確実性学習に基づくトレーニングサンプルから高品質な候補を抽出し、予期せぬノイズからの干渉を避ける。 単一カテゴリにおいても多彩なオブジェクトの出現を考えると,プロトタイプセットフィルタリングのための多様性に基づく戦略が提案されている。 したがって、埋め込み空間は、事前定義されたクラスと既知のクラスと未知クラスを区別するためにより最適化することができる。 大規模な実験は、プロトタイプ採掘に取り入れられた2つの優れた特性(すなわち高品質と多様性)を検証し、最先端技術と比較して提案されたフレームワークの顕著な性能を示す。

Open Set Recognition (OSR) has been an emerging topic. Besides recognizing predefined classes, the system needs to reject the unknowns. Prototype learning is a potential manner to handle the problem, as its ability to improve intra-class compactness of representations is much needed in discrimination between the known and the unknowns. In this work, we propose a novel Prototype Mining And Learning (PMAL) framework. It has a prototype mining mechanism before the phase of optimizing embedding space, explicitly considering two crucial properties, namely high-quality and diversity of the prototype set. Concretely, a set of high-quality candidates are firstly extracted from training samples based on data uncertainty learning, avoiding the interference from unexpected noise. Considering the multifarious appearance of objects even in a single category, a diversity-based strategy for prototype set filtering is proposed. Accordingly, the embedding space can be better optimized to discriminate therein the predefined classes and between known and unknowns. Extensive experiments verify the two good characteristics (i.e., high-quality and diversity) embraced in prototype mining, and show the remarkable performance of the proposed framework compared to state-of-the-arts.
翻訳日:2022-03-17 15:35:19 公開日:2022-03-16
# 深い消失点検出:幾何学的優先はデータセットの変動を消失させる

Deep vanishing point detection: Geometric priors make dataset variations vanish ( http://arxiv.org/abs/2203.08586v1 )

ライセンス: Link先を確認
Yancong Lin, Ruben Wiersma, Silvia L. Pintea, Klaus Hildebrandt, Elmar Eisemann, and Jan C. van Gemert(参考訳) ディープラーニングは画像の消滅点検出を改善した。 しかし、ディープネットワークは高価なハードウェアでトレーニングされた高価なアノテートデータセットを必要とし、わずかに異なるドメインに一般化することはない。 本稿では,これらの問題に対して,事前知識のある深い消失点検出ネットワークを注入することで対処する。 この事前知識は、もはやデータから学ぶ必要はなく、貴重なアノテーションの労力と計算を省き、現実的な最小限のシナリオを解き放ち、ドメインの変更の影響を減らす。 さらに、事前の解釈可能性により、マンハッタンと非マンハッタン世界の切り替えのような小さな問題にディープネットワークを適用することができる。 2つの幾何学的前提をシームレスに組み込む。 (i)ハフ変換 -画像画素を直線にマッピングし、 (ii) ガウス球面 -- 交叉が零点を表す大円に直線を写像する。 実験により、我々は選択肢を減らし、大規模データ設定における既存のモデルに匹敵する精度を示す。 モデルの改善したデータ効率、ドメイン変更に対する堅牢性、非マンハッタン設定への適応性を検証する。

Deep learning has improved vanishing point detection in images. Yet, deep networks require expensive annotated datasets trained on costly hardware and do not generalize to even slightly different domains, and minor problem variants. Here, we address these issues by injecting deep vanishing point detection networks with prior knowledge. This prior knowledge no longer needs to be learned from data, saving valuable annotation efforts and compute, unlocking realistic few-sample scenarios, and reducing the impact of domain changes. Moreover, the interpretability of the priors allows to adapt deep networks to minor problem variations such as switching between Manhattan and non-Manhattan worlds. We seamlessly incorporate two geometric priors: (i) Hough Transform -- mapping image pixels to straight lines, and (ii) Gaussian sphere -- mapping lines to great circles whose intersections denote vanishing points. Experimentally, we ablate our choices and show comparable accuracy to existing models in the large-data setting. We validate our model's improved data efficiency, robustness to domain changes, adaptability to non-Manhattan settings.
翻訳日:2022-03-17 15:35:00 公開日:2022-03-16
# 連続変形対象物に対するカメラネットワークの被覆最適化

Coverage Optimization of Camera Network for Continuous Deformable Object ( http://arxiv.org/abs/2203.08632v1 )

ライセンス: Link先を確認
Chang Li, Xi Chen, Li Chai(参考訳) 本稿では,視覚的カバレッジを目的とし,デフォルマブルオブジェクトをカメラの展開に適用する。 対象輪郭をメッシュとしてサンプル点に離散化し、その変形をサンプル点の連続軌跡として表現する。 計算複雑性を低減するために、連続変形過程を表す特徴点を慎重に選択し、変形可能な物体の視覚被覆を移動して特定の特徴点を被覆する。 特に、対象輪郭上の各サンプル点の変形軌跡全体を含む長方形の頂点を特徴点として選択する。 最適化問題を解くために改良されたwolf packアルゴリズムが提案されている。 最後に,カメラネットワークの展開方式の有効性を示すシミュレーション結果を示した。

In this paper, a deformable object is considered for cameras deployment with the aim of visual coverage. The object contour is discretized into sampled points as meshes, and the deformation is represented as continuous trajectories for the sampled points. To reduce the computational complexity, some feature points are carefully selected representing the continuous deformation process, and the visual coverage for the deformable object is transferred to cover the specific feature points. In particular, the vertexes of a rectangle that can contain the entire deformation trajectory of every sampled point on the object contour are chosen as the feature points. An improved wolf pack algorithm is then proposed to solve the optimization problem. Finally, simulation results are given to demonstrate the effectiveness of the proposed deployment method of camera network.
翻訳日:2022-03-17 15:33:38 公開日:2022-03-16
# トポロジー保存型形状復元とニューラル拡散流による登録

Topology-Preserving Shape Reconstruction and Registration via Neural Diffeomorphic Flow ( http://arxiv.org/abs/2203.08652v1 )

ライセンス: Link先を確認
Shanlin Sun, Kun Han, Deying Kong, Hao Tang, Xiangyi Yan, Xiaohui Xie(参考訳) Deep Implicit Function (DIF) は、ディープニューラルネットワークを通して学習された連続符号付き距離関数を持つ3次元幾何学を表す。 近年,DIFsをモデルとした形状テンプレートを学習することにより,同一クラスの形状間の意味的関係を抽出し,形状再構成と高密度点対応を同時に行う方法が提案されている。 これらの手法は, 3次元形状の再構成や対応推定において, 高い柔軟性と精度を提供する。 しかし、これらの手法で構築された点対応は、メッシュベースのテンプレートマッチング法とは異なり、本質的に形状のトポロジを保存しない。 これにより、医用画像の解剖学的構造など、基礎となるトポロジカル構造や物質が存在する3次元幾何学への応用が制限される。 本稿では, テンプレートの形状を, 内在的に保存される形状トポロジーの条件付き微分変形として表現し, 深い暗黙的な形状テンプレートを学習するニューラル拡散型流れ(NDF)と呼ばれる新しいモデルを提案する。 微分同相変形はニューラル正規微分方程式(NODE)ブロックからなるオートデコーダにより実現され、形を暗黙のテンプレートに徐々にマッピングする。 組織形状の再構成と整列に対するNDFの有効性を評価するため,複数の医用画像臓器分割データセットについて広範な実験を行った。 NDFは、常に最先端の臓器形状の再構築と、精度と品質の両面での登録結果を達成する。 ソースコードはhttps://github.com/S iwensun/Neural_Diffe omorphic_Flow--NDFで公開されている。

Deep Implicit Functions (DIFs) represent 3D geometry with continuous signed distance functions learned through deep neural nets. Recently DIFs-based methods have been proposed to handle shape reconstruction and dense point correspondences simultaneously, capturing semantic relationships across shapes of the same class by learning a DIFs-modeled shape template. These methods provide great flexibility and accuracy in reconstructing 3D shapes and inferring correspondences. However, the point correspondences built from these methods do not intrinsically preserve the topology of the shapes, unlike mesh-based template matching methods. This limits their applications on 3D geometries where underlying topological structures exist and matter, such as anatomical structures in medical images. In this paper, we propose a new model called Neural Diffeomorphic Flow (NDF) to learn deep implicit shape templates, representing shapes as conditional diffeomorphic deformations of templates, intrinsically preserving shape topologies. The diffeomorphic deformation is realized by an auto-decoder consisting of Neural Ordinary Differential Equation (NODE) blocks that progressively map shapes to implicit templates. We conduct extensive experiments on several medical image organ segmentation datasets to evaluate the effectiveness of NDF on reconstructing and aligning shapes. NDF achieves consistently state-of-the-art organ shape reconstruction and registration results in both accuracy and quality. The source code is publicly available at https://github.com/S iwensun/Neural_Diffe omorphic_Flow--NDF.
翻訳日:2022-03-17 15:33:27 公開日:2022-03-16
# graph flow:二重効率医用画像セグメンテーションのためのクロスレイヤーグラフフロー蒸留

Graph Flow: Cross-layer Graph Flow Distillation for Dual-Efficient Medical Image Segmentation ( http://arxiv.org/abs/2203.08667v1 )

ライセンス: Link先を確認
Wenxuan Zou, Muyi Sun(参考訳) 深層畳み込みニューラルネットワークの開発により、医療画像のセグメンテーションは近年、一連のブレークスルーを達成している。 しかし、高性能畳み込みニューラルネットワークは、常に多くのパラメータと高価な計算コストを意味し、臨床シナリオの応用を妨げる。 一方で、大規模な注釈付き医用画像データセットの不足は、高性能ネットワークの適用をさらに妨げている。 そこで本研究では,ネットワーク効率とアノテーション効率のよい医用画像セグメンテーションにおけるクロスレイヤーグラフフロー知識を活用するための,新しい総合的知識蒸留法であるgraph flowを提案する。 Next, the knowledge included in the variation graph is transferred from a well-trained cumbersome teacher network to a non-trained compact student network.In addition, an unsupervised Paraphraser Module is designed to refine the knowledge of the teacher network, which is also beneficial for the stabilization of training procedure.Furthermor e, we build a unified distillation framework by integrating the adversarial distillation and the vanilla logits distillation, which can further promote the final performance respectively. その結果,胃癌分画データセットとsynapse multi-organ segmentationデータセットを用いた広範な実験により,これらの異なる階層性および多カテゴリーの医療画像データに対して最先端のパフォーマンスを実現する手法の著明な性能を示すことができた。 さらに,デュアル効率な医用画像セグメンテーションのための新しい半教師付きパラダイムにより,グラフフローの有効性を示す。

With the development of deep convolutional neural networks, medical image segmentation has achieved a series of breakthroughs in recent years. However, the higher-performance convolutional neural networks always mean numerous parameters and expensive computation costs, which will hinder the applications in clinical scenario. Meanwhile, the scarceness of large-scale annotated medical image datasets further impedes the application of high-performance networks. To tackle these problems, we propose Graph Flow, a novel comprehensive knowledge distillation method, to exploit the cross-layer graph flow knowledge for both network-efficient and annotation-efficient medical image segmentation.Specifi cally, our Graph Flow Distillation constructs a variation graph which is employed to measure the flow of channel-wise salience features between different layers. Next, the knowledge included in the variation graph is transferred from a well-trained cumbersome teacher network to a non-trained compact student network.In addition, an unsupervised Paraphraser Module is designed to refine the knowledge of the teacher network, which is also beneficial for the stabilization of training procedure.Furthermor e, we build a unified distillation framework by integrating the adversarial distillation and the vanilla logits distillation, which can further promote the final performance respectively. As a result, extensive experiments conducted on Gastric Cancer Segmentation Dataset and Synapse Multi-organ Segmentation Dataset demonstrate the prominent ability of our method which achieves state-of-the-art performance on these different-modality and multi-category medical image data. Moreover, we demonstrates the effectiveness of our Graph Flow through a new semi-supervised paradigm for dual-efficient medical image segmentation.
翻訳日:2022-03-17 15:33:02 公開日:2022-03-16
# know your sensors $\unicode{x2013}$ a modality study for surgical action classification

Know your sensORs $\unicode{x2013}$ A Modality Study For Surgical Action Classification ( http://arxiv.org/abs/2203.08674v1 )

ライセンス: Link先を確認
Lennart Bastian and Tobias Czempiel and Christian Heiliger and Konrad Karcz and Ulrich Eck and Benjamin Busam and Nassir Navab(参考訳) 手術室(OR)は、自動化と最適化のための多くの機会を提供する。 orのさまざまなソースからの動画が利用できるようになる。 医療コミュニティは、この豊富なデータを活用して、介入ケアを推進し、コストを下げ、患者全体の成果を改善する自動化手法の開発を目指している。 既存のカメラや室内カメラのデータセットは、これまではサイズやモダリティが限られており、どのセンサーモダリティがビデオからの手術動作の認識に最も適しているかは不明だ。 本研究は, 手術時の動作認識性能が, 使用画像のモダリティによって異なることを示す。 本研究では,いくつかの一般的なセンサモダリティに関する方法論解析を行い,分類性能を向上させる2つの融合手法を提案する。 腹腔鏡下手術18例の多視点RGB-Dビデオ記録を用いて解析を行った。

The surgical operating room (OR) presents many opportunities for automation and optimization. Videos from various sources in the OR are becoming increasingly available. The medical community seeks to leverage this wealth of data to develop automated methods to advance interventional care, lower costs, and improve overall patient outcomes. Existing datasets from OR room cameras are thus far limited in size or modalities acquired, leaving it unclear which sensor modalities are best suited for tasks such as recognizing surgical action from videos. This study demonstrates that surgical action recognition performance can vary depending on the image modalities used. We perform a methodical analysis on several commonly available sensor modalities, presenting two fusion approaches that improve classification performance. The analyses are carried out on a set of multi-view RGB-D video recordings of 18 laparoscopic procedures.
翻訳日:2022-03-17 15:32:35 公開日:2022-03-16
# オープンドメインDense Retrievalのためのマルチビュー文書表現学習

Multi-View Document Representation Learning for Open-Domain Dense Retrieval ( http://arxiv.org/abs/2203.08372v1 )

ライセンス: Link先を確認
Shunyu Zhang, Yaobo Liang, Ming Gong, Daxin Jiang, Nan Duan(参考訳) Dense検索は、クエリとドキュメントの単一のベクトル表現を生成するために、バイエンコーダアーキテクチャ上に構築された大規模なドキュメントコレクションから、第1段階の検索において顕著な進歩を遂げた。 しかし、ドキュメントは通常、異なるビューから複数の潜在的クエリに答えることができる。 したがって、文書の単一のベクトル表現は、マルチビュークエリと一致しにくく、セマンティックなミスマッチ問題に直面している。 本稿では,多視点文書表現学習フレームワークを提案する。 まず、ビューアを通して複数の埋め込みを生成する簡易かつ効果的な方法を提案する。 第2に,マルチビュー埋め込みが同一のビューに崩壊することを防止するため,複数のビューアが異なる潜在的クエリによりよく対応できるように,アニール温度によるグローバルローカルロスを提案する。 実験により,本手法は最近の成果より優れ,最先端の結果が得られた。

Dense retrieval has achieved impressive advances in first-stage retrieval from a large-scale document collection, which is built on bi-encoder architecture to produce single vector representation of query and document. However, a document can usually answer multiple potential queries from different views. So the single vector representation of a document is hard to match with multi-view queries, and faces a semantic mismatch problem. This paper proposes a multi-view document representation learning framework, aiming to produce multi-view embeddings to represent documents and enforce them to align with different queries. First, we propose a simple yet effective method of generating multiple embeddings through viewers. Second, to prevent multi-view embeddings from collapsing to the same one, we further propose a global-local loss with annealed temperature to encourage the multiple viewers to better align with different potential queries. Experiments show our method outperforms recent works and achieves state-of-the-art results.
翻訳日:2022-03-17 15:32:21 公開日:2022-03-16
# 株をミームに変える: ソーシャルコミュニティがウォール街をドライブする方法を理解するためのデータセット

Turning Stocks into Memes: A Dataset for Understanding How Social Communities Can Drive Wall Street ( http://arxiv.org/abs/2203.08694v1 )

ライセンス: Link先を確認
Richard Alvarez, Paras Bhatt, Xingmeng Zhao, Anthony Rios(参考訳) RedditでGameStopの株を買う気のある人はいるだろうか? 株を買うよう人々に説得するのは何でしょう? ウォール街の投資家に悪影響を及ぼすコーディネート計画を支持すると人々は確信しているか。 既存の理解意図に関する文献は主に調査や自己報告に依存しているが、これらの方法論には限界がある。 そこで本稿では,GameStop 現象を中心としたコミュニケーションの注釈付きデータセットを開発し,r/WallStreetBets コミュニティ内での購読者意図の行動を分析して,株式を購入する(購入しない)。 同様に、私たちはデータセットをキュレートして、GameStopのコミュニティの協調行動に対するユーザの一般的なサポートとの相互作用をよりよく理解します。 全体として、私たちのデータセットは、共通言語や物語を採用することで、社会運動をオンラインで購入する説得力について、社会科学者に洞察を与えることができます。 警告: 本論文はredditのr/wallstreetbets subredditによく見られる攻撃的言語を含んでいる。

Who actually expresses an intent to buy GameStop shares on Reddit? What convinces people to buy stocks? Are people convinced to support a coordinated plan to adversely impact Wall Street investors? Existing literature on understanding intent has mainly relied on surveys and self reporting; however there are limitations to these methodologies. Hence, in this paper, we develop an annotated dataset of communications centered on the GameStop phenomenon to analyze the subscriber intentions behaviors within the r/WallStreetBets community to buy (or not buy) stocks. Likewise, we curate a dataset to better understand how intent interacts with a user's general support towards the coordinated actions of the community for GameStop. Overall, our dataset can provide insight to social scientists on the persuasive power to buy into social movements online by adopting common language and narrative. WARNING: This paper contains offensive language that commonly appears on Reddit's r/WallStreetBets subreddit.
翻訳日:2022-03-17 15:29:59 公開日:2022-03-16
# リスクから学ぶ:効率的で安全な運転戦略のためのリスク・ユーティリティ強化学習

How to Learn from Risk: Explicit Risk-Utility Reinforcement Learning for Efficient and Safe Driving Strategies ( http://arxiv.org/abs/2203.08409v1 )

ライセンス: Link先を確認
Lukas M. Schmidt, Sebastian Rietsch, Axel Plinge, Bjoern M. Eskofier, Christopher Mutschler(参考訳) 自動運転はモビリティに革命を起こす可能性があるため、研究の活発な領域である。 実際には、自動運転車の動作は、効率的、安全、そして解釈可能でなければならない。 バニラ強化学習(rl)は実行的行動戦略を見つけるが、それらはしばしば安全で解釈できない。 安全性はSafe RLアプローチを通じて導入されますが、学習された振る舞いが個別にモデル化することなく、安全とパフォーマンスに共同最適化されているため、ほとんどの場合、解釈不能です。 解釈可能な機械学習はRLにはほとんど適用されない。 本稿では,自律走行車両の動作を安全かつ解釈可能とし,かつ効率的であるsafedqnを提案する。 SafeDQNは、アルゴリズム的に透過的でありながら、期待されるリスクとアクションの有用性の間の理解可能なセマンティックなトレードオフを提供する。 safedqnは様々なシナリオで解釈可能かつ安全な運転方針を見つけ、最新技術がリスクと実用性の両方を評価するのにどのように役立つかを示す。

Autonomous driving has the potential to revolutionize mobility and is hence an active area of research. In practice, the behavior of autonomous vehicles must be acceptable, i.e., efficient, safe, and interpretable. While vanilla reinforcement learning (RL) finds performant behavioral strategies, they are often unsafe and uninterpretable. Safety is introduced through Safe RL approaches, but they still mostly remain uninterpretable as the learned behaviour is jointly optimized for safety and performance without modeling them separately. Interpretable machine learning is rarely applied to RL. This paper proposes SafeDQN, which allows to make the behavior of autonomous vehicles safe and interpretable while still being efficient. SafeDQN offers an understandable, semantic trade-off between the expected risk and the utility of actions while being algorithmically transparent. We show that SafeDQN finds interpretable and safe driving policies for a variety of scenarios and demonstrate how state-of-the-art saliency techniques can help to assess both risk and utility.
翻訳日:2022-03-17 15:29:00 公開日:2022-03-16
# 拡張車両エネルギーデータセット(eVED):自動車旅行エネルギー消費のディープラーニングのための大規模データセット

Extended vehicle energy dataset (eVED): an enhanced large-scale dataset for deep learning on vehicle trip energy consumption ( http://arxiv.org/abs/2203.08630v1 )

ライセンス: Link先を確認
Shiliang Zhang, Dyako Fatih, Fahmi Abdulqadir, Tobias Schwarz, Xuehui Ma(参考訳) 本研究は,車両エネルギー消費分析のためのオープンにリリースされた大規模データセットである車両エネルギーデータセット(ved)の拡張版を提案する。 当初のバージョンと比較すると、拡張VED(eVED)データセットは正確な車両旅行GPS座標で拡張され、VEDの走行記録と道路速度制限や交差点といった外部情報とを関連付ける基盤として機能し、車両のエネルギー消費を分析するのに不可欠な属性を蓄積する。 特に、元のVEDデータ内のすべてのGPSトレースレコードを校正し、その上で、VEDデータを地理情報システム(QGIS)、Overpass API、Open Street Map API、Google Maps APIから抽出した属性に関連付けました。 関連属性には、道路標高の記録12,609,170件、速度制限12,203,044件、速度制限12,281,719件、交差点584,551件、バス停429,638件、交差点312,196件、交通信号195,856件、停止標識29,397件、旋回ループ5,848件、踏切4,053件、旋回円3,554件、高速道路ジャンクション2,938件がある。 得られたeVEDデータセットは、正確なGPS座標と車両旅行記録の豊富な特徴により、学習エンジン、特にデータ満足度と豊かさをより要求する深層学習エンジンに、正確で豊富な媒体を提供することができる。 さらに,データキャリブレーションとエンリッチメントのためのソフトウェアを再利用して,特定のユーザケースに対するさらなる車両トリップデータセットを生成し,車両の挙動や交通動態解析に関する深い洞察に役立てます。 我々は,eVEDデータセットとデータ豊か化ソフトウェアが,将来の技術開発において学術的・産業的な自動車部門に役立てられることを期待する。

This work presents an extended version of the Vehicle Energy Dataset (VED), which is a openly released large-scale dataset for vehicle energy consumption analysis. Compared with its original version, the extended VED (eVED) dataset is enhanced with accurate vehicle trip GPS coordinates, serving as a basis to associate the VED trip records with external information, e.g., road speed limit and intersections, from accessible map services to accumulate attributes that is essential in analyzing vehicle energy consumption. In particularly, we calibrate all the GPS trace records in the original VED data, upon which we associated the VED data with attributes extracted from the Geographic Information System (QGIS), the Overpass API, the Open Street Map API, and Google Maps API. The associated attributes include 12,609,170 records of road elevation, 12,203,044 of speed limit, 12,281,719 of speed limit with direction (in case the road is bi-directional), 584,551 of intersections, 429,638 of bus stop, 312,196 of crossings, 195,856 of traffic signals, 29,397 of stop signs, 5,848 of turning loops, 4,053 of railway crossings (level crossing), 3,554 of turning circles, and 2,938 of motorway junctions. With the accurate GPS coordinates and enriched features of the vehicle trip record, the obtained eVED dataset can provide a precise and abundant medium to feed a learning engine, especially a deep learning engine that is more demanding on data sufficiency and richness. Moreover, our software work for data calibration and enrichment can be reused to generate further vehicle trip datasets for specific user cases, contributing to deep insights into vehicle behaviors and traffic dynamics analyses. We anticipate that the eVED dataset and our data enrichment software can serve the academic and industrial automotive section as apparatus in developing future technologies.
翻訳日:2022-03-17 15:26:26 公開日:2022-03-16
# AI Innovation Labsを企業と共同で構築

Building AI Innovation Labs together with Companies ( http://arxiv.org/abs/2203.08465v1 )

ライセンス: Link先を確認
Jens Heidrich, Andreas Jedlitschka, Adam Trendowicz, Anna Maria Vollmer(参考訳) 将来的には、ほとんどの企業は人工知能(AI)のトピックに直面することになり、この点に関して彼らの戦略を決定する必要がある。 現在、多くの企業が、aiとデータの利用がビジネスモデルにどのように影響するか、潜在的なユースケースがどのようなものになるのかを考えている。 最大の課題の1つは、明確なビジネス価値を持つ革新的なソリューションアイデアを思いつくことです。 これは一方のビジネス能力と他方のAIとデータ分析の技術的能力を必要とする。 本稿では、AIイノベーションラボの概念を提示し、適切なアイデアを思いつき、企業能力に基づいたビジネス価値とその実現可能性に関するインクリメンタルな実装と評価に至るまで、包括的なフレームワークを実証する。 このコンセプトは、さまざまなドメインの企業との9年間にわたるデータ駆動イノベーションの成果である。 さらに、実践的な応用から学んだ教訓を共有します。 AIモデルの開発に関する文献には、多くの技術出版物があり、多くのコンサルタント企業がAIイノベーションを構築するためのサービスを提供しているが、エンドツーエンドフレームワークがどのようなものかの詳細を共有する出版物はほとんどない。

In the future, most companies will be confronted with the topic of Artificial Intelligence (AI) and will have to decide on their strategy in this regards. Currently, a lot of companies are thinking about whether and how AI and the usage of data will impact their business model and what potential use cases could look like. One of the biggest challenges lies in coming up with innovative solution ideas with a clear business value. This requires business competencies on the one hand and technical competencies in AI and data analytics on the other hand. In this article, we present the concept of AI innovation labs and demonstrate a comprehensive framework, from coming up with the right ideas to incrementally implementing and evaluating them regarding their business value and their feasibility based on a company's capabilities. The concept is the result of nine years of working on data-driven innovations with companies from various domains. Furthermore, we share some lessons learned from its practical applications. Even though a lot of technical publications can be found in the literature regarding the development of AI models and many consultancy companies provide corresponding services for building AI innovations, we found very few publications sharing details about what an end-to-end framework could look like.
翻訳日:2022-03-17 15:25:45 公開日:2022-03-16
# 教師付き自己教師型学習のための生波形話者検証

Raw waveform speaker verification for supervised and self-supervised learning ( http://arxiv.org/abs/2203.08488v1 )

ライセンス: Link先を確認
Jee-weon Jung, You Jin Kim, Hee-Soo Heo, Bong-Jin Lee, Youngki Kwon, Joon Son Chung(参考訳) 生波形を直接操作する話者検証モデルに注目が集まっている。 しかし、その性能は最先端のハンドクラフト機能ベースに比べて競争力が低く、ベンチマークvoxceleb1評価プロトコルで1%未満のエラー率を示した。 さらに、自己教師付き学習フレームワークではまだ検討されていない。 本稿では,res2net backboneモジュールや,コンテキストとチャネルの両方を考慮した集約法など,話者照合に有効な手法を取り入れた新たな生波形話者照合モデルを提案する。 最良の構成では、このモデルは最先端のモデルと同等のエラー率0.89%である。 また,自己教師付き学習フレームワークを用いて提案モデルを検討し,本研究における最先端のパフォーマンスを示す。 最後に,自己超越で訓練したモデルを半教師付きシナリオの事前学習モデルとして有効に活用することを示し,その場合,限られた量のデータだけが真理ラベルを持ち,より大きなデータにラベルがないと仮定する。

Speaker verification models that directly operate upon raw waveforms are receiving growing attention. However, their performances are less competitive than the state-of-the-art handcrafted feature-based counterparts, demonstrating equal error rates under 1% on the benchmark VoxCeleb1 evaluation protocol. In addition, they have yet not been explored with self-supervised learning frameworks. This paper proposes a new raw waveform speaker verification model that incorporates techniques proven effective for speaker verification, including the Res2Net backbone module and the aggregation method considering both context and channels. Under the best performing configuration, the model shows an equal error rate of 0.89%, competitive with state-of-the-art models. We also explore the proposed model with a self-supervised learning framework and show the state-of-the-art performance in this line of research. Finally, we show that leveraging the model trained with self-supervision successfully serves as a pre-trained model under the semi-supervised scenario where it is assumed that only a limited amount of data has a ground truth label and a bigger data has no label.
翻訳日:2022-03-17 15:25:26 公開日:2022-03-16
# pmic:プログレッシブ相互情報コラボレーションによるマルチエージェント強化学習の改善

PMIC: Improving Multi-Agent Reinforcement Learning with Progressive Mutual Information Collaboration ( http://arxiv.org/abs/2203.08553v1 )

ライセンス: Link先を確認
Pengyi Li, Hongyao Tang, Tianpei Yang, Xiaotian Hao, Tong Sang, Yan Zheng, Jianye Hao, Matthew E.Taylor, Zhen Wang(参考訳) 協調学習はマルチエージェント強化学習(MARL)において重要である。 エージェントの行動の相関を最大化し、様々な形態の相互情報(MI)によって特徴付けられるようにすることで、多くの先行研究が協力を促進する。 しかし,本稿では,最適でない協調行動から強い相関が生まれ,MIの最大化が驚くべきことに,より優れたコラボレーションへの学習を妨げることを明らかにする。 本稿では,より効果的なmi-driven collaborationを実現するために,progressive mutual information collaboration (pmic) と呼ばれる新しいmarlフレームワークを提案する。 PMICでは、世界国家と共同行動の間のMIによって測定される新しい協調基準を用いる。 この基準に基づき、PMICの鍵となる考え方は、より優れた協調行動に関連するMIを最大化し、劣ったものに関連するMIを最小化することである。 2つのMI目的は、より優れたコラボレーションに向けた学習を促進すると同時に、準最適に陥ることを避けることで補完的な役割を果たす。 具体的には、PMICは、より優れた相互作用経験と劣る相互作用経験のセットを徐々に保存し、徐々に維持する。 幅広いMARLベンチマークの実験は、他のアルゴリズムと比較してPMICの優れた性能を示している。

Learning to collaborate is critical in multi-agent reinforcement learning (MARL). A number of previous works promote collaboration by maximizing the correlation of agents' behaviors, which is typically characterised by mutual information (MI) in different forms. However, in this paper, we reveal that strong correlation can emerge from sub-optimal collaborative behaviors, and simply maximizing the MI can, surprisingly, hinder the learning towards better collaboration. To address this issue, we propose a novel MARL framework, called Progressive Mutual Information Collaboration (PMIC), for more effective MI-driven collaboration. In PMIC, we use a new collaboration criterion measured by the MI between global states and joint actions. Based on the criterion, the key idea of PMIC is maximizing the MI associated with superior collaborative behaviors and minimizing the MI associated with inferior ones. The two MI objectives play complementary roles by facilitating learning towards better collaborations while avoiding falling into sub-optimal ones. Specifically, PMIC stores and progressively maintains sets of superior and inferior interaction experiences, from which dual MI neural estimators are established. Experiments on a wide range of MARL benchmarks show the superior performance of PMIC compared with other algorithms.
翻訳日:2022-03-17 15:25:07 公開日:2022-03-16
# セマンティックスとメディアのクロスメディア検索を指向した科学技術情報

Scientific and Technological Information Oriented Semantics-adversaria l and Media-adversarial Cross-media Retrieval ( http://arxiv.org/abs/2203.08615v1 )

ライセンス: Link先を確認
Ang Li and Junping Du and Feifei Kou and Zhe Xue and Xin Xu and Mingying Xu and Yang Jiang(参考訳) 科学的・技術的情報のクロスメディア検索は、クロスメディア研究における重要な課題の1つである。 クロスメディアな科学・技術情報検索は、科学・技術情報レコメンデーション、パーソナライズされた科学・技術情報検索など、ユーザのニーズを満たすアプリケーションの設計を支援する、多種多種多様な科学・技術資源からターゲット情報を取得する。 クロスメディア検索の中核は共通の部分空間を学習することであり、異なるメディアからのデータをこの部分空間にマッピングされた後に直接比較することができる。 サブスペース学習では、既存の手法では、メディア内データの識別とマッピング後のメディア間データの非分散のモデル化にしばしば焦点が当てられるが、メディア間データのマッピング前後における意味的一貫性や、メディア間検索の結果を制限するメディア内データの識別は無視される。 そこで,本稿では,smcr (scientific and technical information oriented semantics-adversaria l and media-adversarial cross-media retrieval method) を提案する。 具体的には、SMCRは、メディア間のセマンティックな一貫性の喪失を最小化し、マッピング前後のセマンティックな類似性を維持する。 さらに、SMCRは、基本的な特徴マッピングネットワークと洗練された特徴マッピングネットワークを構築し、意味論におけるメディア識別損失を最小化し、特徴マッピングネットワークがメディア識別ネットワークを混乱させる能力を高める。 2つのデータセットに対する実験結果から,提案したSMCRはメディア間検索において最先端の手法より優れていることが示された。

Cross-media retrieval of scientific and technological information is one of the important tasks in the cross-media study. Cross-media scientific and technological information retrieval obtain target information from massive multi-source and heterogeneous scientific and technological resources, which helps to design applications that meet users' needs, including scientific and technological information recommendation, personalized scientific and technological information retrieval, etc. The core of cross-media retrieval is to learn a common subspace, so that data from different media can be directly compared with each other after being mapped into this subspace. In subspace learning, existing methods often focus on modeling the discrimination of intra-media data and the invariance of inter-media data after mapping; however, they ignore the semantic consistency of inter-media data before and after mapping and media discrimination of intra-semantics data, which limit the result of cross-media retrieval. In light of this, we propose a scientific and technological information oriented Semantics-adversaria l and Media-adversarial Cross-media Retrieval method (SMCR) to find an effective common subspace. Specifically, SMCR minimizes the loss of inter-media semantic consistency in addition to modeling intra-media semantic discrimination, to preserve semantic similarity before and after mapping. Furthermore, SMCR constructs a basic feature mapping network and a refined feature mapping network to jointly minimize the media discriminative loss within semantics, so as to enhance the feature mapping network's ability to confuse the media discriminant network. Experimental results on two datasets demonstrate that the proposed SMCR outperforms state-of-the-art methods in cross-media retrieval.
翻訳日:2022-03-17 15:24:46 公開日:2022-03-16
# クラスリファクタリングレコメンデーション抽出のための変分グラフオートエンコーダの探索

Exploring Variational Graph Auto-Encoders for Extract Class Refactoring Recommendation ( http://arxiv.org/abs/2203.08787v1 )

ライセンス: Link先を確認
Pritom Saha Akash(参考訳) コードの臭いは、システムの再利用性と保守性を低減するソフトウェアシステムの設計と開発の欠陥の兆候である。 リファクタリングは、プログラムコードからコードの臭いを取り除くための継続的なプラクティスとして行われます。 異なるコードの臭いの中で、godクラスまたはblobは最も一般的なコードの臭いの1つです。 godクラスにはあまりに多くの責務があり、オブジェクト指向プログラミング設計の低結合性と高い結合性原則に違反している。 本稿では,より特定の責任を持つ複数の小さなクラスに神クラスを抽出するための自動的アプローチを提案する。 これを実現するために、まず、関係する神クラスのためのメソッド(ノード)のグラフを構築する。 それぞれのメソッド間のエッジは構造的類似性によって決定され、各メソッドの特徴は異なる意味表現法を用いて初期化される。 次に、変分グラフオートエンコーダを用いて、各メソッドのベクトル表現を学習する。 最後に、学習されたベクターは、メソッドを異なるグループに分類し、リファクタリングされたクラスとして推奨する。 2つの有名なオープンソースシステムから収集した16の実際の神クラス上で,3つの異なるクラス凝集指標を用いて,提案フレームワークを評価した。 また,既存の手法と類似したアプローチの比較研究を行い,提案手法が実験で使用した神学のほとんどすべてにより良い結果をもたらしたことを確認した。

The code smell is a sign of design and development flaws in a software system that reduces the reusability and maintainability of the system. Refactoring is done as an ongoing practice to remove the code smell from the program code. Among different code smells, the God class or Blob is one of the most common code smells. A god class contains too many responsibilities, violating object-oriented programming design's low coupling and high cohesiveness principles. This paper proposes an automatic approach to extracting a God class into multiple smaller classes with more specific responsibilities. To do this, we first construct a graph of methods (as nodes) for the concerning god class. The edge between any two methods is determined by their structural similarity, and the feature for each method is initialized using different semantic representation methods. Then, the variational graph auto-encoder is used to learn a vector representation for each method. Finally, the learned vectors are used to cluster methods into different groups to be recommended as refactored classes. We assessed the proposed framework using three different class cohesion metrics on sixteen actual God Classes collected from two well-known open-source systems. We also conducted a comparative study of our approach with a similar existing approach and found that the proposed approach generated better results for almost all the God Classes used in the experiment.
翻訳日:2022-03-17 15:24:14 公開日:2022-03-16
# Motif Mining:リミックス画像の検索と要約

Motif Mining: Finding and Summarizing Remixed Image Content ( http://arxiv.org/abs/2203.08327v1 )

ライセンス: Link先を確認
William Theisen, Daniel Gonzalez, Zachariah Carmichael, Daniel Moreira, Tim Weninger, and Walter Scheirer(参考訳) インターネットでは、画像はもはや静的ではなく、動的コンテンツになっている。 カメラと使いやすい編集ソフトウェアを備えたスマートフォンが利用可能になったことにより、画像はオンザフライでリミックス(再生、編集、他のコンテンツとのリミックス)でき、また、そのプロセスを再現できる世界規模のオーディエンスと組み合わせることができる。 デジタルアートからミームまで、画像の時間的進化は、デジタルヒューマニスト、社会科学者、メディア法医学の専門家にとって重要な研究テーマとなっている。 しかし、コンピュータビジョンの典型的なデータセットは静的なコンテンツで構成されているため、リミックスされたコンテンツを分析する自動アルゴリズムの開発は限られている。 本稿では,未ラベルおよび未分類データの大規模なコレクションにおいて,リミックス画像の検索と要約を行うMotif Miningのアイデアを紹介する。 本稿では,この概念を形式化し,リファレンス実装を導入する。 ロシア・ウクライナ紛争における情報戦争に関連する新たなデータセットを含む、3つのミームスタイルのデータセットで実験が行われている。 提案したモチーフマイニング手法は、類似したアプローチと比較して、人間の観察者の好みや期待とより密接に一致した関連するリミックスコンテンツを特定することができる。

On the internet, images are no longer static; they have become dynamic content. Thanks to the availability of smartphones with cameras and easy-to-use editing software, images can be remixed (i.e., redacted, edited, and recombined with other content) on-the-fly and with a world-wide audience that can repeat the process. From digital art to memes, the evolution of images through time is now an important topic of study for digital humanists, social scientists, and media forensics specialists. However, because typical data sets in computer vision are composed of static content, the development of automated algorithms to analyze remixed content has been limited. In this paper, we introduce the idea of Motif Mining - the process of finding and summarizing remixed image content in large collections of unlabeled and unsorted data. In this paper, this idea is formalized and a reference implementation is introduced. Experiments are conducted on three meme-style data sets, including a newly collected set associated with the information war in the Russo-Ukrainian conflict. The proposed motif mining approach is able to identify related remixed content that, when compared to similar approaches, more closely aligns with the preferences and expectations of human observers.
翻訳日:2022-03-17 15:23:56 公開日:2022-03-16
# (参考訳) 絡み合いと階層的クラスタリング [全文訳有]

Tangles and Hierarchical Clustering ( http://arxiv.org/abs/2203.08731v1 )

ライセンス: CC BY 4.0
Eva Fluck(参考訳) 我々は,robertson と seymour の graph minor project において中心的な役割を果たす構造グラフ理論の概念である tangles と階層的クラスタリングとの接続を確立する。 タングルはグラフに対してのみ定義することはできないが、実際にはある有限宇宙の部分集合上で定義される任意の接続函数に対して定義される。 典型的なクラスタリング応用では、これらの宇宙は計量空間内の点からなる。 接続関数は通常、サブモジュラーである必要がある。 これは、タングルと階層分解(いわゆる分岐分解)をつなぐ中心双対性定理が、部分モジュラリティが我々が極小と呼ぶ異なる性質に置き換えられる場合にも成り立つことを示す最初の貢献である。 次に、任意の距離空間における有限データセット上の接続関数を定義し、その接が、よく知られた単一リンケージクラスタリングアルゴリズムを同じデータセットに適用することによって得られるクラスタと一対一対応であることを証明する。 最後に,この対応を階層的クラスタリングに一般化する。 階層的クラスタリングの結果を表すデータ構造はデンドグラムと呼ばれ、最大サブモジュラー接続関数とその絡み合いと等価であることを示す。 トライアングルをクラスタとして見るというアイデアは、2016年にDiestelとWhittleによって画像セグメンテーションのアプローチとして初めて提案された。 私たちの知る限りでは、私たちの結果は、タングルとクラスタ間の正確な技術的接続を確立する最初のものです。

We establish a connection between tangles, a concept from structural graph theory that plays a central role in Robertson and Seymour's graph minor project, and hierarchical clustering. Tangles cannot only be defined for graphs, but in fact for arbitrary connectivity functions, which are functions defined on the subsets of some finite universe. In typical clustering applications these universes consist of points in some metric space. Connectivity functions are usually required to be submodular. It is our first contribution to show that the central duality theorem connecting tangles with hierarchical decompositions (so-called branch decompositions) also holds if submodularity is replaced by a different property that we call maximum-submodular. We then define a connectivity function on finite data sets in an arbitrary metric space and prove that its tangles are in one-to-one correspondence with the clusters obtained by applying the well-known single linkage clustering algorithms to the same data set. Lastly we generalize this correspondence for any hierarchical clustering. We show that the data structure that represents hierarchical clustering results, called dendograms, are equivalent to maximum-submodular connectivity functions and their tangles. The idea of viewing tangles as clusters has first been proposed by Diestel and Whittle in 2016 as an approach to image segmentation. To the best of our knowledge, our result is the first that establishes a precise technical connection between tangles and clusters.
翻訳日:2022-03-17 15:22:04 公開日:2022-03-16
# Seq2Seqタスクにシーケンスタグを変換する

Transforming Sequence Tagging Into A Seq2Seq Task ( http://arxiv.org/abs/2203.08378v1 )

ライセンス: Link先を確認
Karthik Raman and Iftekhar Naim and Jiecao Chen and Kazuma Hashimoto and Kiran Yalasangi and Krishna Srinivasan(参考訳) 事前訓練された大規模生成言語モデル(LM)は、広範囲のシーケンスタグ付けと構造化予測タスクで大きな成功を収めている。 seq2seq 1 としてシーケンスタグ付けタスクをキャストするには、入出力シーケンスのフォーマットを決定する必要がある。 しかし、これらの形式に関連するトレードオフ(モデル精度、シーケンス長、多言語一般化、幻覚など)の原則的な理解は欠如している。 本稿では,Seq2Seqモデルの入力およびターゲット(すなわち出力)に入力テキストと出力ラベルをキャストするために使用できる様々なフォーマットについて,厳密に研究する。 その過程で,新しいフォーマットを導入することで,シンプルであるだけでなく,より効果的であることを示します。 さらに、新しいフォーマットは、ゼロショットトランスファー学習とジョイントトレーニングの両方で、多言語設定で大幅に向上している。 最後に、新しいフォーマットはより堅牢で、ほとんど完全に幻覚を欠いていることがわかりました -- 既存のフォーマットでよく見られる問題です。14の異なるフォーマットを研究する1000以上の実験と、7つの言語にまたがる3つの多言語データセットを含む7以上の公開ベンチマークによって、我々の発見はシーケンスタグタスクにどのように取り組むべきかを理解する上で、強い経験的な基礎を提供すると信じています。

Pretrained, large, generative language models (LMs) have had great success in a wide range of sequence tagging and structured prediction tasks. Casting a sequence tagging task as a Seq2Seq one requires deciding the formats of the input and output sequences. However, we lack a principled understanding of the trade-offs associated with these formats (such as the effect on model accuracy, sequence length, multilingual generalization, hallucination). In this paper, we rigorously study different formats one could use for casting input text sentences and their output labels into the input and target (i.e., output) of a Seq2Seq model. Along the way, we introduce a new format, which we show to not only be simpler but also more effective. Additionally the new format demonstrates significant gains in the multilingual settings -- both zero-shot transfer learning and joint training. Lastly, we find that the new format is more robust and almost completely devoid of hallucination -- an issue we find common in existing formats. With well over a 1000 experiments studying 14 different formats, over 7 diverse public benchmarks -- including 3 multilingual datasets spanning 7 languages -- we believe our findings provide a strong empirical basis in understanding how we should tackle sequence tagging tasks.
翻訳日:2022-03-17 14:57:18 公開日:2022-03-16
# 思考の列車構築のためのシェパード事前訓練型言語モデル-反復的プロンプティングアプローチ

Shepherd Pre-trained Language Models to Develop a Train of Thought: An Iterative Prompting Approach ( http://arxiv.org/abs/2203.08383v1 )

ライセンス: Link先を確認
Boshi Wang, Xiang Deng, Huan Sun(参考訳) プレトレーニング言語モデル(PLM)は、膨大な量の世界の知識を内包するが、複雑な多段階推論手順を必要とするタスクを解決するためにこれらの知識をリコールすることができないことが示されている。 人間がこれらのタスクの「思考のトレイン」を開発する方法と同様に、plmにそのような能力をどのように組み込むことができるのか? 本研究では,多段階推論タスクにおいて PLM から関連知識を段階的に引き出す新たなプロンプトパラダイムである反復的プロンプトフレームワークについて検討する。 既存のプロンプトメソッドの重要な制限、すなわち、単一の識別可能な関係/述語を持つクエリに制限されているか、あるいは入力コンテキストに依存しないため、異なる推論ステップ間での変数の取得が困難になる。 本稿では,現在のステップのコンテキストに条件付きプロンプトを動的に合成することで,これらの制約に対処する反復型コンテキスト認識プロンプトを提案する。 多段階推論を含む3つのデータセットの実験は、反復型スキームと提案したプロンプトの設計の有効性を示している。

While Pre-trained Language Models (PLMs) internalize a great amount of world knowledge, they have been shown incapable of recalling these knowledge to solve tasks requiring complex & multi-step inference procedures. Similar to how humans develop a "train of thought" for these tasks, how can we equip PLMs with such abilities? In this work, we explore an iterative prompting framework, a new prompting paradigm which progressively elicits relevant knowledge from PLMs for multi-step inference tasks. We identify key limitations of existing prompting methods, namely they are either restricted to queries with a single identifiable relation/predicate, or being agnostic to input contexts, which makes it difficult to capture variabilities across different inference steps. We propose an iterative context-aware prompter, which addresses these limitations by learning to dynamically synthesize prompts conditioned on the current step's contexts. Experiments on three datasets involving multi-step inference show the effectiveness of the iterative scheme and our proposed prompter design.
翻訳日:2022-03-17 14:56:54 公開日:2022-03-16
# MCoNaLa: 複数の自然言語からコードを生成するベンチマーク

MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages ( http://arxiv.org/abs/2203.08388v1 )

ライセンス: Link先を確認
Zhiruo Wang, Grace Cuenca, Shuyan Zhou, Frank F. Xu, Graham Neubig(参考訳) 近年、コード生成やコード要約など、自然言語とプログラミング言語の交わりでアプリケーションが増えてきているが、これらのアプリケーションは一般的に英語中心である。 これにより、英語に精通していないプログラム開発者の障壁が生まれる。 言語間の技術開発におけるこのギャップを軽減するため、英語以外の自然言語コマンドからコードを生成するための多言語データセットであるMCoNaLaを提案する。 英語のCode/Natural Language Challenge (CoNaLa)データセットの方法論をモデル化し、スペイン語、日本語、ロシア語の3言語で合計896のNLコードペアを注釈付けした。 我々は、最先端コード生成システムを用いてMCoNaLaデータセットの性能を定量的に評価する。 難易度は3つの言語によって異なるが、すべてのシステムは英語にかなり遅れており、コード生成を新しい言語に適応させる際の課題が明らかになっている。

While there has been a recent burgeoning of applications at the intersection of natural and programming languages, such as code generation and code summarization, these applications are usually English-centric. This creates a barrier for program developers who are not proficient in English. To mitigate this gap in technology development across languages, we propose a multilingual dataset, MCoNaLa, to benchmark code generation from natural language commands extending beyond English. Modeled off of the methodology from the English Code/Natural Language Challenge (CoNaLa) dataset, we annotated a total of 896 NL-code pairs in three languages: Spanish, Japanese, and Russian. We present a quantitative evaluation of performance on the MCoNaLa dataset by testing with state-of-the-art code generation systems. While the difficulties vary across these three languages, all systems lag significantly behind their English counterparts, revealing the challenges in adapting code generation to new languages.
翻訳日:2022-03-17 14:56:35 公開日:2022-03-16
# 教師なしニューラルマシン翻訳のためのトレーニングと推論の間のデータギャップの橋渡し

Bridging the Data Gap between Training and Inference for Unsupervised Neural Machine Translation ( http://arxiv.org/abs/2203.08394v1 )

ライセンス: Link先を確認
Zhiwei He, Xing Wang, Rui Wang, Shuming Shi, Zhaopeng Tu(参考訳) バックトランスレーションはunsupervised Neural Machine Translation(UNMT)の重要なコンポーネントであり、ターゲット単言語データから擬似並列データを生成する。 UNMTモデルは、翻訳されたソースで擬似並列データに基づいて訓練され、推論で自然言語を翻訳する。 トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。 実験を慎重に設計することにより,(1)一般化能力の低下につながるスタイルギャップ(翻訳対自然テキストスタイル),(2)モデルが対象言語に偏った幻覚コンテンツを生成するように誘導するコンテンツギャップの2つのデータギャップの特徴を同定した。 データギャップを狭めるために,疑似並列データ “natural source, translation target} を同時に利用して推論シナリオを模倣するオンライン自己学習手法を提案する。 複数の広く使われている言語対の実験結果から,本手法はスタイルと内容のギャップを緩和することにより,2つの強いベースライン(XLMとMASS)より優れていることが示された。

Back-translation is a critical component of Unsupervised Neural Machine Translation (UNMT), which generates pseudo parallel data from target monolingual data. A UNMT model is trained on the pseudo parallel data with translated source, and translates natural source sentences in inference. The source discrepancy between training and inference hinders the translation performance of UNMT models. By carefully designing experiments, we identify two representative characteristics of the data gap in source: (1) style gap (i.e., translated vs. natural text style) that leads to poor generalization capability; (2) content gap that induces the model to produce hallucination content biased towards the target language. To narrow the data gap, we propose an online self-training approach, which simultaneously uses the pseudo parallel data {natural source, translated target} to mimic the inference scenario. Experimental results on several widely-used language pairs show that our approach outperforms two strong baselines (XLM and MASS) by remedying the style and content gaps.
翻訳日:2022-03-17 14:56:20 公開日:2022-03-16
# 多言語マスキング言語モデルの言語横断能力 : 言語構造に関する研究

Cross-Lingual Ability of Multilingual Masked Language Models: A Study of Language Structure ( http://arxiv.org/abs/2203.08430v1 )

ライセンス: Link先を確認
Yuan Chai, Yaobo Liang, Nan Duan(参考訳) mBERT や XLM-R のような多言語事前学習型言語モデルは、言語横断能力に優れていた。 驚くことに、両者は多言語マスキング言語モデル(MLM)を使用しており、言語間監督や整列データはない。 しかし,多言語MLMから言語間能力が出現する理由については,まだ明確な理解が得られていない。 私たちの研究では、言語間の共通性から言語間の能力が生まれると論じています。 具体的には, 構成順序, 構成, 単語共起の3つの言語特性について検討する。 まず、ソース言語のプロパティを変更して人工言語を作成する。 次に,対象言語における言語間変換結果の変化を通して,修飾特性の寄与について検討する。 我々は、6つの言語と2つの言語間NLPタスク(テキストエンターメント、文検索)について実験を行った。 我々の主な結論は, 構成順序と単語共起の寄与は限定的であり, 構成は言語間変換の成功により重要である, というものである。

Multilingual pre-trained language models, such as mBERT and XLM-R, have shown impressive cross-lingual ability. Surprisingly, both of them use multilingual masked language model (MLM) without any cross-lingual supervision or aligned data. Despite the encouraging results, we still lack a clear understanding of why cross-lingual ability could emerge from multilingual MLM. In our work, we argue that cross-language ability comes from the commonality between languages. Specifically, we study three language properties: constituent order, composition and word co-occurrence. First, we create an artificial language by modifying property in source language. Then we study the contribution of modified property through the change of cross-language transfer results on target language. We conduct experiments on six languages and two cross-lingual NLP tasks (textual entailment, sentence retrieval). Our main conclusion is that the contribution of constituent order and word co-occurrence is limited, while the composition is more crucial to the success of cross-linguistic transfer.
翻訳日:2022-03-17 14:56:00 公開日:2022-03-16
# 構造的横サンプリングによる意味的パーシングデータセットのスパーラス相関の低減

Structurally Diverse Sampling Reduces Spurious Correlations in Semantic Parsing Datasets ( http://arxiv.org/abs/2203.08445v1 )

ライセンス: Link先を確認
Shivanshu Gupta and Sameer Singh and Matt Gardner(参考訳) 急速に成長する研究機関は、NLPモデルが合成を一般化できないことを実証し、特殊アーキテクチャ、トレーニングスキーム、データ拡張などを通じてそれを緩和しようとしている。 本研究では,構成一般化を促進する多種多様な列車集合をサンプリングする手法について検討した。 本稿では,構造化アウトプットを用いたラベル付きインスタンスプールから,構造的に多様なインスタンス集合をサンプリングする新しいアルゴリズムを提案する。 複雑度の異なる5つのセマンティック解析データセットを評価したところ、我々のアルゴリズムは、構成テンプレート分割だけでなく、最も構造的にも多様でないデータセットの従来のID分割においても、以前のアルゴリズムと競合するか、より優れていることを示す。 一般に,10組のデータセット分割ペアのうち9組で同じ大きさのランダムトレーニングセットよりも多種多様な列車セットがより一般化され,5組で10%以上の絶対改善が達成され,サンプル効率のさらなる証拠が得られた。 さらに, 構造的多様性は, 多様な学習を必要とする総合的なテストセットにも寄与することを示した。 最後に,情報理論を用いて下位構造間のスプリアス相関の低減が,多種多様なトレーニングセットが一般化を促進する一因であることを示す。

A rapidly growing body of research has demonstrated the inability of NLP models to generalize compositionally and has tried to alleviate it through specialized architectures, training schemes, and data augmentation, among other approaches. In this work, we study a different relatively under-explored approach: sampling diverse train sets that encourage compositional generalization. We propose a novel algorithm for sampling a structurally diverse set of instances from a labeled instance pool with structured outputs. Evaluating on 5 semantic parsing datasets of varying complexity, we show that our algorithm performs competitively with or better than prior algorithms in not only compositional template splits but also traditional IID splits of all but the least structurally diverse datasets. In general, we find that diverse train sets lead to better generalization than random training sets of the same size in 9 out of 10 dataset-split pairs, with over 10% absolute improvement in 5, providing further evidence to their sample efficiency. Moreover, we show that structural diversity also makes for more comprehensive test sets that require diverse training to succeed on. Finally, we use information theory to show that reduction in spurious correlations between substructures may be one reason why diverse training sets improve generalization.
翻訳日:2022-03-17 14:55:49 公開日:2022-03-16
# KinyaBERT: 形態を意識したKinyarwanda言語モデル

KinyaBERT: a Morphology-aware Kinyarwanda Language Model ( http://arxiv.org/abs/2203.08459v1 )

ライセンス: Link先を確認
Antoine Nzeyimana, Andre Niyongabo Rubungo(参考訳) BERTのような事前訓練された言語モデルは、多くの自然言語処理タスクに取り組むことに成功している。 しかしながら、これらのモデルで一般的に使用される教師なしサブワードトークン化手法(例えば、バイトペアエンコーディングBPE)は、形態的にリッチな言語を扱うのに最適である。 形態素解析器が与えられたとしても、モルヒムを標準のBERTアーキテクチャに内在的にシークエンシングすることは、形態素構成性を捉え、単語相対的構文規則性を表現するのに非効率である。 これらの課題に対処するために, 形態素解析を応用し, 形態素構成性を明確に表現する, 単純かつ効果的な2層BERTアーキテクチャを提案する。 bertの成功にもかかわらず、その評価のほとんどは高リソース言語で行われており、低リソース言語に適用できない。 提案手法を低リソース形態素に富んだKinyaarwanda言語上で評価し,モデルアーキテクチャKinyaBERTを命名した。 KinyaBERTは、名前付きエンティティ認識タスクでは2%のF1スコア、機械翻訳GLUEベンチマークでは4.3%のスコアでソリッドベースラインを上回っている。 KinyaBERTファインチューニングはより収束性が高く、翻訳ノイズがあっても複数のタスクに対してより堅牢な結果が得られる。

Pre-trained language models such as BERT have been successful at tackling many natural language processing tasks. However, the unsupervised sub-word tokenization methods commonly used in these models (e.g., byte-pair encoding - BPE) are sub-optimal at handling morphologically rich languages. Even given a morphological analyzer, naive sequencing of morphemes into a standard BERT architecture is inefficient at capturing morphological compositionality and expressing word-relative syntactic regularities. We address these challenges by proposing a simple yet effective two-tier BERT architecture that leverages a morphological analyzer and explicitly represents morphological compositionality. Despite the success of BERT, most of its evaluations have been conducted on high-resource languages, obscuring its applicability on low-resource languages. We evaluate our proposed method on the low-resource morphologically rich Kinyarwanda language, naming the proposed model architecture KinyaBERT. A robust set of experimental results reveal that KinyaBERT outperforms solid baselines by 2% F1 score on a named entity recognition task and by 4.3% average score of a machine-translated GLUE benchmark. KinyaBERT fine-tuning has better convergence and achieves more robust results on multiple tasks even in the presence of translation noise.
翻訳日:2022-03-17 14:55:24 公開日:2022-03-16
# HeterMPC:多人数会話における応答生成のための不均一グラフニューラルネットワーク

HeterMPC: A Heterogeneous Graph Neural Network for Response Generation in Multi-Party Conversations ( http://arxiv.org/abs/2203.08500v1 )

ライセンス: Link先を確認
Jia-Chen Gu, Chao-Hong Tan, Chongyang Tao, Zhen-Hua Ling, Huang Hu, Xiubo Geng, Daxin Jiang(参考訳) 近年,二者会話に対する様々な応答生成モデルが顕著に改善されているが,より実用的で複雑な多者会話(MPC)への労力は少なくなっている。 対話コンテキストが発話のシーケンスである2つの会話と比較すると、複雑なコンテキスト構造と生成された応答が対話者(話者と宛先)と履歴発話の両方に大きく依存しているため、mpcsの応答生成モデルの構築はより困難である。 そこで本研究では,mpcsにおける応答生成のためのヘテロジニアスグラフベースのニューラルネットワークであるhetermpcを提案する。 さらに,ノードエッジ型依存パラメータとの6種類のメタ関係も設計し,グラフ内の異種相互作用を特徴付ける。 マルチホップ更新により、hetermpcは応答生成に会話の構造知識を適切に活用することができる。 Ubuntu Internet Relay Chat (IRC) チャネルベンチマークの実験結果から,HeterMPC は MPC の応答生成において,様々なベースラインモデルより優れていることが示された。

Recently, various response generation models for two-party conversations have achieved impressive improvements, but less effort has been paid to multi-party conversations (MPCs) which are more practical and complicated. Compared with a two-party conversation where a dialogue context is a sequence of utterances, building a response generation model for MPCs is more challenging, since there exist complicated context structures and the generated responses heavily rely on both interlocutors (i.e., speaker and addressee) and history utterances. To address these challenges, we present HeterMPC, a heterogeneous graph-based neural network for response generation in MPCs which models the semantics of utterances and interlocutors simultaneously with two types of nodes in a graph. Besides, we also design six types of meta relations with node-edge-type-depen dent parameters to characterize the heterogeneous interactions within the graph. Through multi-hop updating, HeterMPC can adequately utilize the structural knowledge of conversations for response generation. Experimental results on the Ubuntu Internet Relay Chat (IRC) channel benchmark show that HeterMPC outperforms various baseline models for response generation in MPCs.
翻訳日:2022-03-17 14:54:46 公開日:2022-03-16
# 複数の引数による形態学的再帰:拡張アノテーションスキーマとグルジアのケーススタディ

Morphological Reinflection with Multiple Arguments: An Extended Annotation schema and a Georgian Case Study ( http://arxiv.org/abs/2203.08527v1 )

ライセンス: Link先を確認
David Guriel, Omer Goldman, Reut Tsarfaty(参考訳) 近年では、インフレクションテーブルの多言語リポジトリであるUniMorphなど、多くの形態的データセットが出現している。 しかし、現在の形態的アノテーションスキーマの平坦な構造は、いくつかの言語の扱いを、不可能ではないとしても、特に多対人合意の場合、不公平にする。 本稿では,このようなケースに対する一般的な解を提案し,UniMorphアノテーションスキーマを拡張して自然にこの現象に対処する。 この拡張スキーマをジョージア語の1つの言語に適用し、グルジア語の動詞に対する人間の検証、正確、バランスの取れた形態的データセットを提供する。 このデータセットは既存のUniMorphデータセットの4倍のテーブルと6倍の動詞形式を持ち、引数マーキングの可能なバリエーションをすべてカバーし、提案手法の妥当性を実証している。 標準再帰モデルによる実験では、データが形式レベルで分割された場合の一般化は容易であるが、補題線に沿って分割する場合は極めて困難である。 他の言語をこのスキーマにユニモルフィックに拡張することで、このベンチマークのカバレッジ、一貫性、解釈性が向上することが期待される。

In recent years, a flurry of morphological datasets had emerged, most notably UniMorph, a multi-lingual repository of inflection tables. However, the flat structure of the current morphological annotation schemas makes the treatment of some languages quirky, if not impossible, specifically in cases of polypersonal agreement. In this paper we propose a general solution for such cases and expand the UniMorph annotation schema to naturally address this phenomenon, in which verbs agree with multiple arguments using true affixes. We apply this extended schema to one such language, Georgian, and provide a human-verified, accurate and balanced morphological dataset for Georgian verbs. The dataset has 4 times more tables and 6 times more verb forms compared to the existing UniMorph dataset, covering all possible variants of argument marking, demonstrating the adequacy of our proposed scheme. Experiments with a standard reinflection model show that generalization is easy when the data is split at the form level, but extremely hard when splitting along lemma lines. Expanding the other languages in UniMorph to this schema is expected to improve both the coverage, consistency and interpretability of this benchmark.
翻訳日:2022-03-17 14:54:25 公開日:2022-03-16
# 多言語テキストスタイル転送のための言語とタスク適応を用いた多言語事前学習

Multilingual Pre-training with Language and Task Adaptation for Multilingual Text Style Transfer ( http://arxiv.org/abs/2203.08552v1 )

ライセンス: Link先を確認
Huiyuan Lai, Antonio Toral, Malvina Nissim(参考訳) 事前学習したSeq2seqモデルmBARTを多言語テキストスタイルの転送に活用する。 機械翻訳データとゴールドアライメント英語文を用いることで、私たちが検討している3つのターゲット言語で最新の結果が得られる。 さらに,並列データの汎用的不足を考慮し,言語とタスクへの適応を目標とした2つのトレーニング戦略からなる多言語形式移動のためのモジュラー手法を提案する。 提案手法は単言語タスク固有の並列データを必要としない競合性能を実現し,他の言語にも適用可能である。

We exploit the pre-trained seq2seq model mBART for multilingual text style transfer. Using machine translated data as well as gold aligned English sentences yields state-of-the-art results in the three target languages we consider. Besides, in view of the general scarcity of parallel data, we propose a modular approach for multilingual formality transfer, which consists of two training strategies that target adaptation to both language and task. Our approach achieves competitive performance without monolingual task-specific parallel data and can be applied to other style transfer tasks as well as to other languages.
翻訳日:2022-03-17 14:54:04 公開日:2022-03-16
# カリキュラム学習の自動化を意識したゼロショット依存性解析

Zero-Shot Dependency Parsing with Worst-Case Aware Automated Curriculum Learning ( http://arxiv.org/abs/2203.08555v1 )

ライセンス: Link先を確認
Miryam de Lhoneux, Sheng Zhang and Anders S{\o}gaard(参考訳) mBERTやXLM-RoBERTaのような大規模多言語事前訓練された言語モデルは、構文解析モデルの言語間移動に驚くほど効果的である(Wu and Dredze 2019)。 しかし、真の低リソース言語を解析する場合、ソース言語とトレーニング言語は滅多に関連しない。 このギャップを埋めるために,私たちは,カリキュラムの自動学習に依存するマルチタスク学習の手法を採用し,外れた言語のパフォーマンス解析を動的に最適化する。 このアプローチは,ゼロショット設定において,均一かつサイズ-プロポーザルサンプリングよりも有意に優れていることを示す。

Large multilingual pretrained language models such as mBERT and XLM-RoBERTa have been found to be surprisingly effective for cross-lingual transfer of syntactic parsing models (Wu and Dredze 2019), but only between related languages. However, source and training languages are rarely related, when parsing truly low-resource languages. To close this gap, we adopt a method from multi-task learning, which relies on automated curriculum learning, to dynamically optimize for parsing performance on outlier languages. We show that this approach is significantly better than uniform and size-proportional sampling in the zero-shot setting.
翻訳日:2022-03-17 14:53:55 公開日:2022-03-16
# 事前学習言語モデルの地理的適応

Geographic Adaptation of Pretrained Language Models ( http://arxiv.org/abs/2203.08565v1 )

ライセンス: Link先を確認
Valentin Hofmann, Goran Glava\v{s}, Nikola Ljube\v{s}i\'c, Janet B. Pierrehumbert, Hinrich Sch\"utze(参考訳) 地理的言語的特徴は、地理的知識が直感的に有益であるnlpタスク(例えば、位置情報予測と方言特徴予測)における事前訓練された言語モデル(plm)の性能を改善するために一般的に用いられる。 しかし、既存の作業は、これらの地理情報をタスク固有の微調整に利用し、PLMの地理言語知識に組み込むことができず、異なるタスク間で転送可能である。 本研究では, PLMの課題に依存しないジオアダプタへのアプローチを導入し, PLMに言語現象と地理的位置の関係を学習させる。 より具体的には、geoadaptationは、動的マルチタスク学習セットアップにおいて、マスク付き言語モデリングとジオロケーション予測を結合する中間トレーニングステップである。 実験では、BCMSのツイートをジオタグ付けしたコーパスを使用して、ボスニア、クロアチア、モンテネグロ、セルビア(BCMS)向けのPLMであるBERTi\'cをジオアダッドした。 例えば、教師なし(ゼロショット)と教師なし(教師なし)の位置情報予測と、方言の特徴の(教師なし)予測という3つのタスクの評価は、我々のジオアダプテーションアプローチが非常に効果的であることを示している。

Geographic linguistic features are commonly used to improve the performance of pretrained language models (PLMs) on NLP tasks where geographic knowledge is intuitively beneficial (e.g., geolocation prediction and dialect feature prediction). Existing work, however, leverages such geographic information in task-specific fine-tuning, failing to incorporate it into PLMs' geo-linguistic knowledge, which would make it transferable across different tasks. In this work, we introduce an approach to task-agnostic geoadaptation of PLMs that forces the PLM to learn associations between linguistic phenomena and geographic locations. More specifically, geoadaptation is an intermediate training step that couples masked language modeling and geolocation prediction in a dynamic multitask learning setup. In our experiments, we geoadapt BERTi\'c -- a PLM for Bosnian, Croatian, Montenegrin, and Serbian (BCMS) -- using a corpus of geotagged BCMS tweets. Evaluation on three different tasks, namely unsupervised (zero-shot) and supervised geolocation prediction and (unsupervised) prediction of dialect features, shows that our geoadaptation approach is very effective: e.g., we obtain new state-of-the-art performance in supervised geolocation prediction and report massive gains over geographically uninformed PLMs on zero-shot geolocation prediction.
翻訳日:2022-03-17 14:53:43 公開日:2022-03-16
# マルチパラレル単語アライメントのためのグラフニューラルネットワーク

Graph Neural Networks for Multiparallel Word Alignment ( http://arxiv.org/abs/2203.08654v1 )

ライセンス: Link先を確認
Ayyoob Imani, L\"utfi Kerem \c{S}enel, Masoud Jalili Sabet, Fran\c{c}ois Yvon, Hinrich Sch\"utze(参考訳) 単語のアライメントに対する関心は, 類型研究, 言語間アノテーション投影, 機械翻訳などの分野において, 再び高まりつつある。 一般に、アライメントアルゴリズムはbitextのみを使用し、多くの並列コーパスが多重並列であるという事実を利用しない。 本稿では,複数の言語ペア間の高品質な単語アライメントを計算する。 まず、複数の単語アライメントグラフを作成し、すべての単語アライメントペアを1つのグラフに結合する。 次に、グラフ構造を利用するためにグラフニューラルネットワーク(GNN)を用いる。 我々のGNNアプローチ (i)入力語の意味、位置、言語に関する情報を利用する。 (ii)複数の並行文からの情報を含む。 (iii)最初のアライメントからエッジを追加・削除し、 (iv)訓練文を超えて一般化できる予測モデルを得る。 コミュニティ検出は,マルチパラレル単語アライメントに有用な情報を提供する。 提案手法は,3つのワードアレーメントデータセットと下流タスクにおける従来の作業よりも優れている。

After a period of decrease, interest in word alignments is increasing again for their usefulness in domains such as typological research, cross-lingual annotation projection, and machine translation. Generally, alignment algorithms only use bitext and do not make use of the fact that many parallel corpora are multiparallel. Here, we compute high-quality word alignments between multiple language pairs by considering all language pairs together. First, we create a multiparallel word alignment graph, joining all bilingual word alignment pairs in one graph. Next, we use graph neural networks (GNNs) to exploit the graph structure. Our GNN approach (i) utilizes information about the meaning, position, and language of the input words, (ii) incorporates information from multiple parallel sentences, (iii) adds and removes edges from the initial alignments, and (iv) yields a prediction model that can generalize beyond the training sentences. We show that community detection provides valuable information for multiparallel word alignment. Our method outperforms previous work on three word-alignment datasets and on a downstream task.
翻訳日:2022-03-17 14:53:19 公開日:2022-03-16
# cueベクトル:多様な文脈信号に基づく言語モデルのモジュラートレーニング

CUE Vectors: Modular Training of Language Models Conditioned on Diverse Contextual Signals ( http://arxiv.org/abs/2203.08774v1 )

ライセンス: Link先を確認
Scott Novotney, Sreeparna Mukherjee, Zeeshan Ahmed and Andreas Stolcke(参考訳) 本稿では,文外エンコーダと文内エンコーダを共同で学習する必要をなくし,多種多様な文外コンテキスト(メタデータを含む)を用いたニューラルネットワークモデルの学習をモジュール化する枠組みを提案する。 我々のアプローチである文脈的普遍埋め込み(CUE)は、日付や著者などの文脈の1つのセットでLMを訓練し、記事タイトルや前文のような新しいメタデータタイプに適応する。 このモデルは、事前訓練されたニューラル文LM、BERTベースのコンテキストエンコーダ、および文内および文外情報を用いてLM確率を推定するマスク付きトランスフォーマーデコーダからなる。 コンテキストやメタデータが利用できない場合は、ノイズの多いoracle unigram embeddedsをプロキシとして使用して、コンテキスト情報と文内情報を組み合わせることを学びます。 実際のコンテキスト情報は後で導入でき、デコーダの埋め込み空間にコンテキストデータをマップする少数のパラメータを適応させるために使われる。 我々は,nytimes のテキストコーパス上で,コンテキスト条件付けによって lm のパープレキシティを 36.6 から 27.4 に下げることのできる複数のメタデータ型による cue フレームワークを検証する。 トレーニング中にコンテキスト/メタタのサブセットのみでコンテキストLMをブートストラッピングすると、達成可能なゲインの85%が保持される。 モデルのトレーニング まずはプロキシコンテキストで、実際のコンテキストに適応した後のパープレキシティゲインの67%を保持します。 さらに、デコーダモデルのみを適用すれば、コンテキストエンコーダを再トレーニングすることなく、事前学習文lmを別のタイプに置き換えることができる。 全体として、コンテキスト強化LMの漸進的かつスケーラブルなトレーニングを可能にするモジュラーフレームワークを得る。

We propose a framework to modularize the training of neural language models that use diverse forms of sentence-external context (including metadata) by eliminating the need to jointly train sentence-external and within-sentence encoders. Our approach, contextual universal embeddings (CUE), trains LMs on one set of context, such as date and author, and adapts to novel metadata types, such as article title, or previous sentence. The model consists of a pretrained neural sentence LM, a BERT-based context encoder, and a masked transformer decoder that estimates LM probabilities using sentence-internal and sentence-external information. When context or metadata are unavailable, our model learns to combine contextual and sentence-internal information using noisy oracle unigram embeddings as a proxy. Real contextual information can be introduced later and used to adapt a small number of parameters that map contextual data into the decoder's embedding space. We validate the CUE framework on a NYTimes text corpus with multiple metadata types, for which the LM perplexity can be lowered from 36.6 to 27.4 by conditioning on context. Bootstrapping a contextual LM with only a subset of the context/metadata during training retains 85\% of the achievable gain. Training the model initially with proxy context retains 67% of the perplexity gain after adapting to real context. Furthermore, we can swap one type of pretrained sentence LM for another without retraining the context encoders, by only adapting the decoder model. Overall, we obtain a modular framework that allows incremental, scalable training of context-enhanced LMs.
翻訳日:2022-03-17 14:53:06 公開日:2022-03-16
# WeakM3D:一眼レフによる物体検出

WeakM3D: Towards Weakly Supervised Monocular 3D Object Detection ( http://arxiv.org/abs/2203.08332v1 )

ライセンス: Link先を確認
Liang Peng, Senbo Yan, Boxi Wu, Zheng Yang, Xiaofei He, Deng Cai(参考訳) モノクロ3Dオブジェクト検出は3Dシーン理解において最も困難なタスクの1つである。 モノクラー画像の欠点から、既存のモノクラー3D検出法は、LiDAR点雲上の手動アノテーション付き3Dボックスラベルによるトレーニングに大きく依存している。 このアノテーションプロセスは非常に退屈で高価です。 本稿では,3Dボックスラベルへの依存を解消するために,弱教師付き単分子3D検出について検討する。 具体的には、まず画像上の2Dボックスを検出する。 次に、生成された2Dボックスを用いて、対応するRoI LiDAR点を弱い監視対象として選択する。 最終的に、3Dボックスを予測するネットワークを採用し、関連するRoI LiDARポイントと密に一致させることができる。 このネットワークは、新たに提案した3Dボックス推定値と対応するRoI LiDAR点とのアライメント損失を最小化することによって学習される。 本稿では,上記の学習問題の潜在的な課題を説明し,提案手法にいくつかの効果的な設計を導入することで課題を解決する。 コードはhttps://github.com/S PengLiang/WeakM3Dで入手できる。

Monocular 3D object detection is one of the most challenging tasks in 3D scene understanding. Due to the ill-posed nature of monocular imagery, existing monocular 3D detection methods highly rely on training with the manually annotated 3D box labels on the LiDAR point clouds. This annotation process is very laborious and expensive. To dispense with the reliance on 3D box labels, in this paper we explore the weakly supervised monocular 3D detection. Specifically, we first detect 2D boxes on the image. Then, we adopt the generated 2D boxes to select corresponding RoI LiDAR points as the weak supervision. Eventually, we adopt a network to predict 3D boxes which can tightly align with associated RoI LiDAR points. This network is learned by minimizing our newly-proposed 3D alignment loss between the 3D box estimates and the corresponding RoI LiDAR points. We will illustrate the potential challenges of the above learning problem and resolve these challenges by introducing several effective designs into our method. Codes will be available at https://github.com/S PengLiang/WeakM3D.
翻訳日:2022-03-17 14:50:18 公開日:2022-03-16
# 表現、比較、学習:クラスに依存しないカウントのための類似性認識フレームワーク

Represent, Compare, and Learn: A Similarity-Aware Framework for Class-Agnostic Counting ( http://arxiv.org/abs/2203.08354v1 )

ライセンス: Link先を確認
Min Shi, Hao Lu, Chen Feng, Chengxin Liu, Zhiguo Cao(参考訳) CAC(Class-Agnostic counting)は、クエリイメージ内のすべてのインスタンスを数えることを目的としている。 標準的なパイプラインは、例から視覚的特徴を抽出し、それらをクエリイメージとマッチングしてオブジェクト数を推測する。 このパイプラインの2つの重要なコンポーネントは、機能表現と類似度メトリックである。 既存の手法では、事前訓練されたネットワークを使用して特徴を表現したり、新しいものを学習する一方、内部積を固定した単純類似度メトリックを適用する。 このパラダイムは、ノイズの多い類似性マッチングにつながるため、パフォーマンスのカウントを損なう。 本研究では,表現と類似度を共同で学習する類似度対応CACフレームワークを提案する。 まず、学習可能な双線形類似度指標であるBMNet(Bilinear Matching Network)と呼ばれる単純なベースラインでフレームワークをインスタンス化する。 フレームワークのコアをさらに具体化するために、BMNetをBMNet+に拡張し、3つの側面から類似性をモデル化します。 1) 自己相似性によるインスタンスの表現により,クラス内変動に対する特徴的堅牢性を高める。 2) 類似性を動的に比較し,各例のキーパターンに着目すること。 3)マッチング結果に明示的な制約を課すための監督信号からの学習。 最近のCACデータセットFSC147の大規模な実験により、我々のモデルは最先端のCACアプローチを大きく上回っていることがわかった。 さらに、カーカウントデータセットCARPK上でBMNetとBMNet+のクロスデータセットの汎用性を検証した。 コードは little.one/BMNet

Class-agnostic counting (CAC) aims to count all instances in a query image given few exemplars. A standard pipeline is to extract visual features from exemplars and match them with query images to infer object counts. Two essential components in this pipeline are feature representation and similarity metric. Existing methods either adopt a pretrained network to represent features or learn a new one, while applying a naive similarity metric with fixed inner product. We find this paradigm leads to noisy similarity matching and hence harms counting performance. In this work, we propose a similarity-aware CAC framework that jointly learns representation and similarity metric. We first instantiate our framework with a naive baseline called Bilinear Matching Network (BMNet), whose key component is a learnable bilinear similarity metric. To further embody the core of our framework, we extend BMNet to BMNet+ that models similarity from three aspects: 1) representing the instances via their self-similarity to enhance feature robustness against intra-class variations; 2) comparing the similarity dynamically to focus on the key patterns of each exemplar; 3) learning from a supervision signal to impose explicit constraints on matching results. Extensive experiments on a recent CAC dataset FSC147 show that our models significantly outperform state-of-the-art CAC approaches. In addition, we also validate the cross-dataset generality of BMNet and BMNet+ on a car counting dataset CARPK. Code is at tiny.one/BMNet
翻訳日:2022-03-17 14:50:00 公開日:2022-03-16
# Patch-Fool:ビジョントランスフォーマーは、常に敵の摂動に対してロバストか?

Patch-Fool: Are Vision Transformers Always Robust Against Adversarial Perturbations? ( http://arxiv.org/abs/2203.08392v1 )

ライセンス: Link先を確認
Yonggan Fu, Shunyao Zhang, Shang Wu, Cheng Wan, Yingyan Lin(参考訳) ビジョントランスフォーマー(ViT)は、さまざまなビジョンタスクにおける記録的なパフォーマンスのおかげで、ニューラルアーキテクチャ設計の新しい波を最近開始した。 並行して、現実世界の視覚アプリケーションにViTをデプロイするという目標を達成するために、悪意のある攻撃に対する堅牢性は注目を集めている。 特に最近の研究では、ViTsは畳み込みニューラルネットワーク(CNN)と比較して敵の攻撃に対してより堅牢であることが示されており、これはViTsが異なる入力/機能パッチ間のグローバルな相互作用を捉えることに重点を置いており、敵の攻撃によって課される局所的摂動に対するロバスト性が向上しているためである、と推測されている。 この研究で、我々は興味深い質問をする:「どんな摂動が、CNNよりも脆弱な学習者になるのか? この質問によって、我々はまず、VTとCNNの両方のロバスト性に関する総合的な実験を行い、そのロバスト性を支持する根底にある理由を理解する。 得られた知見に基づいて,注意を引いた一連の最適化手法を用いて,その基本コンポーネント(すなわち単一パッチ)を攻撃することにより自己着信機構を騙す,patch-foolと呼ばれる専用の攻撃フレームワークを提案する。 興味深いことに、当社のPatch-Foolフレームワークは、ViTがCNNよりも敵の摂動に対して堅牢であるとは限らないことを初めて示しています。 特に,広範囲な実験で一貫しているパッチフード攻撃に対するcnnと比較してvitは脆弱な学習者であり,パッチフードの2つの変種であるsparse/mild patch-foolによる観察は,各パッチに対する摂動密度と強度がvitsとcnnの間のロバストネスランキングに影響を与える重要な要因であると思われる。

Vision transformers (ViTs) have recently set off a new wave in neural architecture design thanks to their record-breaking performance in various vision tasks. In parallel, to fulfill the goal of deploying ViTs into real-world vision applications, their robustness against potential malicious attacks has gained increasing attention. In particular, recent works show that ViTs are more robust against adversarial attacks as compared with convolutional neural networks (CNNs), and conjecture that this is because ViTs focus more on capturing global interactions among different input/feature patches, leading to their improved robustness to local perturbations imposed by adversarial attacks. In this work, we ask an intriguing question: "Under what kinds of perturbations do ViTs become more vulnerable learners compared to CNNs?" Driven by this question, we first conduct a comprehensive experiment regarding the robustness of both ViTs and CNNs under various existing adversarial attacks to understand the underlying reason favoring their robustness. Based on the drawn insights, we then propose a dedicated attack framework, dubbed Patch-Fool, that fools the self-attention mechanism by attacking its basic component (i.e., a single patch) with a series of attention-aware optimization techniques. Interestingly, our Patch-Fool framework shows for the first time that ViTs are not necessarily more robust than CNNs against adversarial perturbations. In particular, we find that ViTs are more vulnerable learners compared with CNNs against our Patch-Fool attack which is consistent across extensive experiments, and the observations from Sparse/Mild Patch-Fool, two variants of Patch-Fool, indicate an intriguing insight that the perturbation density and strength on each patch seem to be the key factors that influence the robustness ranking between ViTs and CNNs.
翻訳日:2022-03-17 14:49:36 公開日:2022-03-16
# ドメイン固有の顔検出のためのプライバシー保護オンラインオートML

Privacy-preserving Online AutoML for Domain-Specific Face Detection ( http://arxiv.org/abs/2203.08399v1 )

ライセンス: Link先を確認
Chenqian Yan, Yuge Zhang, Quanlu Zhang, Yaming Yang, Xinyang Jiang, Yuqing Yang, Baoyuan Wang(参考訳) 一般的な顔検出の顕著な進歩にもかかわらず、ハイパーパラメータとアーキテクチャのチューニングは、ドメイン固有の顔検出の性能に依然として不可欠である。 既存のAutoMLはそのようなプロセスを高速化できるが、新しいシナリオをスクラッチからチューニングする必要があるか、データプライバシを考慮していない。 スケールアップするために、プラットフォームの観点から新しいAutoML設定を導出します。 この設定では、新しいデータセットがシーケンシャルにプラットフォームに到着し、各データセットの最適な顔検出器をトレーニングするためにアーキテクチャとハイパーパラメータの設定が推奨される。 しかし、これは2つの大きな課題をもたらしている。 1) プライバシー上の懸念から、生の画像に触れることなく、データセットに対して最適な設定を予測する方法? 2) 従来のタスクからAutoMLアルゴリズムを継続的に改善し、将来のタスクにより良いウォームアップを提供するには、どうすればよいのか? 我々は、顔検出のための新しいプライバシー保護オンラインAutoMLフレームワークである"HyperFD"を紹介した。 中心となる部分では、データセットのメタ機能表現とその学習パラダイムが提案されている。 hyperfdのおかげで、各ローカルタスク(クライアント)は、プラットフォームに生のイメージをアップロードすることなく、以前のタスクの学習“経験”を効果的に活用することができる。 大規模な実験は、我々の設計の有効性と効率を実証する。

Despite the impressive progress of general face detection, the tuning of hyper-parameters and architectures is still critical for the performance of a domain-specific face detector. Though existing AutoML works can speedup such process, they either require tuning from scratch for a new scenario or do not consider data privacy. To scale up, we derive a new AutoML setting from a platform perspective. In such setting, new datasets sequentially arrive at the platform, where an architecture and hyper-parameter configuration is recommended to train the optimal face detector for each dataset. This, however, brings two major challenges: (1) how to predict the best configuration for any given dataset without touching their raw images due to the privacy concern? and (2) how to continuously improve the AutoML algorithm from previous tasks and offer a better warm-up for future ones? We introduce "HyperFD", a new privacy-preserving online AutoML framework for face detection. At its core part, a novel meta-feature representation of a dataset as well as its learning paradigm is proposed. Thanks to HyperFD, each local task (client) is able to effectively leverage the learning "experience" of previous tasks without uploading raw images to the platform; meanwhile, the meta-feature extractor is continuously learned to better trade off the bias and variance. Extensive experiments demonstrate the effectiveness and efficiency of our design.
翻訳日:2022-03-17 14:48:57 公開日:2022-03-16
# rbc:連続意味セグメンテーションにおけるバイアス付き文脈の修正

RBC: Rectifying the Biased Context in Continual Semantic Segmentation ( http://arxiv.org/abs/2203.08404v1 )

ライセンス: Link先を確認
Hanbin Zhao, Fengyu Yang, Xinghe Fu, Xi Li(参考訳) 近年、セマンティクスセグメンテーションにおける畳み込みニューラルネットワーク(convolutional neural network)の素晴らしい発展が目撃されており、トレーニング画像のすべてのクラスが同時に利用できる。 実際には、新しいイメージは通常連続的に利用可能であり、連続セマンティックセグメンテーション(CSS)と呼ばれる問題につながる。 一般的にCSSは、以前のトレーニングイメージが利用できないため忘れられる問題に直面し、バックグラウンドクラスのセマンティックシフト問題に直面する。 セマンティックセグメンテーションを文脈依存のピクセルレベルの分類タスクとして考慮し,新しい文脈分析の視点からCSSを探索する。 新しい画像における古いクラスのピクセルのコンテキストは、古い画像よりも新しいクラスにバイアスがかかり、古いクラスの忘れることや新しいクラスのオーバーフィットを著しく悪化させることを観察する。 この障害に対処するために、コンテキスト修正された画像-duplet学習スキームとバイアステキスト-非感性一貫性損失を備えたバイアスコンテキスト修正CSSフレームワークを提案する。 さらに,偏りのあるクラス分布に対する適応的再重み付けクラスバランス学習戦略を提案する。 当社のアプローチは,既存のCSSシナリオにおいて,最先端メソッドよりもはるかに優れています。

Recent years have witnessed a great development of Convolutional Neural Networks in semantic segmentation, where all classes of training images are simultaneously available. In practice, new images are usually made available in a consecutive manner, leading to a problem called Continual Semantic Segmentation (CSS). Typically, CSS faces the forgetting problem since previous training images are unavailable, and the semantic shift problem of the background class. Considering the semantic segmentation as a context-dependent pixel-level classification task, we explore CSS from a new perspective of context analysis in this paper. We observe that the context of old-class pixels in the new images is much more biased on new classes than that in the old images, which can sharply aggravate the old-class forgetting and new-class overfitting. To tackle the obstacle, we propose a biased-context-recti fied CSS framework with a context-rectified image-duplet learning scheme and a biased-context-insen sitive consistency loss. Furthermore, we propose an adaptive re-weighting class-balanced learning strategy for the biased class distribution. Our approach outperforms state-of-the-art methods by a large margin in existing CSS scenarios.
翻訳日:2022-03-17 14:48:38 公開日:2022-03-16
# WegFormer: 弱教師付きセマンティックセグメンテーション用トランスフォーマー

WegFormer: Transformers for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2203.08421v1 )

ライセンス: Link先を確認
Chunmeng Liu, Enze Xie, Wenjia Wang, Wenhai Wang, Guangyao Li, Ping Luo(参考訳) 畳み込みニューラルネットワーク(CNN)は、弱教師付きセマンティックセグメンテーション(WSSS)において顕著な進歩を遂げているが、CNNの効果的な受容領域は、グローバルな文脈情報を捉えるには不十分であり、準最適結果をもたらす。 基本的なビジョン領域におけるトランスフォーマーの成功に触発されて、この作業が初めてtransformerを導入して、シンプルで効果的なwsssフレームワークであるwegformerを構築した。 既存のcnnベースの方法とは異なり、wegformerは視覚トランスフォーマー(vit)を分類器として、高品質の擬似セグメンテーションマスクを生成する。 そこで本研究では,(1)注意マップを生成するための深いtaylor分解(dtd),(2)注意マップを滑らかにするための軟消去モジュール,(3)背景のノイズをフィルタリングする効率的なポテンシャルオブジェクトマイニング(epom)という,トランスフォーマーベースのフレームワークにおいて,3つの調整済みコンポーネントを導入する。 wegformerは、pascal vocデータセットで最先端の70.5%のmiouを達成し、以前の最良の方法を大きく上回っている。 wegformerは、弱い教師付きセマンティックセグメンテーションでtransformerのポテンシャルをタップする新しい視点を提供することを願っている。 コードはリリースされる。

Although convolutional neural networks (CNNs) have achieved remarkable progress in weakly supervised semantic segmentation (WSSS), the effective receptive field of CNN is insufficient to capture global context information, leading to sub-optimal results. Inspired by the great success of Transformers in fundamental vision areas, this work for the first time introduces Transformer to build a simple and effective WSSS framework, termed WegFormer. Unlike existing CNN-based methods, WegFormer uses Vision Transformer (ViT) as a classifier to produce high-quality pseudo segmentation masks. To this end, we introduce three tailored components in our Transformer-based framework, which are (1) a Deep Taylor Decomposition (DTD) to generate attention maps, (2) a soft erasing module to smooth the attention maps, and (3) an efficient potential object mining (EPOM) to filter noisy activation in the background. Without any bells and whistles, WegFormer achieves state-of-the-art 70.5% mIoU on the PASCAL VOC dataset, significantly outperforming the previous best method. We hope WegFormer provides a new perspective to tap the potential of Transformer in weakly supervised semantic segmentation. Code will be released.
翻訳日:2022-03-17 14:48:18 公開日:2022-03-16
# 信頼性のある少数ショット画像生成のための属性グループ編集

Attribute Group Editing for Reliable Few-shot Image Generation ( http://arxiv.org/abs/2203.08422v1 )

ライセンス: Link先を確認
Guanqi Ding, Xinzhe Han, Shuhui Wang, Shuzhe Wu, Xin Jin, Dandan Tu and Qingming Huang(参考訳) 最先端のGAN(Generative Adversarial Networks)を使っても、画像生成は難しい作業である。 不安定なGANトレーニングプロセスと限られたトレーニングデータのため、生成された画像は品質が低く、多様性が低いことが多い。 本研究では,画像生成のための新しい編集手法,すなわちAttribute Group Editing (AGE)を提案する。 基本的な仮定は、任意の画像は属性の集まりであり、特定の属性の編集方向はすべてのカテゴリで共有されるということである。 AGEは、GANで学んだ内部表現を調べ、意味的に意味のある方向を識別する。 具体的には、特定のカテゴリからの潜伏符号の平均ベクトルであるクラス埋め込みを用いてカテゴリ関連属性を表現し、サンプル埋め込みとクラス埋め込みの差について、カテゴリ関連属性をスパース辞書学習によりグローバルに学習する。 GANがよく訓練されていると、カテゴリ関連属性を編集し、カテゴリ関連属性をそのまま保持することで、目に見えないカテゴリの多様なイメージを合成することができる。 GANを再トレーニングすることなく、AGEは、限られたデータを持つ下流視覚アプリケーションのためのより現実的で多様な画像を生成するだけでなく、解釈可能なカテゴリ非関連方向による制御可能な画像編集を実現することができる。

Few-shot image generation is a challenging task even using the state-of-the-art Generative Adversarial Networks (GANs). Due to the unstable GAN training process and the limited training data, the generated images are often of low quality and low diversity. In this work, we propose a new editing-based method, i.e., Attribute Group Editing (AGE), for few-shot image generation. The basic assumption is that any image is a collection of attributes and the editing direction for a specific attribute is shared across all categories. AGE examines the internal representation learned in GANs and identifies semantically meaningful directions. Specifically, the class embedding, i.e., the mean vector of the latent codes from a specific category, is used to represent the category-relevant attributes, and the category-irrelevant attributes are learned globally by Sparse Dictionary Learning on the difference between the sample embedding and the class embedding. Given a GAN well trained on seen categories, diverse images of unseen categories can be synthesized through editing category-irrelevant attributes while keeping category-relevant attributes unchanged. Without re-training the GAN, AGE is capable of not only producing more realistic and diverse images for downstream visual applications with limited data but achieving controllable image editing with interpretable category-irrelevant directions.
翻訳日:2022-03-17 14:47:53 公開日:2022-03-16
# DiFT:マルチビューステレオのための微分可能特徴変換

DiFT: Differentiable Differential Feature Transform for Multi-View Stereo ( http://arxiv.org/abs/2203.08435v1 )

ライセンス: Link先を確認
Kaizhang Kang, Chong Zeng, Hongzhi Wu, and Kun Zhou(参考訳) 回転運動で高密度に撮影された画像のスタックから、各ビューにおける空間的判別およびビュー不変なピクセル単位の特徴へと、微分手がかりを自動的に学習する新しい枠組みを提案する。 これらの低レベル機能は、既存のマルチビューステレオ技術に直接供給して3D再構成を拡張できる。 取得時の照明条件は、相違可能な方法で共同最適化することもできる。 我々は,多種多様な形状と反射率を持つ事前スキャンされた物体からサンプルを採取し,高品質なトレーニングデータを合成した。 本手法の有効性は,光ステージで取得した多数の挑戦対象に対して実証し,最先端技術と比較した。 最後に,幾何学的詳細可視化と複雑な外観の計算スタイライゼーションのさらなる応用について検討する。

We present a novel framework to automatically learn to transform the differential cues from a stack of images densely captured with a rotational motion into spatially discriminative and view-invariant per-pixel features at each view. These low-level features can be directly fed to any existing multi-view stereo technique for enhanced 3D reconstruction. The lighting condition during acquisition can also be jointly optimized in a differentiable fashion. We sample from a dozen of pre-scanned objects with a wide variety of geometry and reflectance to synthesize a large amount of high-quality training data. The effectiveness of our features is demonstrated on a number of challenging objects acquired with a lightstage, comparing favorably with state-of-the-art techniques. Finally, we explore additional applications of geometric detail visualization and computational stylization of complex appearance.
翻訳日:2022-03-17 14:47:30 公開日:2022-03-16
# Panini-Net: 顔修復のためのGAN事前劣化対応機能補間

Panini-Net: GAN Prior Based Degradation-Aware Feature Interpolation for Face Restoration ( http://arxiv.org/abs/2203.08444v1 )

ライセンス: Link先を確認
Yinhuai Wang, Yujie Hu, Jian Zhang(参考訳) 改良された高品質の顔復元(FR)法は、事前訓練されたGANモデル(\textit{i.e.}, StyleGAN2)をGANプリミティブとして利用することが多い。 しかし、これらの方法は通常、様々な劣化レベルに直面した時に現実性と忠実さのバランスをとるのに苦労する。 さらに、事前訓練されたGANモデルと比較すると、目に見える品質差がある。 本稿では,様々な劣化を識別するために抽象表現を明示的に学習し,Panini-Netと呼ばれる新しいGAN先進分解対応特徴補間ネットワークを提案する。 具体的には、入力された劣化画像の劣化表現(DR)を抽出するために、教師なし分解表現学習(UDRL)戦略を最初に開発した。 次に,分解型特徴補間 (DAFI) モジュールを提案し, 2種類の情報的特徴 (\textit{i.e.}, 入力画像からの特徴, GAN前の特徴) をDRに基づく様々な劣化に柔軟に適応させて動的に融合させ, DAFIの動作機構と編集可能なFRの可能性を明らかにする。 大規模な実験により,パニーニネットは多段劣化面の復元と超解像のための最先端性能を達成できた。 ソースコードはhttps://github.com/j ianzhangcs/paniniで入手できる。

Emerging high-quality face restoration (FR) methods often utilize pre-trained GAN models (\textit{i.e.}, StyleGAN2) as GAN Prior. However, these methods usually struggle to balance realness and fidelity when facing various degradation levels. Besides, there is still a noticeable visual quality gap compared with pre-trained GAN models. In this paper, we propose a novel GAN Prior based degradation-aware feature interpolation network, dubbed Panini-Net, for FR tasks by explicitly learning the abstract representations to distinguish various degradations. Specifically, an unsupervised degradation representation learning (UDRL) strategy is first developed to extract degradation representations (DR) of the input degraded images. Then, a degradation-aware feature interpolation (DAFI) module is proposed to dynamically fuse the two types of informative features (\textit{i.e.}, features from input images and features from GAN Prior) with flexible adaption to various degradations based on DR. Ablation studies reveal the working mechanism of DAFI and its potential for editable FR. Extensive experiments demonstrate that our Panini-Net achieves state-of-the-art performance for multi-degradation face restoration and face super-resolution. The source code is available at https://github.com/j ianzhangcs/panini.
翻訳日:2022-03-17 14:47:18 公開日:2022-03-16
# the devil is in the details: 画像圧縮に対するウィンドウベースの注意

The Devil Is in the Details: Window-based Attention for Image Compression ( http://arxiv.org/abs/2203.08450v1 )

ライセンス: Link先を確認
Renjie Zou, Chunfeng Song, Zhaoxiang Zhang(参考訳) 学習した画像圧縮手法は、従来の画像圧縮基準よりも高いレートゆらぎ性能を示した。 既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。 多大な貢献にもかかわらず、cnnベースのモデルの主な欠点は、その構造が局所的な冗長性、特に非反復的なテクスチャを捉えるために設計されていないことである。 したがって、グローバルな構造と局所的なテクスチャをフル活用する方法が、学習に基づく画像圧縮のコアとなる。 視覚トランスフォーマー (vit) とスウィントランス (swin transformer) の最近の進歩に触発されて, 局所的注意機構とグローバルな特徴学習を組み合わせることで, 画像圧縮の期待を満たせることがわかった。 本稿では,まず,複数種類の注意機構が局所特徴学習に与える影響を広範囲に研究し,さらに,より単純かつ効果的なウィンドウベース局所注意ブロックを導入する。 提案されたウィンドウベースの注意は非常に柔軟であり、cnnおよびトランスフォーマーモデルを強化するためのプラグ・アンド・プレイコンポーネントとして機能する。 さらに,ダウンサンプリングエンコーダとアップサンプリングデコーダに絶対トランスフォーマブロックを持つ,新しい対称トランスフォーマ(stf)フレームワークを提案する。 広範な実験評価により,提案手法の有効性が示され,最先端手法を上回っている。 コードはhttps://github.com/g oogolxx/stfで公開されている。

Learned image compression methods have exhibited superior rate-distortion performance than classical image compression standards. Most existing learned image compression models are based on Convolutional Neural Networks (CNNs). Despite great contributions, a main drawback of CNN based model is that its structure is not designed for capturing local redundancy, especially the non-repetitive textures, which severely affects the reconstruction quality. Therefore, how to make full use of both global structure and local texture becomes the core problem for learning-based image compression. Inspired by recent progresses of Vision Transformer (ViT) and Swin Transformer, we found that combining the local-aware attention mechanism with the global-related feature learning could meet the expectation in image compression. In this paper, we first extensively study the effects of multiple kinds of attention mechanisms for local features learning, then introduce a more straightforward yet effective window-based local attention block. The proposed window-based attention is very flexible which could work as a plug-and-play component to enhance CNN and Transformer models. Moreover, we propose a novel Symmetrical TransFormer (STF) framework with absolute transformer blocks in the down-sampling encoder and up-sampling decoder. Extensive experimental evaluations have shown that the proposed method is effective and outperforms the state-of-the-art methods. The code is publicly available at https://github.com/G oogolxx/STF.
翻訳日:2022-03-17 14:46:53 公開日:2022-03-16
# PPCD-GAN:大規模GAN圧縮のためのプログレッシブプルーニングとクラスアウェア蒸留

PPCD-GAN: Progressive Pruning and Class-Aware Distillation for Large-Scale Conditional GANs Compression ( http://arxiv.org/abs/2203.08456v1 )

ライセンス: Link先を確認
Duc Minh Vo, Akihiro Sugimoto, Hideki Nakayama(参考訳) 我々は,大規模条件生成対向ネットワーク(GAN)圧縮の新たな課題を活用することで,ニューラルネットワーク圧縮の研究を推し進める。 そこで本研究では, プログレッシブプルーニング残差ブロック(PP-Res)とクラス認識蒸留を導入して, 徐々に縮小するGAN(PPCD-GAN)を提案する。 PP-Resは従来の残留ブロックの拡張であり、各畳み込み層に学習可能なマスク層が続き、トレーニングが進むにつれてネットワークパラメータを段階的にプーンする。 一方, 授業対応蒸留は, 指導的注意マップを通して教師モデルから膨大な知識を伝達することにより, 訓練の安定性を高める。 我々は、よく知られたGANアーキテクチャ上で、プルーニングと蒸留のプロセスをエンドツーエンドで同時に訓練する。 トレーニング後、すべての冗長パラメータとマスク層が破棄され、パフォーマンスを維持しながらより軽量なネットワークが生成される。 ImageNet 128x128データセットで、PPCD-GANはパフォーマンスを向上しつつ、最先端技術に対するパラメータを最大5.2倍(81%)削減します。

We push forward neural network compression research by exploiting a novel challenging task of large-scale conditional generative adversarial networks (GANs) compression. To this end, we propose a gradually shrinking GAN (PPCD-GAN) by introducing progressive pruning residual block (PP-Res) and class-aware distillation. The PP-Res is an extension of the conventional residual block where each convolutional layer is followed by a learnable mask layer to progressively prune network parameters as training proceeds. The class-aware distillation, on the other hand, enhances the stability of training by transferring immense knowledge from a well-trained teacher model through instructive attention maps. We train the pruning and distillation processes simultaneously on a well-known GAN architecture in an end-to-end manner. After training, all redundant parameters as well as the mask layers are discarded, yielding a lighter network while retaining the performance. We comprehensively illustrate, on ImageNet 128x128 dataset, PPCD-GAN reduces up to 5.2x (81%) parameters against state-of-the-arts while keeping better performance.
翻訳日:2022-03-17 14:46:28 公開日:2022-03-16
# Pseudo-Q:ビジュアルグラウンドのための擬似言語クエリ生成

Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding ( http://arxiv.org/abs/2203.08481v1 )

ライセンス: Link先を確認
Haojun Jiang, Yuanze Lin, Dongchen Han, Shiji Song, Gao Huang(参考訳) 自然言語クエリに従って画像内のオブジェクトをローカライズするビジュアルグラウンドは、ビジュアル言語理解において重要なトピックである。 このタスクの最も効果的なアプローチは、一般的に高価な画像クエリやパッチクエリペアを手作業でラベル付けする必要があるディープラーニングに基づいている。 本稿では,人間のアノテーションへの重依存をなくすために,疑似言語クエリを自動的に生成して教師付き学習を行う新しい手法であるpseudo-qを提案する。 提案手法は,未表示画像から視覚オブジェクトを識別するオフザシェルフオブジェクト検出器を利用して,擬似クエリ生成モジュールを用いて,教師なしの方法でこれらのオブジェクトの言語クエリを求める。 そこで我々は,視覚的なグラウンド処理のために生成した擬似言語クエリを特別に調整するタスク関連クエリプロンプトモジュールを設計する。 さらに,画像と言語クエリのコンテキスト関係を完全に把握するために,マルチレベルクロスモダリティアテンション機構を備えたビジュアル言語モデルを開発した。 その結果,(1)RefCOCOの31%は,完全教師付き環境下での本来のモデルの性能を低下させることなく,また(2)ベルやホイッスルがなければ,実験した5つのデータセットに対して,最先端の弱教師付き視覚的接地手法と比較して,優れた,あるいは同等のパフォーマンスを達成できることがわかった。 コードはhttps://github.com/l eaplabthu/pseudo-qで入手できる。

Visual grounding, i.e., localizing objects in images according to natural language queries, is an important topic in visual language understanding. The most effective approaches for this task are based on deep learning, which generally require expensive manually labeled image-query or patch-query pairs. To eliminate the heavy dependence on human annotations, we present a novel method, named Pseudo-Q, to automatically generate pseudo language queries for supervised training. Our method leverages an off-the-shelf object detector to identify visual objects from unlabeled images, and then language queries for these objects are obtained in an unsupervised fashion with a pseudo-query generation module. Then, we design a task-related query prompt module to specifically tailor generated pseudo language queries for visual grounding tasks. Further, in order to fully capture the contextual relationships between images and language queries, we develop a visual-language model equipped with multi-level cross-modality attention mechanism. Extensive experimental results demonstrate that our method has two notable benefits: (1) it can reduce human annotation costs significantly, e.g., 31% on RefCOCO without degrading original model's performance under the fully supervised setting, and (2) without bells and whistles, it achieves superior or comparable performance compared to state-of-the-art weakly-supervised visual grounding methods on all the five datasets we have experimented. Code is available at https://github.com/L eapLabTHU/Pseudo-Q.
翻訳日:2022-03-17 14:46:08 公開日:2022-03-16
# QS-Attn: I2I翻訳におけるコントラスト学習のためのクエリ選択注意

QS-Attn: Query-Selected Attention for Contrastive Learning in I2I Translation ( http://arxiv.org/abs/2203.08483v1 )

ライセンス: Link先を確認
Xueqi Hu, Xinyue Zhou, Qiusheng Huang, Zhengyi Shi, Li Sun, Qingli Li(参考訳) unpaired image-to-image (i2i) 翻訳では、ソースと翻訳された画像間の相互情報を異なるドメインにまたがって最大化する必要がある。 自己教師付きコントラスト学習はI2Iですでに成功している。 同じ場所から機能を異なる場所のものよりも近いものに制限することで、結果がソースから取り込まれることを暗黙的に保証する。 しかし、以前の作業では、制約を課すためにランダムな場所からのフィーチャを使っているが、ソースドメインの情報が少ない場所もあるため、適切ではないかもしれない。 さらに、この機能自体は他者との関係を反映していない。 本稿では,コントラスト学習のための重要なアンカーポイントを意図的に選択することで,これらの問題に対処する。 本研究では,クエリ選択型アテンション(QS-Attn)モジュールを設計し,ソース領域の特徴距離を比較し,各行の確率分布に注意行列を与える。 次に,分布から計算した重要度測定に基づいて問合せを選択する。 選択されたものは、コントラスト損失のアンカーと見なされる。 同時に、両方のドメインで特徴をルーティングするために注意行列を縮小することにより、ソース関係が合成において維持される。 提案手法を3つのi2iデータセットで検証し,学習可能なパラメータを付加することなく画質を向上できることを示した。

Unpaired image-to-image (I2I) translation often requires to maximize the mutual information between the source and the translated images across different domains, which is critical for the generator to keep the source content and prevent it from unnecessary modifications. The self-supervised contrastive learning has already been successfully applied in the I2I. By constraining features from the same location to be closer than those from different ones, it implicitly ensures the result to take content from the source. However, previous work uses the features from random locations to impose the constraint, which may not be appropriate since some locations contain less information of source domain. Moreover, the feature itself does not reflect the relation with others. This paper deals with these problems by intentionally selecting significant anchor points for contrastive learning. We design a query-selected attention (QS-Attn) module, which compares feature distances in the source domain, giving an attention matrix with a probability distribution in each row. Then we select queries according to their measurement of significance, computed from the distribution. The selected ones are regarded as anchors for contrastive loss. At the same time, the reduced attention matrix is employed to route features in both domains, so that source relations maintain in the synthesis. We validate our proposed method in three different I2I datasets, showing that it increases the image quality without adding learnable parameters.
翻訳日:2022-03-17 14:45:39 公開日:2022-03-16
# PointAttN: Point Cloudの完了に注意する必要がある

PointAttN: You Only Need Attention for Point Cloud Completion ( http://arxiv.org/abs/2203.08485v1 )

ライセンス: Link先を確認
Jun Wang, Ying Cui, Dongyan Guo, Junxia Li, Qingshan Liu, Chunhua Shen(参考訳) ポイントクラウドの完了は、部分的な3Dポイントクラウドからの3D形状の完了を言及している。 深層ニューラルネットワークの発展により、ポイントクラウドの完成に関する研究は近年大きな進歩を遂げている。 しかし、既存の手法に関わるkNNのような明示的な局所領域分割は、点雲の密度分布に敏感である。 さらに、長い範囲のコンテキスト情報から特徴をキャプチャするのを防ぐ、限定的な受容フィールドを提供する。 この問題を解決するために,クロスアテンションと自己アテンション機構を活用し,ポイントクラウド処理のための新しいニューラルネットワークの設計を行い,nnnを除去した。 幾何学的詳細知覚(GDP)と自己機能拡張(SFA)という2つの重要なブロックが提案され、注意機構を介して単純で効果的な方法でポイント間の短距離および長距離構造関係を直接確立する。 次に、GDPとSFAに基づいて、ポイントクラウド補完のための一般的なエンコーダデコーダアーキテクチャを備えた新しいフレームワークを構築する。 提案するフレームワークであるPointAttNはシンプルで簡潔で効果的であり、3次元形状の構造情報を正確に捉え、高精度なジオメトリで完全点雲を予測することができる。 実験の結果,PointAttN は Completion3D や PCN などの一般的なベンチマークにおいて,最先端の手法よりも高い性能を示した。 コードは、https://github.com/o hhhyeah/pointattnで入手できる。

Point cloud completion referring to completing 3D shapes from partial 3D point clouds is a fundamental problem for 3D point cloud analysis tasks. Benefiting from the development of deep neural networks, researches on point cloud completion have made great progress in recent years. However, the explicit local region partition like kNNs involved in existing methods makes them sensitive to the density distribution of point clouds. Moreover, it serves limited receptive fields that prevent capturing features from long-range context information. To solve the problems, we leverage the cross-attention and self-attention mechanisms to design novel neural network for processing point cloud in a per-point manner to eliminate kNNs. Two essential blocks Geometric Details Perception (GDP) and Self-Feature Augment (SFA) are proposed to establish the short-range and long-range structural relationships directly among points in a simple yet effective way via attention mechanism. Then based on GDP and SFA, we construct a new framework with popular encoder-decoder architecture for point cloud completion. The proposed framework, namely PointAttN, is simple, neat and effective, which can precisely capture the structural information of 3D shapes and predict complete point clouds with highly detailed geometries. Experimental results demonstrate that our PointAttN outperforms state-of-the-art methods by a large margin on popular benchmarks like Completion3D and PCN. Code is available at: https://github.com/o hhhyeahhh/PointAttN
翻訳日:2022-03-17 14:45:18 公開日:2022-03-16
# 多焦点熱画像融合

Multi-focus thermal image fusion ( http://arxiv.org/abs/2203.08513v1 )

ライセンス: Link先を確認
Radek Benes, Pavel Dvorak, Marcos Faundez-Zanuy, Virginia Espinosa-Duro, Jiri Mekyska(参考訳) 本稿では,多焦点熱画像融合のための新しいアルゴリズムを提案する。 このアルゴリズムは、局所的な活動分析と融合プロセスへの画像の高度な事前選択に基づいている。 このアルゴリズムは、被写体温度測定誤差を5度まで改善する。 提案アルゴリズムは,半総誤差率,ルート平均二乗誤差,クロス相関,視覚検査によって評価される。 私たちの知る限りでは、これはマルチフォーカス熱画像融合のための最初の研究である。 提案アルゴリズムのテストでは,物体の焦点深度が異なる6つの熱画像を得る。

This paper proposes a novel algorithm for multi-focus thermal image fusion. The algorithm is based on local activity analysis and advanced pre-selection of images into fusion process. The algorithm improves the object temperature measurement error up to 5 Celsius degrees. The proposed algorithm is evaluated by half total error rate, root mean squared error, cross correlation and visual inspection. To the best of our knowledge, this is the first work devoted to multi-focus thermal image fusion. For testing of proposed algorithm we acquire six thermal image set with objects at different focal depth.
翻訳日:2022-03-17 14:44:57 公開日:2022-03-16
# (参考訳) オブジェクト発見と表現ネットワーク [全文訳有]

Object discovery and representation networks ( http://arxiv.org/abs/2203.08777v1 )

ライセンス: CC BY 4.0
Olivier J. H\'enaff, Skanda Koppula, Evan Shelhamer, Daniel Zoran, Andrew Jaegle, Andrew Zisserman, Jo\~ao Carreira, Relja Arandjelovi\'c(参考訳) 自己教師付き学習(SSL)の約束は、複雑なタスクを解決するために大量のラベルのないデータを活用することである。 単純な画像レベルの学習では優れた進歩があったが、最近の手法は画像構造に関する知識を含む利点を示している。 しかし、興味のある領域や特別な拡張戦略を定義するために手作りのイメージセグメンテーションを導入することで、SSLを強力にする単純さと汎用性を犠牲にする。 代わりに,これらのプリエントにエンコードされた構造を自身で発見する,自己教師付き学習パラダイムを提案する。 提案手法, odinは, オブジェクト発見と表現ネットワークを結合して, 有意義な画像分割を無監督で発見する。 結果として得られた学習パラダイムは、シンプルで、脆く、より一般的であり、cocoでのオブジェクト検出とインスタンスセグメンテーション、pascalとシティスケープにおけるセマンティックセグメンテーションのための最先端の転送学習結果を達成すると同時に、davisでのビデオセグメンテーションのための教師付き事前トレーニングを大きく上回っている。

The promise of self-supervised learning (SSL) is to leverage large amounts of unlabeled data to solve complex tasks. While there has been excellent progress with simple, image-level learning, recent methods have shown the advantage of including knowledge of image structure. However, by introducing hand-crafted image segmentations to define regions of interest, or specialized augmentation strategies, these methods sacrifice the simplicity and generality that makes SSL so powerful. Instead, we propose a self-supervised learning paradigm that discovers the structure encoded in these priors by itself. Our method, Odin, couples object discovery and representation networks to discover meaningful image segmentations without any supervision. The resulting learning paradigm is simpler, less brittle, and more general, and achieves state-of-the-art transfer learning results for object detection and instance segmentation on COCO, and semantic segmentation on PASCAL and Cityscapes, while strongly surpassing supervised pre-training for video segmentation on DAVIS.
翻訳日:2022-03-17 14:43:41 公開日:2022-03-16
# 勾配降下を超えた勾配補正

Gradient Correction beyond Gradient Descent ( http://arxiv.org/abs/2203.08345v1 )

ライセンス: Link先を確認
Zefan Li, Bingbing Ni, Teng Li, WenJun Zhang, Wen Gao(参考訳) ニューラルネットワークが達成した大きな成功は、gd(gradient-descent) アルゴリズムの適用と不可分である。 GDに基づいて、GD最適化プロセスを改善するために多くの変種アルゴリズムが登場した。 バックプロパゲーションの勾配は明らかにニューラルネットワークのトレーニングにおいて最も重要な側面である。 計算された勾配の品質は、ノイズデータ、計算誤差、アルゴリズム制限など、複数の側面に影響される可能性がある。 勾配降下を超える勾配情報を明らかにするために,勾配補正を行うためのフレームワーク(\textbf{GCGD})を導入する。 GCGDは2つのプラグインモジュールで構成される。 1) 勾配予測のアイデアに触発されて, 重み勾配補正のための \textbf{GC-W} モジュールを提案する。 2)Neural ODEに基づいて,隠れ状態勾配補正のための‘textbf{GC-ODE}モジュールを提案する。 実験の結果、勾配補正フレームワークは、勾配品質を効果的に改善し、トレーニング期間を$\sim$20\%削減し、ネットワーク性能を向上させることができることがわかった。

The great success neural networks have achieved is inseparable from the application of gradient-descent (GD) algorithms. Based on GD, many variant algorithms have emerged to improve the GD optimization process. The gradient for back-propagation is apparently the most crucial aspect for the training of a neural network. The quality of the calculated gradient can be affected by multiple aspects, e.g., noisy data, calculation error, algorithm limitation, and so on. To reveal gradient information beyond gradient descent, we introduce a framework (\textbf{GCGD}) to perform gradient correction. GCGD consists of two plug-in modules: 1) inspired by the idea of gradient prediction, we propose a \textbf{GC-W} module for weight gradient correction; 2) based on Neural ODE, we propose a \textbf{GC-ODE} module for hidden states gradient correction. Experiment results show that our gradient correction framework can effectively improve the gradient quality to reduce training epochs by $\sim$ 20\% and also improve the network performance.
翻訳日:2022-03-17 14:19:03 公開日:2022-03-16
# 学習層別重要度を用いた混合精度ニューラルネットワーク量子化

Mixed-Precision Neural Network Quantization via Learned Layer-wise Importance ( http://arxiv.org/abs/2203.08368v1 )

ライセンス: Link先を確認
Chen Tang and Kai Ouyang and Zhi Wang and Yifei Zhu and Yaowei Wang and Wen Ji and Wenwu Zhu(参考訳) 混合精度量子化(MPQ)における指数的に大きな離散探索空間は、各層に対して最適なビット幅を決定するのを難しくする。 従来の作業では、トレーニングセットの反復的な検索メソッドを使用しており、数百から数千のgpu時間を消費する。 本研究では,量子化における特異な学習可能なパラメータ,すなわち量子化器のスケール因子が,あるビット幅における最終的な精度への寄与を反映して,その層の重要性指標として機能することを明らかにする。 これらの重要な指標は、量子化対応トレーニング中の数値変換を自然に知覚し、レイヤーの量子化感度メトリクスを正確かつ正確に提供することができる。 しかし、深層ネットワークは常に数百の指標を含んでおり、それらを1つずつ訓練すると過大な時間コストが発生する。 そこで本研究では,全ての指標を同時に取得できる共同学習手法を提案する。 元のシーケンシャルなトレーニングプロセスを並列化することで、インジケータのトレーニングプロセスをかなりスピードアップする。 これらの重要度指標を用いて,MPQ探索問題を1時間整数線形プログラミング(ILP)問題として定式化する。 これにより反復検索が回避され、ビット幅の検索スペースを制限せずに検索時間が大幅に短縮される。 例えば、ResNet18のインデックスによるMPQ検索はわずか0.06秒である。 また, 様々な制約(BitOps, 圧縮率など)を持つ遠方配置モデルに対して, 画像ネット上でSOTA精度を実現するための実験を行った。

The exponentially large discrete search space in mixed-precision quantization (MPQ) makes it hard to determine the optimal bit-width for each layer. Previous works usually resort to iterative search methods on the training set, which consume hundreds or even thousands of GPU-hours. In this study, we reveal that some unique learnable parameters in quantization, namely the scale factors in the quantizer, can serve as importance indicators of a layer, reflecting the contribution of that layer to the final accuracy at certain bit-widths. These importance indicators naturally perceive the numerical transformation during quantization-aware training, which can precisely and correctly provide quantization sensitivity metrics of layers. However, a deep network always contains hundreds of such indicators, and training them one by one would lead to an excessive time cost. To overcome this issue, we propose a joint training scheme that can obtain all indicators at once. It considerably speeds up the indicators training process by parallelizing the original sequential training processes. With these learned importance indicators, we formulate the MPQ search problem as a one-time integer linear programming (ILP) problem. That avoids the iterative search and significantly reduces search time without limiting the bit-width search space. For example, MPQ search on ResNet18 with our indicators takes only 0.06 seconds. Also, extensive experiments show our approach can achieve SOTA accuracy on ImageNet for far-ranging models with various constraints (e.g., BitOps, compress rate).
翻訳日:2022-03-17 14:18:49 公開日:2022-03-16
# 咬合場 : 非直線面再構成のための暗黙的表現

Occlusion Fields: An Implicit Representation for Non-Line-of-Sight Surface Reconstruction ( http://arxiv.org/abs/2203.08657v1 )

ライセンス: Link先を確認
Javier Grau and Markus Plack and Patrick Haehn and Michael Weinmann and Matthias Hullin(参考訳) 非視線再構成(NLoS)は、直接見える拡散した壁から間接的に散乱する光の測定から、視野の外の物体やシーンを復元することを目的とした、新しい間接画像モダリティである。 近年の買収・再建技術は進歩しているものの、問題全体の正当性、特に物体とその形状の回復性は未解決の課題である。 一般に用いられるフェルマー経路の基準は、この点に関してかなり保守的であり、いくつかの曲面は信号に寄与するが、保存不可能である。 本稿では,不透明表面パッチの回復に必要となる簡易な基準を用いる。 このような表面は壁のどこかの地点から直接見えなければならず、背後の空間を遮らなければならない。 近年の神経的暗黙的表現の進歩に触発されて,nlosシーンに対する新しい表現と再構成手法を考案し,復元性とその処理を統一した。 様々な合成および実験データセット上で検証したアプローチでは,興味深い特性を示す。 メモリ非効率な容積表現とは異なり、我々は適度な解像度の飛行時間測定から適応的に振動面を推定できる。 ファーマー経路基準を超えてさらに特徴を回復することができ、かなりの量の自己閉塞に対して堅牢である。 これらの特性が1つのシステムで達成されたのはこれが初めてであり、追加のメリットとして、トレーニング可能で、データ駆動アプローチに適していると考えています。

Non-line-of-sight reconstruction (NLoS) is a novel indirect imaging modality that aims to recover objects or scene parts outside the field of view from measurements of light that is indirectly scattered off a directly visible, diffuse wall. Despite recent advances in acquisition and reconstruction techniques, the well-posedness of the problem at large, and the recoverability of objects and their shapes in particular, remains an open question. The commonly employed Fermat path criterion is rather conservative with this regard, as it classifies some surfaces as unrecoverable, although they contribute to the signal. In this paper, we use a simpler necessary criterion for an opaque surface patch to be recoverable. Such piece of surface must be directly visible from some point on the wall, and it must occlude the space behind itself. Inspired by recent advances in neural implicit representations, we devise a new representation and reconstruction technique for NLoS scenes that unifies the treatment of recoverability with the reconstruction itself. Our approach, which we validate on various synthetic and experimental datasets, exhibits interesting properties. Unlike memory-inefficient volumetric representations, ours allows to infer adaptively tessellated surfaces from time-of-flight measurements of moderate resolution. It can further recover features beyond the Fermat path criterion, and it is robust to significant amounts of self-occlusion. We believe that this is the first time that these properties have been achieved in one system that, as an additional benefit, is trainable and hence suited for data-driven approaches.
翻訳日:2022-03-17 14:18:25 公開日:2022-03-16
# リレーショナル自己監督型学習

Relational Self-Supervised Learning ( http://arxiv.org/abs/2203.08717v1 )

ライセンス: Link先を確認
Mingkai Zheng, Shan You, Fei Wang, Chen Qian, Changshui Zhang, Xiaogang Wang, Chang Xu(参考訳) 主流のコントラスト学習を含む自己教師あり学習(SSL)は、データアノテーションなしで視覚表現を学習することに成功した。 しかしながら、ほとんどのメソッドは、主にインスタンスレベルの情報(つまり、同じインスタンスの異なる拡張イメージは、同じ機能または同じクラスにクラスタ化する必要がある)に焦点を当てていますが、異なるインスタンス間の関係に注意が払われていません。 本稿では,異なるインスタンス間の関係をモデル化して表現を学習するリレーショナル自己教師型学習(Relational Self-supervised Learning, ReSSL)フレームワークを提案する。 特に,提案手法では,異なるインスタンス間でのペアワイズ類似度の分布を,異なる拡張の特徴埋め込みに適合させるために,‘textit{relation} metric’として用いた。 性能向上のため,より信頼性の高い関係を表すために弱い拡張が重要であり,実用的効率のために運動量戦略を活用できると主張している。 設計された非対称予測ヘッドとInfoNCEウォームアップ戦略は、ハイパーパラメータへのロバスト性を高め、その結果のパフォーマンスを向上する。 実験の結果,提案したReSSLは,様々な軽量ネットワーク(\eg,EfficientNet,Mo bileNet)を含む,さまざまなネットワークアーキテクチャにおける最先端の手法よりも大幅に優れていた。

Self-supervised Learning (SSL) including the mainstream contrastive learning has achieved great success in learning visual representations without data annotations. However, most methods mainly focus on the instance level information (\ie, the different augmented images of the same instance should have the same feature or cluster into the same class), but there is a lack of attention on the relationships between different instances. In this paper, we introduce a novel SSL paradigm, which we term as relational self-supervised learning (ReSSL) framework that learns representations by modeling the relationship between different instances. Specifically, our proposed method employs sharpened distribution of pairwise similarities among different instances as \textit{relation} metric, which is thus utilized to match the feature embeddings of different augmentations. To boost the performance, we argue that weak augmentations matter to represent a more reliable relation, and leverage momentum strategy for practical efficiency. The designed asymmetric predictor head and an InfoNCE warm-up strategy enhance the robustness to hyper-parameters and benefit the resulting performance. Experimental results show that our proposed ReSSL substantially outperforms the state-of-the-art methods across different network architectures, including various lightweight networks (\eg, EfficientNet and MobileNet).
翻訳日:2022-03-17 14:18:00 公開日:2022-03-16
# 見るべき場所を学ぶ -- 生成的なnasは驚くほど効率的

Learning Where To Look -- Generative NAS is Surprisingly Efficient ( http://arxiv.org/abs/2203.08734v1 )

ライセンス: Link先を確認
Jovita Lukasik, Steffen Jung, Margret Keuper(参考訳) 高性能なニューラルアーキテクチャ(NAS)の効率的な自動検索は、近年注目を集めている。 これにより、大規模な探索空間を効率的に探索しながら、ニューラルネットワークアーキテクチャのコスト評価の必要性を低減することが主な研究目的である。 この目的のために、サーロゲートモデルは潜在空間にアーキテクチャを埋め込んでその性能を予測し、一方ニューラルアーキテクチャの生成モデルは、ジェネレータが引き出す潜在空間内の最適化ベースの探索を可能にする。 surrogateモデルとgenerativeモデルの両方が、よく構造化された潜在空間におけるクエリー効率の高い検索を容易にすることを目的としている。 本稿では,効率的なサロゲートモデルと生成設計の両方の利点を生かして,クエリ効率と有望なアーキテクチャ生成のトレードオフをさらに改善する。 そこで本研究では, サロゲート予測器と組み合わせた生成モデルを提案し, 有望な潜在部分空間からのサンプル生成を反復的に学習する。 このアプローチはクエリ量を低く保ちながら、非常に効率的で効率的なアーキテクチャ検索をもたらす。 さらに,本手法は,精度やハードウェア遅延といった複数の目的に対して,直接的に最適化することができる。 このアプローチの利点は、高い分類精度のためのアーキテクチャの最適化だけでなく、ハードウェア制約や、複数のNASベンチマークにおいて、単一および複数目的のための最先端の手法よりも優れていることを示す。 ImageNetでも最先端のパフォーマンスを実現しています。

The efficient, automated search for well-performing neural architectures (NAS) has drawn increasing attention in the recent past. Thereby, the predominant research objective is to reduce the necessity of costly evaluations of neural architectures while efficiently exploring large search spaces. To this aim, surrogate models embed architectures in a latent space and predict their performance, while generative models for neural architectures enable optimization-based search within the latent space the generator draws from. Both, surrogate and generative models, have the aim of facilitating query-efficient search in a well-structured latent space. In this paper, we further improve the trade-off between query-efficiency and promising architecture generation by leveraging advantages from both, efficient surrogate models and generative design. To this end, we propose a generative model, paired with a surrogate predictor, that iteratively learns to generate samples from increasingly promising latent subspaces. This approach leads to very effective and efficient architecture search, while keeping the query amount low. In addition, our approach allows in a straightforward manner to jointly optimize for multiple objectives such as accuracy and hardware latency. We show the benefit of this approach not only w.r.t. the optimization of architectures for highest classification accuracy but also in the context of hardware constraints and outperform state-of-the art methods on several NAS benchmarks for single and multiple objectives. We also achieve state-of-the-art performance on ImageNet.
翻訳日:2022-03-17 14:17:35 公開日:2022-03-16
# 敵対的に訓練されたニューラルネットワークとは何か:フーリエドメインに基づく研究

What Do Adversarially trained Neural Networks Focus: A Fourier Domain-based Study ( http://arxiv.org/abs/2203.08739v1 )

ライセンス: Link先を確認
Binxiao Huang, Chaofan Tao, Rui Lin, Ngai Wong(参考訳) 多くの分野がディープラーニングによってもたらされた優れたパフォーマンスを目撃しているが、ニューラルネットワークの堅牢性は未解決の問題である。 具体的には、入力に対する小さな逆方向の摂動は、モデルが全く異なる出力を生成する可能性がある。 このようなロバスト性は、特に自律運転や移動ロボットなどのセキュリティクリティカルな応用において、多くの潜在的な危険を示唆する。 この研究は、敵が訓練したモデルがどの情報に焦点を当てているかを研究する。 実験により, クリーンデータと逆データの違いは, 主に低周波領域に分布していることがわかった。 その結果,前者が低周波成分における支配的情報学習により多くの注意を払っているため,逆学習モデルの方が自然学習モデルよりも頑健であることが判明した。 さらに,データ拡張と強固なネットワークアーキテクチャによるモデルのロバスト性向上に共通する2つの方法を検討するとともに,これらの手法を周波数領域の観点から理解する。 この研究が、より堅牢なニューラルネットワークの設計に光を当てることを期待しています。

Although many fields have witnessed the superior performance brought about by deep learning, the robustness of neural networks remains an open issue. Specifically, a small adversarial perturbation on the input may cause the model to produce a completely different output. Such poor robustness implies many potential hazards, especially in security-critical applications, e.g., autonomous driving and mobile robotics. This work studies what information the adversarially trained model focuses on. Empirically, we notice that the differences between the clean and adversarial data are mainly distributed in the low-frequency region. We then find that an adversarially-traine d model is more robust than its naturally-trained counterpart due to the reason that the former pays more attention to learning the dominant information in low-frequency components. In addition, we consider two common ways to improve model robustness, namely, by data augmentation and by using stronger network architectures, and understand these techniques from a frequency-domain perspective. We are hopeful this work can shed light on the design of more robust neural networks.
翻訳日:2022-03-17 14:17:11 公開日:2022-03-16
# ベクトル変換によるゼロ画素方向境界

Zero Pixel Directional Boundary by Vector Transform ( http://arxiv.org/abs/2203.08795v1 )

ライセンス: Link先を確認
Edoardo Mello Rella, Ajad Chhatkuli, Yun Liu, Ender Konukoglu, Luc Van Gool(参考訳) 境界は、人間とコンピュータの視覚システムで使われる主要な視覚手がかりの1つである。 境界検出における重要な問題の1つはラベル表現であり、これは典型的にはクラス不均衡を招き、結果として非微分後処理ステップを細くする必要がある厚い境界に繋がる。 本稿では,境界を1次元曲面として再解釈し,クラス不均衡問題を完全に回避した境界予測のトレーニングを可能にする1対1ベクトル変換関数を定式化する。 具体的には、任意の点における境界表現を、最も近い境界面を指し示す単位ベクトルとして定義する。 提案する問題定式化は,方向推定と境界のより豊かな文脈情報につながり,所望であれば訓練時間にもゼロピクセルの薄さのバウンダリが利用可能となる。 本手法では,トレーニング損失にハイパーパラメータを使用せず,推論時に安定なハイパーパラメータを固定する。 ベクトル変換表現の理論的正当化/判別を提供する。 提案手法を標準アーキテクチャを用いて評価し,複数のデータセット上の他の損失や表現よりも優れた性能を示す。

Boundaries are among the primary visual cues used by human and computer vision systems. One of the key problems in boundary detection is the label representation, which typically leads to class imbalance and, as a consequence, to thick boundaries that require non-differential post-processing steps to be thinned. In this paper, we re-interpret boundaries as 1-D surfaces and formulate a one-to-one vector transform function that allows for training of boundary prediction completely avoiding the class imbalance issue. Specifically, we define the boundary representation at any point as the unit vector pointing to the closest boundary surface. Our problem formulation leads to the estimation of direction as well as richer contextual information of the boundary, and, if desired, the availability of zero-pixel thin boundaries also at training time. Our method uses no hyper-parameter in the training loss and a fixed stable hyper-parameter at inference. We provide theoretical justification/discus sions of the vector transform representation. We evaluate the proposed loss method using a standard architecture and show the excellent performance over other losses and representations on several datasets.
翻訳日:2022-03-17 14:16:23 公開日:2022-03-16
# 視覚トランスフォーマを用いた実用的パッチ防御法の開発

Towards Practical Certifiable Patch Defense with Vision Transformer ( http://arxiv.org/abs/2203.08519v1 )

ライセンス: Link先を確認
Zhaoyu Chen, Bo Li, Jianghe Xu, Shuang Wu, Shouhong Ding, Wenqiang Zhang(参考訳) パッチ攻撃は、敵の例で最も危険な物理的攻撃の1つであり、連続した領域でピクセルを任意に修正することで、ネットワークが誤分類を引き起こす可能性がある。 証明可能なパッチ防御は、分類器がパッチ攻撃の影響を受けないことを保証する。 既存の認証パッチ防御は、分類器のクリーンな精度を犠牲にし、おもちゃのデータセットに対して低い認証精度しか得られない。 さらに、これらの手法のクリーンで認定された精度は、実際の応用を制限する通常の分類ネットワークの精度よりもはるかに低い。 実用的なパッチ防御に向けて,視覚トランスフォーマー(vit)を非ランダム化平滑化(ds)の枠組みに導入する。 具体的には,世界的意味情報を保存しつつ,画像のより識別可能な局所的文脈をキャプチャできる視覚トランスフォーマーを訓練するためのプログレッシブ平滑化画像モデリングタスクを提案する。 実世界における効率的な推論と展開のために,我々は,オリジナルViTのグローバルな自己アテンション構造を,孤立バンド単位の自己アテンションに革新的に再構築する。 ImageNetでは、2%以下のエリアパッチ攻撃で41.70%の認証精度が達成され、以前のベストメソッド(26.00%)よりも1倍近く向上した。 同時に,通常のResNet-101の精度に非常に近い78.58%のクリーン精度を達成した。 CIFAR-10 と ImageNet を効率よく推定することにより,最先端のクリーンで精度の高い精度が得られることを示す。

Patch attacks, one of the most threatening forms of physical attack in adversarial examples, can lead networks to induce misclassification by modifying pixels arbitrarily in a continuous region. Certifiable patch defense can guarantee robustness that the classifier is not affected by patch attacks. Existing certifiable patch defenses sacrifice the clean accuracy of classifiers and only obtain a low certified accuracy on toy datasets. Furthermore, the clean and certified accuracy of these methods is still significantly lower than the accuracy of normal classification networks, which limits their application in practice. To move towards a practical certifiable patch defense, we introduce Vision Transformer (ViT) into the framework of Derandomized Smoothing (DS). Specifically, we propose a progressive smoothed image modeling task to train Vision Transformer, which can capture the more discriminable local context of an image while preserving the global semantic information. For efficient inference and deployment in the real world, we innovatively reconstruct the global self-attention structure of the original ViT into isolated band unit self-attention. On ImageNet, under 2% area patch attacks our method achieves 41.70% certified accuracy, a nearly 1-fold increase over the previous best method (26.00%). Simultaneously, our method achieves 78.58% clean accuracy, which is quite close to the normal ResNet-101 accuracy. Extensive experiments show that our method obtains state-of-the-art clean and certified accuracy with inferring efficiently on CIFAR-10 and ImageNet.
翻訳日:2022-03-17 14:16:07 公開日:2022-03-16
# 正規化流れによる連続モンテカルロの条件測定密度推定

Conditional Measurement Density Estimation in Sequential Monte Carlo via Normalizing Flow ( http://arxiv.org/abs/2203.08617v1 )

ライセンス: Link先を確認
Xiongjie Chen, Yunpeng Li(参考訳) 連続モンテカルロ法の実世界での計測モデルのチューニングは困難である。 微分可能な粒子フィルタの最近の進歩は、ニューラルネットワークを通して計測モデルを学ぶ様々な取り組みにつながった。 しかし、微分可能な粒子フィルタフレームワークにおける既存のアプローチでは、測定モデルの構築において有効な確率密度が認められておらず、与えられた状態情報の誤った定量化につながる。 条件付き正規化流れを通じて測定モデルの表現的かつ妥当な確率密度を学習し、与えられた状態の複雑な確率を捉えることを提案する。 提案手法は,視覚的トラッキング実験において,推定性能の向上とトレーニング収束の高速化につながることを示す。

Tuning of measurement models is challenging in real-world applications of sequential Monte Carlo methods. Recent advances in differentiable particle filters have led to various efforts to learn measurement models through neural networks. But existing approaches in the differentiable particle filter framework do not admit valid probability densities in constructing measurement models, leading to incorrect quantification of the measurement uncertainty given state information. We propose to learn expressive and valid probability densities in measurement models through conditional normalizing flows, to capture the complex likelihood of measurements given states. We show that the proposed approach leads to improved estimation performance and faster training convergence in a visual tracking experiment.
翻訳日:2022-03-17 14:15:43 公開日:2022-03-16
# ランダム設計による隆起回帰の初等的解析

An elementary analysis of ridge regression with random design ( http://arxiv.org/abs/2203.08564v1 )

ライセンス: Link先を確認
Jaouad Mourtada and Lorenzo Rosasco(参考訳) 本稿では、ランダムな設計によるリッジ回帰の予測誤差の基本的な解析について述べる。 証明は短く、自己完結している。 特に、交換可能性引数、行列の同一性、作用素の凸性の単純な組み合わせを用いて、経験過程の行列集中や制御を避ける。

In this short note, we present an elementary analysis of the prediction error of ridge regression with random design. The proof is short and self-contained. In particular, it avoids matrix concentration or control of empirical processes, by using a simple combination of exchangeability arguments, matrix identities and operator convexity.
翻訳日:2022-03-17 14:14:50 公開日:2022-03-16
# 高次元変化点検出法 : 完全グラフ法

High dimensional change-point detection: a complete graph approach ( http://arxiv.org/abs/2203.08709v1 )

ライセンス: Link先を確認
Yang-Wen Sun, Katerina Papagiannouli, Vladimir Spokoiny(参考訳) オンラインの変更点検出の目的は、正確なタイムリーな構造破壊の発見である。 データ次元が観察中のデータ数を上回ると、オンライン検出が難しくなる。 既存の方法は通常平均変化のみをテストするが、これは分散の変化の実際的な側面を省略する。 本研究では,低次元から高次元のオンラインデータから平均値と分散値の変化を可変走査ウィンドウで検出する完全グラフベース変化点検出アルゴリズムを提案する。 完全なグラフ構造に触発されて,高次元データをメトリクスにマッピングするグラフスパンニング比を導入し,平均変化や分散の変化が生じた場合に統計的にテストする。 理論的には,本手法は所望のピボット特性を有し,所定の誤差確率を持つ。 このフレームワークは検出能力において他の手法よりも優れていることを示す。 提案手法は,オンライン環境における変更点をタイムリーに検出できる小型・複数スキャニングウインドウによる高検出能力を有する。 最後に、s&p500種株価の変動点を検出するために金融データに適用した。

The aim of online change-point detection is for a accurate, timely discovery of structural breaks. As data dimension outgrows the number of data in observation, online detection becomes challenging. Existing methods typically test only the change of mean, which omit the practical aspect of change of variance. We propose a complete graph-based, change-point detection algorithm to detect change of mean and variance from low to high-dimensional online data with a variable scanning window. Inspired by complete graph structure, we introduce graph-spanning ratios to map high-dimensional data into metrics, and then test statistically if a change of mean or change of variance occurs. Theoretical study shows that our approach has the desirable pivotal property and is powerful with prescribed error probabilities. We demonstrate that this framework outperforms other methods in terms of detection power. Our approach has high detection power with small and multiple scanning window, which allows timely detection of change-point in the online setting. Finally, we applied the method to financial data to detect change-points in S&P 500 stocks.
翻訳日:2022-03-17 14:14:44 公開日:2022-03-16
# 神経インターフェイスによる人工装具のリアルタイム・直感的制御を可能にする人工知能

Artificial Intelligence Enables Real-Time and Intuitive Control of Prostheses via Nerve Interface ( http://arxiv.org/abs/2203.08648v1 )

ライセンス: Link先を確認
Diu Khue Luu, Anh Tuan Nguyen, Ming Jiang, Markus W. Drealan, Jian Xu, Tong Wu, Wing-kin Tam, Wenfeng Zhao, Brian Z. H. Lim, Cynthia K. Overstreet, Qi Zhao, Jonathan Cheng, Edward W. Keefer, Zhi Yang(参考訳) 目的: 本物の手のように動き、感じられる次世代の義手は、人間の心と機械の間に堅牢な神経相互接続を必要とする。 方法: 末梢神経インターフェースを介して切断者の運動意図を翻訳するために人工知能(AI)エージェントを用いた神経補綴システムを提案する。 このAIエージェントは、リカレントニューラルネットワーク(RNN)に基づいて設計されており、同時に6自由度(DOF)をマルチチャネル神経データからリアルタイムに復号することができる。 デコーダの性能は、3人の人間のアンプによるモータデコード実験で特徴付けられる。 結果: まず, アンプが指と手首の動きを最大97~98%の精度で, 直感的に義手を制御することができることを示す。 第2に,ハンドジェスチャーマッチングタスクにおける反応時間と情報スループットを測定し,AIエージェントのリアルタイム性能を示す。 第3に,aiエージェントの長期使用状況を調査し,デコーダの16ヶ月の移植期間におけるロバストな予測性能を示す。 結論と意義:我々の研究は、AI対応神経技術の可能性を実証し、次世代の器用で直感的な義手を実現する。

Objective: The next generation prosthetic hand that moves and feels like a real hand requires a robust neural interconnection between the human minds and machines. Methods: Here we present a neuroprosthetic system to demonstrate that principle by employing an artificial intelligence (AI) agent to translate the amputee's movement intent through a peripheral nerve interface. The AI agent is designed based on the recurrent neural network (RNN) and could simultaneously decode six degree-of-freedom (DOF) from multichannel nerve data in real-time. The decoder's performance is characterized in motor decoding experiments with three human amputees. Results: First, we show the AI agent enables amputees to intuitively control a prosthetic hand with individual finger and wrist movements up to 97-98% accuracy. Second, we demonstrate the AI agent's real-time performance by measuring the reaction time and information throughput in a hand gesture matching task. Third, we investigate the AI agent's long-term uses and show the decoder's robust predictive performance over a 16-month implant duration. Conclusion & significance: Our study demonstrates the potential of AI-enabled nerve technology, underling the next generation of dexterous and intuitive prosthetic hands.
翻訳日:2022-03-17 14:13:31 公開日:2022-03-16
# ニューラルcdesを用いたマルチスケールセンサ融合と連続制御

Multiscale Sensor Fusion and Continuous Control with Neural CDEs ( http://arxiv.org/abs/2203.08715v1 )

ライセンス: Link先を確認
Sumeet Singh, Francis McCann Ramirez, Jacob Varley, Andy Zeng, Vikas Sindhwani(参考訳) ロボット学習は離散時間マルコフ決定過程(MDP)の用語で定式化されることが多いが、物理的ロボットは、ほぼ連続したマルチスケールフィードバック制御を必要とする。 マシンは、例えば30Hzの動画フレーム、100Hzの固有受容状態、500Hzのフォーストルクデータなど、異なる周波数の複数の非同期センシングモードで動作する。 古典的なアプローチは、固定時間ウィンドウに観察をバッチし、フィードフォワードエンコーダ(例えばディープネットワーク)に渡すことであるが、よりエレガントなアプローチが存在することを示している。 具体的には、ニューラル制御微分方程式(CDE)を用いて連続的な時間政治を訓練する統一アーキテクチャ「InFuser」を提案する。 InFuser は (In) tegrating と (Fus)ing multi-sensory observed (Ariving at different frequency), and inferring action in continuous-time によって、時間とともに単一の潜在状態表現を進化させる。 これにより、離散時間仮定なしでマルチ周波数マルチセンサフィードバックに反応し、真のエンドツーエンドのビズモータ制御を可能にする。 行動クローニング実験は、InFuserが動的タスク(例えば、カップにボールを振りかけるなど)のロバストなポリシーを学習していることを示し、特に、ある知覚的モダリティからの観察が他のものよりもはるかに狭い間隔で到達できるような設定において、いくつかのベースラインを上回っている。

Though robot learning is often formulated in terms of discrete-time Markov decision processes (MDPs), physical robots require near-continuous multiscale feedback control. Machines operate on multiple asynchronous sensing modalities, each with different frequencies, e.g., video frames at 30Hz, proprioceptive state at 100Hz, force-torque data at 500Hz, etc. While the classic approach is to batch observations into fixed-time windows then pass them through feed-forward encoders (e.g., with deep networks), we show that there exists a more elegant approach -- one that treats policy learning as modeling latent state dynamics in continuous-time. Specifically, we present 'InFuser', a unified architecture that trains continuous time-policies with Neural Controlled Differential Equations (CDEs). InFuser evolves a single latent state representation over time by (In)tegrating and (Fus)ing multi-sensory observations (arriving at different frequencies), and inferring actions in continuous-time. This enables policies that can react to multi-frequency multi sensory feedback for truly end-to-end visuomotor control, without discrete-time assumptions. Behavior cloning experiments demonstrate that InFuser learns robust policies for dynamic tasks (e.g., swinging a ball into a cup) notably outperforming several baselines in settings where observations from one sensing modality can arrive at much sparser intervals than others.
翻訳日:2022-03-17 14:13:11 公開日:2022-03-16
# (参考訳) 適応的欠陥分類と検査のための連続学習フレームワーク [全文訳有]

A Continual Learning Framework for Adaptive Defect Classification and Inspection ( http://arxiv.org/abs/2203.08796v1 )

ライセンス: CC BY 4.0
Wenbo Sun, Raed Al Kontar, Judy Jin, Tzyy-Shuh Chang(参考訳) 機械ビジョンに基づく欠陥分類技術は製造工程における自動品質検査に広く採用されている。 本稿では,不正サンプルの効率的な検査を行い,高ボリュームデータバッチから欠陥を分類する一般的なフレームワークについて述べる。 概念は、新しい欠陥タイプを識別する検出器を構築し、ラベル付けのために検査ステーションに送信し、分類器を効率的に動的に更新することで、以前観測されたバッチのデータサンプルによって課されたストレージと計算能力の両方を減らすことである。 画像分類に関するシミュレーション研究と3次元点雲による表面欠陥検出のケーススタディの両方を行い,提案手法の有効性を実証した。

Machine-vision-based defect classification techniques have been widely adopted for automatic quality inspection in manufacturing processes. This article describes a general framework for classifying defects from high volume data batches with efficient inspection of unlabelled samples. The concept is to construct a detector to identify new defect types, send them to the inspection station for labelling, and dynamically update the classifier in an efficient manner that reduces both storage and computational needs imposed by data samples of previously observed batches. Both a simulation study on image classification and a case study on surface defect detection via 3D point clouds are performed to demonstrate the effectiveness of the proposed method.
翻訳日:2022-03-17 14:09:42 公開日:2022-03-16
# ニューラルマシン翻訳のためのシーケンスからシーケンスへの事前学習の理解と改善

Understanding and Improving Sequence-to-Sequence Pretraining for Neural Machine Translation ( http://arxiv.org/abs/2203.08442v1 )

ライセンス: Link先を確認
Wenxuan Wang, Wenxiang Jiao, Yongchang Hao, Xing Wang, Shuming Shi, Zhaopeng Tu, Michael Lyu(参考訳) 本稿では、ニューラルネットワーク翻訳のためのSOTAシーケンス・ツー・シーケンス(Seq2Seq)の事前学習について、より深く理解するための重要なステップを示す。 我々は,Seq2Seqプレトレーニングと従来のエンコーダによるNMTの事前トレーニングアプローチの主な違いである,共同事前学習デコーダの影響について検討する。 3つの言語ペアの実験を慎重に設計することで、Seq2Seq事前訓練は二重刃の剣であることがわかった。 一方、Seq2Seq事前学習とNMT微調整の相違は翻訳品質(すなわち、ドメインの相違)を制限し、過度な推定問題(すなわち、客観的な相違)を引き起こす。 これらの観察に基づいて, ドメインと客観的な差異をそれぞれ解決するために, ドメイン内事前学習と入力適応という, 単純かつ効果的な戦略を提案する。 複数の言語ペアの実験結果から,seq2seqプリトレーニング時の翻訳性能とモデルのロバスト性が一貫して向上することが示された。

In this paper, we present a substantial step in better understanding the SOTA sequence-to-sequence (Seq2Seq) pretraining for neural machine translation~(NMT). We focus on studying the impact of the jointly pretrained decoder, which is the main difference between Seq2Seq pretraining and previous encoder-based pretraining approaches for NMT. By carefully designing experiments on three language pairs, we find that Seq2Seq pretraining is a double-edged sword: On one hand, it helps NMT models to produce more diverse translations and reduce adequacy-related translation errors. On the other hand, the discrepancies between Seq2Seq pretraining and NMT finetuning limit the translation quality (i.e., domain discrepancy) and induce the over-estimation issue (i.e., objective discrepancy). Based on these observations, we further propose simple and effective strategies, named in-domain pretraining and input adaptation to remedy the domain and objective discrepancies, respectively. Experimental results on several language pairs show that our approach can consistently improve both translation performance and model robustness upon Seq2Seq pretraining.
翻訳日:2022-03-17 13:49:48 公開日:2022-03-16
# 事前学習された言語モデルは、シミールを人間と同じくらい賢く解釈できるか?

Can Pre-trained Language Models Interpret Similes as Smart as Human? ( http://arxiv.org/abs/2203.08452v1 )

ライセンス: Link先を確認
Qianyu He, Sijie Cheng, Zhixu Li, Rui Xie, Yanghua Xiao(参考訳) シミール解釈は自然言語処理において重要なタスクである。 今日では、PLM(pre-trained language model)は多くのタスクで最先端のパフォーマンスを実現している。 しかし、plmがシミールを解釈できるかどうかはまだ未定である。 本稿では,シミュラの共有特性を推定するために,シミュラ特性探索と呼ばれる新しいタスクを設計することで,シミュラ解釈におけるPLMの能力について検討する。 一般的なテキストコーパスと人間設計の質問からデータセットを抽出し,7つの主要なカテゴリをカバーする1,633のサンプルを含む。 構築されたデータセットに基づく実証研究は、PLMが人間を過小評価しながら、模擬体の共有特性を推測できることを示している。 人的パフォーマンスとのギャップを埋めるため,知識埋め込み手法を用いて,擬似知識をPLMに組み込むことにより,知識強化学習目標を設計する。 その結果,調査作業の8.58%,感情分類の下流作業の1.37%が得られた。 データセットとコードはhttps://github.com/A bbey4799/PLMs-Interp ret-Simileで公開されている。

Simile interpretation is a crucial task in natural language processing. Nowadays, pre-trained language models (PLMs) have achieved state-of-the-art performance on many tasks. However, it remains under-explored whether PLMs can interpret similes or not. In this paper, we investigate the ability of PLMs in simile interpretation by designing a novel task named Simile Property Probing, i.e., to let the PLMs infer the shared properties of similes. We construct our simile property probing datasets from both general textual corpora and human-designed questions, containing 1,633 examples covering seven main categories. Our empirical study based on the constructed datasets shows that PLMs can infer similes' shared properties while still underperforming humans. To bridge the gap with human performance, we additionally design a knowledge-enhanced training objective by incorporating the simile knowledge into PLMs via knowledge embedding methods. Our method results in a gain of 8.58% in the probing task and 1.37% in the downstream task of sentiment classification. The datasets and code are publicly available at https://github.com/A bbey4799/PLMs-Interp ret-Simile.
翻訳日:2022-03-17 13:49:29 公開日:2022-03-16
# E-KAR: 自然言語分析推論の合理化のためのベンチマーク

E-KAR: A Benchmark for Rationalizing Natural Language Analogical Reasoning ( http://arxiv.org/abs/2203.08480v1 )

ライセンス: Link先を確認
Jiangjie Chen, Rui Xu, Ziquan Fu, Wei Shi, Zhongqiao Li, Xinbo Zhang, Changzhi Sun, Lei Li, Yanghua Xiao, Hao Zhou(参考訳) アナロジーを認識する能力は、人間の認知の基本である。 単語アナロジーをテストするための既存のベンチマークは、ニューラルネットワークモデルのアナロジー推論の下位プロセスを明らかにしていない。 推論可能なモデルは正しい理由から正しいという信念を保ちながら、第一種知識集約分析推論ベンチマーク(E-KAR)を提案する。 我々のベンチマークは、1,655人(中国語)と1,251人(英語)からなる。 さらに,類推を記述すべきか否かを記述した自由文説明スキームを設計し,各質問や候補者の回答に対して手動で注釈を付ける。 実証的な結果から、このベンチマークは説明生成と類推的な質問応答タスクの両方の最先端モデルにとって非常に困難であることが示唆される。

The ability to recognize analogies is fundamental to human cognition. Existing benchmarks to test word analogy do not reveal the underneath process of analogical reasoning of neural models. Holding the belief that models capable of reasoning should be right for the right reasons, we propose a first-of-its-kind Explainable Knowledge-intensive Analogical Reasoning benchmark (E-KAR). Our benchmark consists of 1,655 (in Chinese) and 1,251 (in English) problems sourced from the Civil Service Exams, which require intensive background knowledge to solve. More importantly, we design a free-text explanation scheme to explain whether an analogy should be drawn, and manually annotate them for each and every question and candidate answer. Empirical results suggest that this benchmark is very challenging for some state-of-the-art models for both explanation generation and analogical question answering tasks, which invites further research in this area.
翻訳日:2022-03-17 13:49:11 公開日:2022-03-16
# TegTok: タスク固有およびオープンワールド知識によるテキスト生成の強化

TegTok: Augmenting Text Generation via Task-specific and Open-world Knowledge ( http://arxiv.org/abs/2203.08517v1 )

ライセンス: Link先を確認
Chao-Hong Tan, Jia-Chen Gu, Chongyang Tao, Zhen-Hua Ling, Can Xu, Huang Hu, Xiubo Geng, Daxin Jiang(参考訳) 自然および情報的テキストの生成は、NLPの長年の問題であった。 知識グラフやwikiページなど、さまざまなオープンワールド知識を備えた事前学習言語モデル(plm)の導入に多くの努力が払われている。 しかしながら、このような知識は通常plmでカバーされておらず、取得が難しいため、タスク固有の知識にアクセスして操作する能力は下流タスクに制限されている。 そこで本研究では,タスク固有およびオープンワールド知識(TegTok)によるTExt生成の統一化を提案する。 本モデルでは,2種類の知識ソースからの知識エントリを高密度検索により選択し,それぞれ PLM に基づいて入力エンコーディングと出力デコーディングの段階に注入する。 これら2つのタイプの知識の助けを借りて、モデルは何とどのように生成するかを学べます。 対話生成と質問生成の2つのテキスト生成タスクと2つのデータセットを用いた実験により,様々なベースラインモデルよりも優れた性能が得られることを示す。

Generating natural and informative texts has been a long-standing problem in NLP. Much effort has been dedicated into incorporating pre-trained language models (PLMs) with various open-world knowledge, such as knowledge graphs or wiki pages. However, their ability to access and manipulate the task-specific knowledge is still limited on downstream tasks, as this type of knowledge is usually not well covered in PLMs and is hard to acquire. To address the problem, we propose augmenting TExt Generation via Task-specific and Open-world Knowledge (TegTok) in a unified framework. Our model selects knowledge entries from two types of knowledge sources through dense retrieval and then injects them into the input encoding and output decoding stages respectively on the basis of PLMs. With the help of these two types of knowledge, our model can learn what and how to generate. Experiments on two text generation tasks of dialogue generation and question generation, and on two datasets show that our method achieves better performance than various baseline models.
翻訳日:2022-03-17 13:48:53 公開日:2022-03-16
# LEVEN:中国の大規模法律イベント検出データセット

LEVEN: A Large-Scale Chinese Legal Event Detection Dataset ( http://arxiv.org/abs/2203.08556v1 )

ライセンス: Link先を確認
Feng Yao, Chaojun Xiao, Xiaozhi Wang, Zhiyuan Liu, Lei Hou, Cunchao Tu, Juanzi Li, Yun Liu, Weixing Shen, Maosong Sun(参考訳) 事実を認識することは、判断を行う上で最も基本的なステップであり、それゆえ、法的文書の出来事を検出することは、訴訟分析タスクにおいて重要である。 しかし、既存の法定イベント検出(LED)データセットは、包括的イベントタイプのみに関心を持ち、注釈付きデータしか持たないため、LEDメソッドとその下流アプリケーションの開発が制限される。 これらの問題を緩和するために,8,116件の法的文書と150,977件の人間が注釈付きイベントを108のイベントタイプで記述した,大規模な中国の法的イベント検出データセットをlevenに提示する。 チャージ関連のイベントだけでなく、levenは一般的なイベントもカバーする。これは訴訟理解に極めて重要であるが、既存のledデータセットでは無視されている。 我々の知る限り、LEVENは最大のLEDデータセットであり、他の数十倍のデータスケールを持ち、LEDメソッドのトレーニングと評価を著しく促進します。 広範な実験の結果、ledはチャレンジであり、さらなる努力が必要であることを示している。 さらに、法律イベントをサイド情報として単純に利用して下流アプリケーションを促進する。 本手法は、低リソース判定予測における平均2.2点精度の改善と、教師なしケース検索における平均1.5点精度の向上を実現し、LEDの基本性を示している。 ソースコードとデータセットはhttps://github.com/t hunlp/LEVENから取得できる。

Recognizing facts is the most fundamental step in making judgments, hence detecting events in the legal documents is important to legal case analysis tasks. However, existing Legal Event Detection (LED) datasets only concern incomprehensive event types and have limited annotated data, which restricts the development of LED methods and their downstream applications. To alleviate these issues, we present LEVEN a large-scale Chinese LEgal eVENt detection dataset, with 8,116 legal documents and 150,977 human-annotated event mentions in 108 event types. Not only charge-related events, LEVEN also covers general events, which are critical for legal case understanding but neglected in existing LED datasets. To our knowledge, LEVEN is the largest LED dataset and has dozens of times the data scale of others, which shall significantly promote the training and evaluation of LED methods. The results of extensive experiments indicate that LED is challenging and needs further effort. Moreover, we simply utilize legal events as side information to promote downstream applications. The method achieves improvements of average 2.2 points precision in low-resource judgment prediction, and 1.5 points mean average precision in unsupervised case retrieval, which suggests the fundamentality of LED. The source code and dataset can be obtained from https://github.com/t hunlp/LEVEN.
翻訳日:2022-03-17 13:48:36 公開日:2022-03-16
# 対話生成のための多段階プロンプト

Multi-Stage Prompting for Knowledgeable Dialogue Generation ( http://arxiv.org/abs/2203.08745v1 )

ライセンス: Link先を確認
Zihan Liu, Mostofa Patwary, Ryan Prenger, Shrimai Prabhumoye, Wei Ping, Mohammad Shoeybi, Bryan Catanzaro(参考訳) 既存の知識基底対話システムは、通常、訓練済み言語モデル(LM)の微調整版と大規模知識ベースを使用する。 これらのモデルは通常、知識ベース以外のトピックの一般化に失敗し、微調整が必要なたびに、潜在的に大きなチェックポイントを個別に維持する必要があります。 本稿では,事前学習したLMに格納されている固有知識と,その強力な生成能力を活用して,これらの制約に対処することを目的とする。 本稿では,1つの事前学習されたLMから知識のある応答を生成するためのマルチステージプロンプト手法を提案する。 まず、対話コンテキストに基づいて知識を生成することをLMに促す。 そして、さらに、対話コンテキストと予め生成された知識に基づいて、応答を生成するように促す。 その結果,知識関連性と正当性を組み合わせた場合,知識生成は最先端の検索ベースモデルよりも5.8%優れていた。 さらに,多段階対話は,応答の知識とエンゲージメントを最大10%,エンゲージメントを最大5%,微調整に基づく対話モデルよりも優れていた。 さらに,最大5300億のパラメータをスケールして,より大きなlmsが生成正確度スコアを最大10%向上させ,応答関連性,知識性,関与度を最大10%向上させることを示した。 私たちのコードは、https://github.com/N VIDIA/Megatron-LM.co mで利用可能です。

Existing knowledge-grounded dialogue systems typically use finetuned versions of a pretrained language model (LM) and large-scale knowledge bases. These models typically fail to generalize on topics outside of the knowledge base, and require maintaining separate potentially large checkpoints each time finetuning is needed. In this paper, we aim to address these limitations by leveraging the inherent knowledge stored in the pretrained LM as well as its powerful generation ability. We propose a multi-stage prompting approach to generate knowledgeable responses from a single pretrained LM. We first prompt the LM to generate knowledge based on the dialogue context. Then, we further prompt it to generate responses based on the dialogue context and the previously generated knowledge. Results show that our knowledge generator outperforms the state-of-the-art retrieval-based model by 5.8% when combining knowledge relevance and correctness. In addition, our multi-stage prompting outperforms the finetuning-based dialogue model in terms of response knowledgeability and engagement by up to 10% and 5%, respectively. Furthermore, we scale our model up to 530 billion parameters and show that larger LMs improve the generation correctness score by up to 10%, and response relevance, knowledgeability and engagement by up to 10%. Our code is available at: https://github.com/N VIDIA/Megatron-LM.
翻訳日:2022-03-17 13:48:13 公開日:2022-03-16
# 非効率で観察可能なシーンにおける協調的オブジェクト参照ゲーム

Spot the Difference: A Cooperative Object-Referring Game in Non-Perfectly Co-Observable Scene ( http://arxiv.org/abs/2203.08362v1 )

ライセンス: Link先を確認
Duo Zheng, Fandong Meng, Qingyi Si, Hairun Fan, Zipeng Xu, Jie Zhou, Fangxiang Feng, Xiaojie Wang(参考訳) ビジュアルダイアログは、特にGuessWhichやGuessWhatのような会話に様々なビジョン指向の目標を導入した後、大きな進歩を目の当たりにした。 研究者は、視覚的なダイアログのタスクについて、単一の、あるいは完全に観察可能なビジュアルシーンでより詳しく調査する一方で、2つのエージェントがアクセスするイメージが全く同じではないかもしれない非完全に観察可能なビジュアルシーンのタスクの探索を幾分無視する。 非完全で同時観測可能な視覚シーンにおける会話による共通基盤の構築は、高度なダイアログエージェントにとって重要であるが、そのようなダイアログタスクとそれに対応する大規模データセットの欠如により、詳細な研究は不可能である。 この制限を打破するために,自然言語で会話することで類似した視覚シーンの違いを見つけることを目的として,非完全共観測可能な視覚シーンにおけるオブジェクト参照ゲームを提案する。 このタスクは、非完全で観測可能な視覚的シーンにおけるダイアログ戦略の課題と、オブジェクトを分類する能力に対処する。 そこで我々は,87kのバーチャルリアリティ画像と97kのダイアログをセルフプレイで生成する,SpotDiffという大規模マルチモーダルデータセットを構築した。 最後に、このタスクのベンチマークモデルを提供し、その性能を評価するとともに、主な課題を分析するために広範な実験を行う。

Visual dialog has witnessed great progress after introducing various vision-oriented goals into the conversation, especially such as GuessWhich and GuessWhat, where the only image is visible by either and both of the questioner and the answerer, respectively. Researchers explore more on visual dialog tasks in such kind of single- or perfectly co-observable visual scene, while somewhat neglect the exploration on tasks of non perfectly co-observable visual scene, where the images accessed by two agents may not be exactly the same, often occurred in practice. Although building common ground in non-perfectly co-observable visual scene through conversation is significant for advanced dialog agents, the lack of such dialog task and corresponding large-scale dataset makes it impossible to carry out in-depth research. To break this limitation, we propose an object-referring game in non-perfectly co-observable visual scene, where the goal is to spot the difference between the similar visual scenes through conversing in natural language. The task addresses challenges of the dialog strategy in non-perfectly co-observable visual scene and the ability of categorizing objects. Correspondingly, we construct a large-scale multimodal dataset, named SpotDiff, which contains 87k Virtual Reality images and 97k dialogs generated by self-play. Finally, we give benchmark models for this task, and conduct extensive experiments to evaluate its performance as well as analyze its main challenges.
翻訳日:2022-03-17 13:47:54 公開日:2022-03-16
# 粗大な局所化と分類を併用したマルチスケールコンテクストガイドによる腰椎疾患の同定

Multi-Scale Context-Guided Lumbar Spine Disease Identification with Coarse-to-fine Localization and Classification ( http://arxiv.org/abs/2203.08408v1 )

ライセンス: Link先を確認
Zifan Chen, Jie Zhao, Hao Yu, Yue Zhang, Li Zhang(参考訳) 腰椎疾患の正確かつ効率的な診断は臨床診断に不可欠である。 しかし、数百万のパラメータを持つ既存のディープラーニングモデルは、数百から数十の医療画像だけでは学習できないことが多い。 これらのモデルは、椎骨と椎間板などの隣接する物体間の文脈的関係も無視する。 この研究は、腰椎疾患の同定のための、粗大な局所化と分類を含むマルチスケールコンテキスト誘導ネットワークCCF-Netを導入する。 具体的には,学習における局所化目標を,より単純かつ効果的にパラメータ数と計算コストを削減する2つの並列タスクに分割する。 実験の結果,粗粒度と細粒度は,パラメータやデータ要求の少ない高性能化の可能性を示した。 さらに、マルチスケールのコンテキスト誘導モジュールはResNet18とResNet50でそれぞれ6.45%と5.51%の性能向上を実現している。 私たちのコードはhttps://github.com/c zifan/ccfnet.pytorch で利用可能です。

Accurate and efficient lumbar spine disease identification is crucial for clinical diagnosis. However, existing deep learning models with millions of parameters often fail to learn with only hundreds or dozens of medical images. These models also ignore the contextual relationship between adjacent objects, such as between vertebras and intervertebral discs. This work introduces a multi-scale context-guided network with coarse-to-fine localization and classification, named CCF-Net, for lumbar spine disease identification. Specifically, in learning, we divide the localization objective into two parallel tasks, coarse and fine, which are more straightforward and effectively reduce the number of parameters and computational cost. The experimental results show that the coarse-to-fine design presents the potential to achieve high performance with fewer parameters and data requirements. Moreover, the multi-scale context-guided module can significantly improve the performance by 6.45% and 5.51% with ResNet18 and ResNet50, respectively. Our code is available at https://github.com/c zifan/CCFNet.pytorch .
翻訳日:2022-03-17 13:46:56 公開日:2022-03-16
# 赤外線画像と映像セットに関する調査

A Survey on Infrared Image and Video Sets ( http://arxiv.org/abs/2203.08581v1 )

ライセンス: Link先を確認
Kevser Irem Danaci, Erdem Akagunduz(参考訳) 本調査では,人工知能とコンピュータビジョン研究者を対象とした,公開可能な赤外線画像とビデオセットのリストをまとめた。 我々は主に、オブジェクト検出、オブジェクト分割、分類、動き検出などのコンピュータビジョンアプリケーションのために収集・ラベル付けされたIR画像とビデオセットに焦点を当てる。 我々は、センサの種類、画像解像度、スケールに応じて、92の異なる公開またはプライベートセットを分類する。 本稿では,それらの収集目的,動作環境,光学系特性,応用領域について,各集合と各集合について詳細に述べる。 また、赤外線、赤外線検出器、赤外線光学、応用分野など、赤外線画像に関する基本的な概念についても概説する。 我々は,コーパス全体の統計的意義を異なる視点から分析する。 この調査は、可視領域を超えてスペクトルを扱うことに興味を持つコンピュータビジョンと人工知能研究者のガイドラインになるだろうと考えています。

In this survey, we compile a list of publicly available infrared image and video sets for artificial intelligence and computer vision researchers. We mainly focus on IR image and video sets which are collected and labelled for computer vision applications such as object detection, object segmentation, classification, and motion detection. We categorize 92 different publicly available or private sets according to their sensor types, image resolution, and scale. We describe each and every set in detail regarding their collection purpose, operation environment, optical system properties, and area of application. We also cover a general overview of fundamental concepts that relate to IR imagery, such as IR radiation, IR detectors, IR optics and application fields. We analyse the statistical significance of the entire corpus from different perspectives. We believe that this survey will be a guideline for computer vision and artificial intelligence researchers that are interested in working with the spectra beyond the visible domain.
翻訳日:2022-03-17 13:46:39 公開日:2022-03-16
# X-Learner: ユニバーサルビジュアル表現のためのクロスソースとタスクを学ぶ

X-Learner: Learning Cross Sources and Tasks for Universal Visual Representation ( http://arxiv.org/abs/2203.08764v1 )

ライセンス: Link先を確認
Yinan He, Gengshi Huang, Siyu Chen, Jianing Teng, Wang Kun, Zhenfei Yin, Lu Sheng, Ziwei Liu, Yu Qiao, Jing Shao(参考訳) コンピュータビジョンでは、大規模な教師付き学習に基づく事前学習モデルがここ数年で有効であることが証明されている。 しかし、既存の研究は主に個々のタスクから単一のデータソース(分類のためのImageNetや検出のためのCOCOなど)で学習することに焦点を当てている。 この制限された形式は、様々なタスクやデータソースからの膨大な意味情報の欠如により、その汎用性とユーザビリティを制限する。 ここでは、異種タスクと複数のデータソースからの共同学習が普遍的な視覚表現に寄与し、様々な下流タスクの転送結果がより良くなることを示す。 このようにして、さまざまなタスクとデータソース間のギャップを橋渡しする方法を学ぶことが鍵となるが、それでもまだ疑問は残されている。 本稿では,様々な情報源が監督する複数の視覚課題の普遍的特徴を学習し,拡張と絞り込みの段階を学習する表現学習フレームワークであるx-learnerを提案する。 1)拡張段階:X-Learnerはタスク固有の特徴を学習し,タスク干渉を緩和し,和解層による表現を充実させる。 2) スクイーズステージ: x-learnerはモデルを合理的なサイズに凝縮し、様々なタスク転送の普遍的で一般化可能な表現を学ぶ。 X-Learnerは、既存の表現学習法と比較して、余分なアノテーションやモダリティ、計算コストを伴わずに、様々なタスクにおいて高いパフォーマンスを達成することを示した。 特に、単一のX-Learnerモデルは、分類、オブジェクト検出、セマンティックセグメンテーションのための12の下流データセット上の現在の事前訓練モデルよりも3.0%、3.3%、および1.8%の顕著な増加を示している。

In computer vision, pre-training models based on largescale supervised learning have been proven effective over the past few years. However, existing works mostly focus on learning from individual task with single data source (e.g., ImageNet for classification or COCO for detection). This restricted form limits their generalizability and usability due to the lack of vast semantic information from various tasks and data sources. Here, we demonstrate that jointly learning from heterogeneous tasks and multiple data sources contributes to universal visual representation, leading to better transferring results of various downstream tasks. Thus, learning how to bridge the gaps among different tasks and data sources is the key, but it still remains an open question. In this work, we propose a representation learning framework called X-Learner, which learns the universal feature of multiple vision tasks supervised by various sources, with expansion and squeeze stage: 1) Expansion Stage: X-Learner learns the task-specific feature to alleviate task interference and enrich the representation by reconciliation layer. 2) Squeeze Stage: X-Learner condenses the model to a reasonable size and learns the universal and generalizable representation for various tasks transferring. Extensive experiments demonstrate that X-Learner achieves strong performance on different tasks without extra annotations, modalities and computational costs compared to existing representation learning methods. Notably, a single X-Learner model shows remarkable gains of 3.0%, 3.3% and 1.8% over current pretrained models on 12 downstream datasets for classification, object detection and semantic segmentation.
翻訳日:2022-03-17 13:46:26 公開日:2022-03-16
# トレーニングデータは、あなたが考えるよりも有益である:トレーニングデータから取り出すシンプルで効果的な方法

Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data ( http://arxiv.org/abs/2203.08773v1 )

ライセンス: Link先を確認
Shuohang Wang, Yichong Xu, Yuwei Fang, Yang Liu, Siqi Sun, Ruochen Xu, Chenguang Zhu, Michael Zeng(参考訳) 検索に基づく手法は,外部知識を導入してNLPタスクに有効であることが示されている。 しかし、大規模なコーパスのインデックス化と検索は、かなりの計算コストをもたらす。 意外なことに、Retrieving from the training datA (REINA) は複数のNLGおよびNLUタスクにおいて大きな改善をもたらすことが判明した。 ラベル付きトレーニングインスタンスを入力テキストに最もよく似たものを取得し、それらをモデルに入力して出力を生成します。 実験の結果, この単純な手法は, 要約, 機械翻訳, 言語モデリング, 質問応答タスクなど, 様々なnluおよびnlgタスクにおいて, 著しく優れた性能が得られることがわかった。 例えば,提案手法は,XSum,BigPatent,Comm onsenseQAで最先端の結果を得た。 私たちのコードは、https://github.com/m icrosoft/REINA です。

Retrieval-based methods have been shown to be effective in NLP tasks via introducing external knowledge. However, the indexing and retrieving of large-scale corpora bring considerable computational cost. Surprisingly, we found that REtrieving from the traINing datA (REINA) only can lead to significant gains on multiple NLG and NLU tasks. We retrieve the labeled training instances most similar to the input text and then concatenate them with the input to feed into the model to generate the output. Experimental results show that this simple method can achieve significantly better performance on a variety of NLU and NLG tasks, including summarization, machine translation, language modeling, and question answering tasks. For instance, our proposed method achieved state-of-the-art results on XSum, BigPatent, and CommonsenseQA. Our code is released, https://github.com/m icrosoft/REINA .
翻訳日:2022-03-17 13:45:40 公開日:2022-03-16
# 弾力性神経予測システム

Resilient Neural Forecasting Systems ( http://arxiv.org/abs/2203.08492v1 )

ライセンス: Link先を確認
Michael Bohlke-Schneider, Shubham Kapoor, Tim Januschowski(参考訳) 産業用機械学習システムは、しばしば学術文献で未探究されるデータ課題に直面している。 一般的なデータ課題は、データ分散シフト、値の欠如、異常である。 本稿では、労働計画におけるニューラル予測アプリケーションのコンテキストにおけるデータ課題と解決策について論じ、この予測システムをこれらのデータ課題に耐性を持たせる方法について論じる。 本稿では,周期的リトレーニング方式によるデータ分布の変化に対処し,モデル安定性の重要性を論じる。 さらに,我々のディープラーニングモデルが,インプテーションを必要とせずに,ネイティブに値の欠如に対処する方法を示す。 最後に,入力データの異常を検知し,その影響を予測に影響を与える前に緩和する方法について述べる。 これにより、アルゴリズムと人間のオーバーライドからなるハイブリッドシステムと比較し、完全に自律的な予測システムが得られる。

Industrial machine learning systems face data challenges that are often under-explored in the academic literature. Common data challenges are data distribution shifts, missing values and anomalies. In this paper, we discuss data challenges and solutions in the context of a Neural Forecasting application on labor planning.We discuss how to make this forecasting system resilient to these data challenges. We address changes in data distribution with a periodic retraining scheme and discuss the critical importance of model stability in this setting. Furthermore, we show how our deep learning model deals with missing values natively without requiring imputation. Finally, we describe how we detect anomalies in the input data and mitigate their effect before they impact the forecasts. This results in a fully autonomous forecasting system that compares favorably to a hybrid system consisting of the algorithm and human overrides.
翻訳日:2022-03-17 13:43:30 公開日:2022-03-16
# Lazy-MDPs: 実行時学習による解釈可能な強化学習を目指して

Lazy-MDPs: Towards Interpretable Reinforcement Learning by Learning When to Act ( http://arxiv.org/abs/2203.08542v1 )

ライセンス: Link先を確認
Alexis Jacq, Johan Ferret, Olivier Pietquin, Matthieu Geist(参考訳) 伝統的に強化学習(rl)は、人工エージェントに対して最適な行動方法を決定することを目的としている。 我々はいつ行動するかを決めることが重要であると主張する。 人間として、我々は、デフォルト、本能的、暗記的行動から、状況によって要求される集中的、思考的行動へと漂流する。 本稿では,この能力でRLエージェントを強化し,標準マルコフ決定プロセスを強化し,遅延性(lazy)という新たな動作モードを実現することを提案する。 さらに、最小限の努力を奨励し、エージェントに重要な決定のみに焦点を当てるために、非怠慢な行動を罰する。 結果の形式的遅延MDPを命名する。 我々はlazy-mdpの理論特性を調べ,値関数を表現し,最適解を特徴付ける。 次に、遅延MDPで学んだポリシーが一般的に解釈可能性の形で現れることを実証的に示す:建設によって、エージェントがデフォルトのポリシーを制御している状態を示す。 デフォルトと新しい遅延ポリシーのパフォーマンスの違いを説明するため、これらの状態と対応するアクションを重要視します。 サブ最適ポリシーをデフォルトとして(事前訓練またはランダムに)、エージェントは限られた状態のサブセットでのみ制御しながら、アタリゲームで競争性能を得ることができる。

Traditionally, Reinforcement Learning (RL) aims at deciding how to act optimally for an artificial agent. We argue that deciding when to act is equally important. As humans, we drift from default, instinctive or memorized behaviors to focused, thought-out behaviors when required by the situation. To enhance RL agents with this aptitude, we propose to augment the standard Markov Decision Process and make a new mode of action available: being lazy, which defers decision-making to a default policy. In addition, we penalize non-lazy actions in order to encourage minimal effort and have agents focus on critical decisions only. We name the resulting formalism lazy-MDPs. We study the theoretical properties of lazy-MDPs, expressing value functions and characterizing optimal solutions. Then we empirically demonstrate that policies learned in lazy-MDPs generally come with a form of interpretability: by construction, they show us the states where the agent takes control over the default policy. We deem those states and corresponding actions important since they explain the difference in performance between the default and the new, lazy policy. With suboptimal policies as default (pretrained or random), we observe that agents are able to get competitive performance in Atari games while only taking control in a limited subset of states.
翻訳日:2022-03-17 13:43:16 公開日:2022-03-16
# 衝突のない正規化を伴うベイズ最適化のための学習表現

Learning Representation for Bayesian Optimization with Collision-free Regularization ( http://arxiv.org/abs/2203.08656v1 )

ライセンス: Link先を確認
Fengxue Zhang, Brian Nord, Yuxin Chen(参考訳) ベイズ最適化は、大規模、高次元、非定常的な特徴を持つデータセットによって挑戦されてきた。 最近の研究は、古典ガウス過程の前にニューラルネットワークを適用して潜在表現を学ぶことで、そのような入力を扱うことを試みる。 適切なネットワーク設計であっても、そのような学習された表現はしばしば潜伏空間における衝突を引き起こす: 学習された潜伏空間において、観察が著しく異なる2つの点が衝突し、劣化した最適化性能が生じる。 この問題に対処するために,学習された潜在空間の衝突を低減し,Lipschitz連続となる目的値へのマッピングを促進するために,新しい正則化器を用いた効率的な深ベイズ最適化フレームワークであるLOCoを提案する。 LOCoはデータポイントのペアを取り込み、ターゲットの空間距離と比較して潜在空間に近すぎるものをペナルティ化する。 我々は,この動的埋め込みに基づくベイズ最適化アルゴリズムを,ニューラルネットワークをレギュレータで反復的に再学習したことを後悔して,LOCoの厳密な理論的正当性を提供する。 実験により, 合成および実世界のベンチマークベイズ最適化におけるLOCoの有効性を実証した。

Bayesian optimization has been challenged by datasets with large-scale, high-dimensional, and non-stationary characteristics, which are common in real-world scenarios. Recent works attempt to handle such input by applying neural networks ahead of the classical Gaussian process to learn a latent representation. We show that even with proper network design, such learned representation often leads to collision in the latent space: two points with significantly different observations collide in the learned latent space, leading to degraded optimization performance. To address this issue, we propose LOCo, an efficient deep Bayesian optimization framework which employs a novel regularizer to reduce the collision in the learned latent space and encourage the mapping from the latent space to the objective value to be Lipschitz continuous. LOCo takes in pairs of data points and penalizes those too close in the latent space compared to their target space distance. We provide a rigorous theoretical justification for LOCo by inspecting the regret of this dynamic-embedding-ba sed Bayesian optimization algorithm, where the neural network is iteratively retrained with the regularizer. Our empirical results demonstrate the effectiveness of LOCo on several synthetic and real-world benchmark Bayesian optimization tasks.
翻訳日:2022-03-17 13:42:54 公開日:2022-03-16
# 微分可能なDAGサンプリング

Differentiable DAG Sampling ( http://arxiv.org/abs/2203.08509v1 )

ライセンス: Link先を確認
Bertrand Charpentier, Simon Kibler, Stephan G\"unnemann(参考訳) DAG(DP-DAG)に対する新たな微分可能確率モデルを提案する。 DP-DAGは連続最適化に適した高速かつ微分可能なDAGサンプリングを可能にする。 この目的のために,DP-DAG は,(1) ノードの線形順序と(2) サンプリングエッジをサンプリングして DAG をサンプリングする。 また、DP-DAGと変分推論を組み合わせた観測データから新しいDAG学習法であるVI-DP-DAGを提案する。 したがって、VI-DP-DAGは観測されたデータからDAGエッジの後方確率を近似する。 VI-DP-DAGは、トレーニング中いつでも有効なDAGを出力することが保証されており、既存の微分可能DAG学習手法とは対照的に、複雑なラグランジアン最適化スキームを必要としない。 広汎な実験では、VI-DP-DAGと、合成および実データに基づく他の微分可能なDAG学習ベースラインを比較した。 VI-DP-DAG は DAG の構造と因果メカニズムの学習を, 競合他社よりも速く向上させる。

We propose a new differentiable probabilistic model over DAGs (DP-DAG). DP-DAG allows fast and differentiable DAG sampling suited to continuous optimization. To this end, DP-DAG samples a DAG by successively (1) sampling a linear ordering of the node and (2) sampling edges consistent with the sampled linear ordering. We further propose VI-DP-DAG, a new method for DAG learning from observational data which combines DP-DAG with variational inference. Hence,VI-DP-DAG approximates the posterior probability over DAG edges given the observed data. VI-DP-DAG is guaranteed to output a valid DAG at any time during training and does not require any complex augmented Lagrangian optimization scheme in contrast to existing differentiable DAG learning approaches. In our extensive experiments, we compare VI-DP-DAG to other differentiable DAG learning baselines on synthetic and real datasets. VI-DP-DAG significantly improves DAG structure and causal mechanism learning while training faster than competitors.
翻訳日:2022-03-17 13:42:35 公開日:2022-03-16
# トラクタブル依存予測を用いた実用的条件付きニューラルプロセス

Practical Conditional Neural Processes Via Tractable Dependent Predictions ( http://arxiv.org/abs/2203.08775v1 )

ライセンス: Link先を確認
Stratis Markou and James Requeima and Wessel P. Bruinsma and Anna Vaughan and Richard E. Turner(参考訳) Conditional Neural Processs (CNPs; Garnelo et al., 2018a)は、ディープラーニングの柔軟性を活用して、よく校正された予測を生成し、オフザグリッドと欠落したデータを自然に処理するメタ学習モデルである。 CNPは大規模なデータセットにスケールし、簡単にトレーニングできる。 これらの特徴により、CNPは環境科学や医療のタスクに適しているように見える。 残念ながら、CNPは相関予測を生成せず、多くの見積もりや意思決定タスクには基本的に不適切である。 例えば、熱波や洪水を予測するには、時間と空間の温度や降水の依存性をモデル化する必要がある。 ニューラルプロセス (NPs, Garnelo et al., 2018b) やFullConvGNP (Bruinsma et al., 2021) のような既存の出力依存をモデル化するアプローチは、訓練に複雑か、あるいは違法に高価である。 必要なのは、依存した予測を提供するアプローチですが、訓練や計算が簡単なアプローチです。 そこで本研究では,相関予測を行い,単純でスケーラブルな最大確率トレーニングを支援するニューラルプロセスモデルを提案する。 提案モデルを可逆出力変換を用いて拡張し,非ガウス出力分布をキャプチャする。 我々のモデルは、依存関数サンプルを必要とする下流推定タスクで使用できる。 出力依存を考慮したモデルでは, 合成データと実データを用いた実験で予測性能が向上した。

Conditional Neural Processes (CNPs; Garnelo et al., 2018a) are meta-learning models which leverage the flexibility of deep learning to produce well-calibrated predictions and naturally handle off-the-grid and missing data. CNPs scale to large datasets and train with ease. Due to these features, CNPs appear well-suited to tasks from environmental sciences or healthcare. Unfortunately, CNPs do not produce correlated predictions, making them fundamentally inappropriate for many estimation and decision making tasks. Predicting heat waves or floods, for example, requires modelling dependencies in temperature or precipitation over time and space. Existing approaches which model output dependencies, such as Neural Processes (NPs; Garnelo et al., 2018b) or the FullConvGNP (Bruinsma et al., 2021), are either complicated to train or prohibitively expensive. What is needed is an approach which provides dependent predictions, but is simple to train and computationally tractable. In this work, we present a new class of Neural Process models that make correlated predictions and support exact maximum likelihood training that is simple and scalable. We extend the proposed models by using invertible output transformations, to capture non-Gaussian output distributions. Our models can be used in downstream estimation tasks which require dependent function samples. By accounting for output dependencies, our models show improved predictive performance on a range of experiments with synthetic and real data.
翻訳日:2022-03-17 13:42:20 公開日:2022-03-16
# (参考訳) 蒸留特徴対応による教師なし意味セグメンテーション [全文訳有]

Unsupervised Semantic Segmentation by Distilling Feature Correspondences ( http://arxiv.org/abs/2203.08414v1 )

ライセンス: CC BY 4.0
Mark Hamilton, Zhoutong Zhang, Bharath Hariharan, Noah Snavely, William T. Freeman(参考訳) 教師なしセマンティックセグメンテーション(unsupervised semantic segmentation)は、アノテーションなしで画像コーパス内の意味論的意味のあるカテゴリを発見し、ローカライズすることを目的としている。 この課題を解決するには、アルゴリズムは意味論的に意味があり、異なるクラスタを形成するのに十分なコンパクトな全てのピクセルに特徴を作らなければならない。 単一エンドツーエンドフレームワークでこれを実現する以前の作業とは異なり、クラスタのコンパクト化から特徴学習を分離することを提案する。 経験的に、現在、教師なしの機能学習フレームワークは、相関関係が意味的に一貫性のある密集した特徴をすでに生成していることを示す。 この観察は、STEGO$\textbf{S}$elf-supervised $\textbf{T}$ransformer with $\textbf{E}$nergy-based $\textbf{G}$raph $\textbf{O}$ptimizationという、教師なしの機能を高品質な個別のセマンティックラベルに抽出する新しいフレームワークを設計する動機付けになります。 stegoの中核となるのは,コーパス間の関係を維持しながら,コンパクトなクラスタを形成する機能を奨励する,新たなコントラスト損失関数だ。 STEGOは、CocoStuff$(\textbf{+14 mIoU}$)とCityscapes$(\textbf{+9 mIoU}$)セマンティックセマンティックセマンティックセグメンテーションの課題において、先行技術よりも大幅に改善されている。

Unsupervised semantic segmentation aims to discover and localize semantically meaningful categories within image corpora without any form of annotation. To solve this task, algorithms must produce features for every pixel that are both semantically meaningful and compact enough to form distinct clusters. Unlike previous works which achieve this with a single end-to-end framework, we propose to separate feature learning from cluster compactification. Empirically, we show that current unsupervised feature learning frameworks already generate dense features whose correlations are semantically consistent. This observation motivates us to design STEGO ($\textbf{S}$elf-supervised $\textbf{T}$ransformer with $\textbf{E}$nergy-based $\textbf{G}$raph $\textbf{O}$ptimization), a novel framework that distills unsupervised features into high-quality discrete semantic labels. At the core of STEGO is a novel contrastive loss function that encourages features to form compact clusters while preserving their relationships across the corpora. STEGO yields a significant improvement over the prior state of the art, on both the CocoStuff ($\textbf{+14 mIoU}$) and Cityscapes ($\textbf{+9 mIoU}$) semantic segmentation challenges.
翻訳日:2022-03-17 13:39:58 公開日:2022-03-16
# less is more: 長い命令の要約はプログラムの合成に優れている

Less is More: Summary of Long Instructions is Better for Program Synthesis ( http://arxiv.org/abs/2203.08597v1 )

ライセンス: Link先を確認
Kirby Kuznia, Swaroop Mishra, Mihir Parmar and Chitta Baral(参考訳) Codexのような大規模な事前学習言語モデル(LM)の成功にもかかわらず、より大規模で複雑なプログラミング関連の質問に対して以下のパフォーマンスを示す。 複雑な質問の要約版からLMが恩恵を受けることを示す。 この結果から,人格や背景話,名前(タスク理解を支援するために含まれるもの)など,問題記述に多量の情報が存在することは,課題理解のモデルには役に立たないことがわかった。 そこで我々は,プログラム合成タスクに頻繁に使用されるAPPSデータセットからメタデータセットを作成する。 当社のメタデータセットは、長く複雑なプログラミング質問の要約を人間と合成したものです。 codexを用いた実験の結果,提案手法は,厳密な精度で平均で8.13%の精度でベースラインを上回っていることがわかった。 分析の結果, イントロダクトリ (9.86%) とインタビュー (11.48%) によるプログラミング問題のパフォーマンスは有意に向上した。 しかし、競争の激しいプログラミング問題に対してわずかなマージン(約2%)で改善が見られ、将来の研究の方向性の範囲が示唆される。

Despite the success of large pre-trained language models (LMs) such as Codex, they show below-par performance on the larger and more complicated programming related questions. We show that LMs benefit from the summarized version of complicated questions. Our findings show that superfluous information often present in problem description such as human characters, background stories, names (which are included to help humans in understanding a task) does not help models in understanding a task. To this extent, we create a meta-dataset from the frequently used APPS dataset for the program synthesis task. Our meta-dataset consists of human and synthesized summary of the long and complicated programming questions. Experimental results on Codex show that our proposed approach outperforms baseline by 8.13% on an average in terms of strict accuracy. Our analysis shows that summary significantly improve performance for introductory (9.86%) and interview (11.48%) related programming questions. However, it shows improvement by a small margin (~2%) for competitive programming questions, implying the scope for future research direction.
翻訳日:2022-03-17 13:14:51 公開日:2022-03-16
# 最短の理性は人間の理解に最適な説明か?

Are Shortest Rationales the Best Explanations for Human Understanding? ( http://arxiv.org/abs/2203.08788v1 )

ライセンス: Link先を確認
Hua Shen, Tongshuang Wu, Wenbo Guo, Ting-Hao 'Kenneth' Huang(参考訳) 既存の自己説明モデルでは、入力テキストのスニペットを対応する出力に"責任"として抽出し、短い有理が人間にとってより直感であるという仮定でモデル予測を説明するのが一般的である。 しかし、この仮定はまだ検証されていない。 最も短い合理性は、本当に最も人間に理解しやすいものなのだろうか? この疑問に答えるために、我々は、ユーザーが任意のターゲット長で有理を抽出できる自己説明型モデル、LimitedInkを設計する。 既存のベースラインと比較すると、LimitedInkはエンドタスクのパフォーマンスと人間による注釈付き合理化契約を達成しており、最近の自己説明型モデルの適切な表現となっている。 我々は,LimitedInkを用いて,有理長の影響に関するユーザスタディを行い,人間の判断に対して,長さの異なるLimitedInk生成論理に基づいて,文書の感情ラベルを予測する。 提案手法は,不規則にマスキングされたテキストよりもラベルの予測が容易でないという理性を示しており,人間の最善の理性をより慎重に設計する必要があることを示唆している。

Existing self-explaining models typically favor extracting the shortest possible rationales - snippets of an input text "responsible for" corresponding output - to explain the model prediction, with the assumption that shorter rationales are more intuitive to humans. However, this assumption has yet to be validated. Is the shortest rationale indeed the most human-understandable ? To answer this question, we design a self-explaining model, LimitedInk, which allows users to extract rationales at any target length. Compared to existing baselines, LimitedInk achieves compatible end-task performance and human-annotated rationale agreement, making it a suitable representation of the recent class of self-explaining models. We use LimitedInk to conduct a user study on the impact of rationale length, where we ask human judges to predict the sentiment label of documents based only on LimitedInk-generated rationales with different lengths. We show rationales that are too short do not help humans predict labels better than randomly masked text, suggesting the need for more careful design of the best human rationales.
翻訳日:2022-03-17 13:14:33 公開日:2022-03-16
# 勾配マッチングと暗示差分を用いた合成学習データ生成の学習

Learning to Generate Synthetic Training Data using Gradient Matching and Implicit Differentiation ( http://arxiv.org/abs/2203.08559v1 )

ライセンス: Link先を確認
Dmitry Medvedev, Alexander D'yakonov(参考訳) 巨大なトレーニングデータセットを使用することは、コストがかかり、不便である。 本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。 近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。 mnist画像分類問題を用いた実験により, 従来の方法よりも計算効率が向上し, 蒸留データを用いたモデルの性能向上が期待できることがわかった。

Using huge training datasets can be costly and inconvenient. This article explores various data distillation techniques that can reduce the amount of data required to successfully train deep networks. Inspired by recent ideas, we suggest new data distillation techniques based on generative teaching networks, gradient matching, and the Implicit Function Theorem. Experiments with the MNIST image classification problem show that the new methods are computationally more efficient than previous ones and allow to increase the performance of models trained on distilled data.
翻訳日:2022-03-17 13:14:12 公開日:2022-03-16
# (参考訳) 安全で深い半教師ありの学習を、単純な偏見で恐れるな

Don't fear the unlabelled: safe deep semi-supervised learning via simple debiasing ( http://arxiv.org/abs/2203.07512v2 )

ライセンス: CC BY 4.0
Hugo Schmutz, Olivier Humbert and Pierre-Alexandre Mattei(参考訳) semi supervised learning(ssl)は、ラベルなしのデータを利用してモデルのパフォーマンスを改善する効果的な手段を提供する。 過去数年間、ドメインはかなりの注目を集めてきたが、ほとんどの方法は安全でないという共通の欠点を示している。 安全とは、不正なデータを含む場合、完全に教師付きモデルが劣化しない品質を意味する。 私たちの出発点は、ほとんどの差別的なSSLメソッドが最小化するリスクの見積もりが、漸近的にさえ偏っていることに気づくことです。 このバイアスは、適切な検証セットなしではこれらのテクニックを信頼できないが、バイアスを取り除く簡単な方法を提案する。 私たちのデバイアスングアプローチは実装が簡単で、ほとんどのディープSSLメソッドに適用できます。 SSL理論が要求するデータ分散に対する強い仮定に頼ることなく、これらの修正されたメソッドの安全性に関する単純な理論的保証を提供する。 既存のSSLメソッドのデバイアスバージョンを評価し,デバイアス化が従来のSSL手法と競合し,従来のSSLが失敗しても正常に動作することを示す。

Semi supervised learning (SSL) provides an effective means of leveraging unlabelled data to improve a model's performance. Even though the domain has received a considerable amount of attention in the past years, most methods present the common drawback of being unsafe. By safeness we mean the quality of not degrading a fully supervised model when including unlabelled data. Our starting point is to notice that the estimate of the risk that most discriminative SSL methods minimise is biased, even asymptotically. This bias makes these techniques untrustable without a proper validation set, but we propose a simple way of removing the bias. Our debiasing approach is straightforward to implement, and applicable to most deep SSL methods. We provide simple theoretical guarantees on the safeness of these modified methods, without having to rely on the strong assumptions on the data distribution that SSL theory usually requires. We evaluate debiased versions of different existing SSL methods and show that debiasing can compete with classic deep SSL techniques in various classic settings and even performs well when traditional SSL fails.
翻訳日:2022-03-17 11:43:02 公開日:2022-03-16
# (参考訳) sparsity-number を用いた生涯行列補完 [全文訳有]

Lifelong Matrix Completion with Sparsity-Number ( http://arxiv.org/abs/2203.07637v2 )

ライセンス: CC BY 4.0
Ilqar Ramazanli(参考訳) マトリックス補完問題はこれまで、様々な適応的および受動的設定下で研究されてきた。 これまで,コヒーレンスパラメータを用いたパッシブ,二相,単相のアルゴリズムと,空間数を用いた多相アルゴリズムが提案されてきた。 多くの条件において, 空間数を用いた理論的下界への到達法が示されている。 しかし、上記の方法は行列完了過程を通じて多くのフェーズで実行されているため、各段階においてより有意義な決定を行う。 したがって、この手法が従来のアルゴリズムより優れていることは当然である。 本稿では,スパーシティ数の概念を用いて,二相完全行列補完アルゴリズムに拡張可能な単相列空間復元アルゴリズムを提案する。 さらに,本手法は多相行列復元アルゴリズムと同等の効率性を示す。 提案アルゴリズムの性能を示す実験的な証拠を提供する。

Matrix completion problem has been previously studied under various adaptive and passive settings. Previously, researchers have proposed passive, two-phase and single-phase algorithms using coherence parameter, and multi phase algorithm using sparsity-number. It has been shown that the method using sparsity-number reaching to theoretical lower bounds in many conditions. However, the aforementioned method is running in many phases through the matrix completion process, therefore it makes much more informative decision at each stage. Hence, it is natural that the method outperforms previous algorithms. In this paper, we are using the idea of sparsity-number and propose and single-phase column space recovery algorithm which can be extended to two-phase exact matrix completion algorithm. Moreover, we show that these methods are as efficient as multi-phase matrix recovery algorithm. We provide experimental evidence to illustrate the performance of our algorithm.
翻訳日:2022-03-17 11:40:58 公開日:2022-03-16
# (参考訳) ロバストな非剛性形状マッチングのための暗黙的フィールド監督

Implicit field supervision for robust non-rigid shape matching ( http://arxiv.org/abs/2203.07694v2 )

ライセンス: CC BY 4.0
Ramana Sundararaman, Gautam Pai, Maks Ovsjanikov(参考訳) 2つの非剛性変形形状の対応を確立することは、ビジュアルコンピューティングにおける最も基本的な問題の1つである。 既存の手法では、ノイズ、外れ値、自己閉塞などの実世界のデータに固有の課題が提示されると、弱いレジリエンスを示すことが多い。 一方、オートデコーダは幾何学的に有意義な潜在埋め込みを学ぶ上で強い表現力を示している。 しかし、形状解析、特に非剛性形状対応における使用は限られている。 本稿では,固定テンプレート上で連続的な形状方向の変形場を学習するauto-decoderフレームワークに基づく手法を提案する。 そこで,SDR(Signed Distance Regularization)により,表面上の点の変形場を監督し,表面外の点の規則化を行うことにより,テンプレートと形状体積のアライメントを学習する。 古典的対応法とは異なり,本手法は強いアーティファクトの存在下では極めて頑健であり,任意の形状カテゴリに一般化できる。 クリーンな水密メッシュをトレーニングし、データ提供なしに、漏洩したデータと現実世界のスキャンで説得力のあるパフォーマンスを示す。

Establishing a correspondence between two non-rigidly deforming shapes is one of the most fundamental problems in visual computing. Existing methods often show weak resilience when presented with challenges innate to real-world data such as noise, outliers, self-occlusion etc. On the other hand, auto-decoders have demonstrated strong expressive power in learning geometrically meaningful latent embeddings. However, their use in shape analysis and especially in non-rigid shape correspondence has been limited. In this paper, we introduce an approach based on auto-decoder framework, that learns a continuous shape-wise deformation field over a fixed template. By supervising the deformation field for points on-surface and regularising for points off-surface through a novel Signed Distance Regularisation (SDR), we learn an alignment between the template and shape volumes. Unlike classical correspondence techniques, our method is remarkably robust in the presence of strong artefacts and can be generalised to arbitrary shape categories. Trained on clean water-tight meshes, without any data-augmentation, we demonstrate compelling performance on compromised data and real-world scans.
翻訳日:2022-03-17 11:33:46 公開日:2022-03-16
# (参考訳) 確率的集合予測としての物体検出

Object Detection as Probabilistic Set Prediction ( http://arxiv.org/abs/2203.07980v2 )

ライセンス: CC BY 4.0
Georg Hess, Christoffer Petersson, Lennart Svensson(参考訳) 正確な不確実性推定は、安全クリティカルなシステムに深層物体検出器を配備するには不可欠である。 確率的物体検出器の開発と評価は、任意のしきい値や検出器の分布選択を制限する傾向がある既存の性能指標の欠点によって妨げられている。 本研究では,オブジェクト検出を,オブジェクトの集合上の分布を予測するセット予測タスクとみなす。 ランダムな有限集合に対する負のlog-likelihoodを用いて,確率的物体検出器の評価と訓練のための適切なスコアリングルールを提案する。 提案手法は,既存の確率的検出器に適用でき,しきい値がなく,アーキテクチャ間を公平に比較できる。 COCOデータセットでは3種類の検出器が評価されている。 その結果,既存の検出器のトレーニングは非確率的指標に最適化されていることがわかった。 我々は、自分たちの不確実性を正確に推定できる新しい物体検出器の開発を奨励したい。 コードはリリースされる。

Accurate uncertainty estimates are essential for deploying deep object detectors in safety-critical systems. The development and evaluation of probabilistic object detectors have been hindered by shortcomings in existing performance measures, which tend to involve arbitrary thresholds or limit the detector's choice of distributions. In this work, we propose to view object detection as a set prediction task where detectors predict the distribution over the set of objects. Using the negative log-likelihood for random finite sets, we present a proper scoring rule for evaluating and training probabilistic object detectors. The proposed method can be applied to existing probabilistic detectors, is free from thresholds, and enables fair comparison between architectures. Three different types of detectors are evaluated on the COCO dataset. Our results indicate that the training of existing detectors is optimized toward non-probabilistic metrics. We hope to encourage the development of new object detectors that can accurately estimate their own uncertainty. Code will be released.
翻訳日:2022-03-17 11:32:24 公開日:2022-03-16
# 説得的対話による実情報と社会的内容のシームレスな統合

Seamlessly Integrating Factual Information and Social Content with Persuasive Dialogue ( http://arxiv.org/abs/2203.07657v2 )

ライセンス: Link先を確認
Maximillian Chen, Weiyan Shi, Feifan Yan, Ryan Hou, Jingwen Zhang, Saurav Sahay, Zhou Yu(参考訳) 効果的な人間とチャットボットの会話は、一貫性と効率の両方を達成する必要がある。 説得のような複雑な会話設定は、態度や行動の変化を伝達するので、そのトピックに直接関連しない場合でも、ユーザーの視点を慎重に検討し、対処する必要がある。 本稿では,事実情報とソーシャルコンテンツとをシームレスに統合した,モジュール型対話システムフレームワークを提案する。 我々のフレームワークは、ソーシャルとタスクの混在した対話タスクに一般化可能である。 本研究では,フレームワークのユーザ評価を,ベースラインのエンドツーエンド生成モデルと比較した。 ソーシャルコンテンツや事実的質問を明示的に扱わないベースラインモデルと比較して,コンピテンスやフレンドリネスなど,あらゆる面でより好適であると評価した。

Effective human-chatbot conversations need to achieve both coherence and efficiency. Complex conversation settings such as persuasion involve communicating changes in attitude or behavior, so users' perspectives need to be carefully considered and addressed, even when not directly related to the topic. In this work, we contribute a novel modular dialogue system framework that seamlessly integrates factual information and social content into persuasive dialogue. Our framework is generalizable to any dialogue tasks that have mixed social and task contents. We conducted a study that compared user evaluations of our framework versus a baseline end-to-end generation model. We found our model was evaluated to be more favorable in all dimensions including competence and friendliness compared to the baseline model which does not explicitly handle social content or factual questions.
翻訳日:2022-03-17 11:30:47 公開日:2022-03-16
# 補間と摂動を伴う高密度検索のための文書表現の強化

Augmenting Document Representations for Dense Retrieval with Interpolation and Perturbation ( http://arxiv.org/abs/2203.07735v2 )

ライセンス: Link先を確認
Soyeong Jeong, Jinheon Baek, Sukmin Cho, Sung Ju Hwang, Jong C. Park(参考訳) 濃密な表現空間における入力クエリの最も関連性の高い文書の検索を目的とした高密度検索モデルは,その顕著な成功に対して大きな注目を集めている。 しかし、高密度モデルは顕著なパフォーマンスのために大量のラベル付きトレーニングデータを必要とするが、人間によって注釈付けされたクエリドキュメントペアを取得することはしばしば困難である。 そこで本研究では,その補間と摂動によって文書の表現を増強する,高密度検索(dar)フレームワークのための簡易かつ効果的な文書拡張手法を提案する。 2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、DARが関連するベースラインを大幅に上回ることを示す。

Dense retrieval models, which aim at retrieving the most relevant document for an input query on a dense representation space, have gained considerable attention for their remarkable success. Yet, dense models require a vast amount of labeled training data for notable performance, whereas it is often challenging to acquire query-document pairs annotated by humans. To tackle this problem, we propose a simple but effective Document Augmentation for dense Retrieval (DAR) framework, which augments the representations of documents with their interpolation and perturbation. We validate the performance of DAR on retrieval tasks with two benchmark datasets, showing that the proposed DAR significantly outperforms relevant baselines on the dense retrieval of both the labeled and unlabeled documents.
翻訳日:2022-03-17 11:30:33 公開日:2022-03-16
# CryoAI:実際のCryo-EM画像から3次元分子ボリュームを初期再構成する可能性

CryoAI: Amortized Inference of Poses for Ab Initio Reconstruction of 3D Molecular Volumes from Real Cryo-EM Images ( http://arxiv.org/abs/2203.08138v2 )

ライセンス: Link先を確認
Axel Levy, Fr\'ed\'eric Poitevin, Julien Martel, Youssef Nashed, Ariana Peck, Nina Miolane, Daniel Ratner, Mike Dunne, Gordon Wetzstein(参考訳) クリオ電子顕微鏡(cryo-EM)は構造生物学において重要なツールとなり、生命の基本的な構成要素を理解するのに役立っている。 cryo-emのアルゴリズム上の課題は、未知の3dポーズと、非常にノイズの多い2d画像から生体分子の3d電子散乱ポテンシャルを共同で推定することである。 しかし、既存の再構成アルゴリズムは、計算コストとメモリコストが高いため、急速に増大するCryo-EMデータセットのサイズに容易に対応できない。 粒子ポーズの直勾配最適化と単一粒子Creo-EMデータからの電子散乱電位を用いた等質コンフォメーションのアブ初期再構成アルゴリズムであるCreoAIを導入する。 CryoAIは、各粒子画像のポーズを予測する学習エンコーダと物理ベースのデコーダを組み合わせて、各粒子画像を散乱ポテンシャル体積の暗黙の表現に集約する。 このボリュームは計算効率のためにフーリエ領域に格納され、メモリ効率のために現代の座標ネットワークアーキテクチャを利用する。 同期化損失関数と組み合わせて、このフレームワークは、シミュレーションデータと実験データの両方に対して最先端のCryo-EMソルバに匹敵する品質を達成し、大規模なデータセットでは1桁高速で、既存の手法よりもメモリ要求が大幅に低い。

Cryo-electron microscopy (cryo-EM) has become a tool of fundamental importance in structural biology, helping us understand the basic building blocks of life. The algorithmic challenge of cryo-EM is to jointly estimate the unknown 3D poses and the 3D electron scattering potential of a biomolecule from millions of extremely noisy 2D images. Existing reconstruction algorithms, however, cannot easily keep pace with the rapidly growing size of cryo-EM datasets due to their high computational and memory cost. We introduce cryoAI, an ab initio reconstruction algorithm for homogeneous conformations that uses direct gradient-based optimization of particle poses and the electron scattering potential from single-particle cryo-EM data. CryoAI combines a learned encoder that predicts the poses of each particle image with a physics-based decoder to aggregate each particle image into an implicit representation of the scattering potential volume. This volume is stored in the Fourier domain for computational efficiency and leverages a modern coordinate network architecture for memory efficiency. Combined with a symmetrized loss function, this framework achieves results of a quality on par with state-of-the-art cryo-EM solvers for both simulated and experimental data, one order of magnitude faster for large datasets and with significantly lower memory requirements than existing methods.
翻訳日:2022-03-17 11:30:19 公開日:2022-03-16
# センス・エンベディングもバイズ化される-静的・文脈的エンベディングにおける社会的バイアスの評価

Sense Embeddings are also Biased--Evaluating Social Biases in Static and Contextualised Sense Embeddings ( http://arxiv.org/abs/2203.07523v2 )

ライセンス: Link先を確認
Yi Zhou, Masahiro Kaneko, Danushka Bollegala(参考訳) センス埋め込み学習法は、曖昧な単語の異なる感覚に対する異なる埋め込みを学習する。 曖昧な言葉の1つの感覚は社会的に偏りがあるが、他の感覚は偏りがない。 事前学習された単語埋め込みにおける社会的バイアスを評価する多くの先行研究と比較して、感覚埋め込みのバイアスは相対的に低い評価を受けている。 感覚埋め込みにおける社会的バイアスを評価するためのベンチマークデータセットを作成し,新しい感覚特異的バイアス評価尺度を提案する。 提案手法を用いて,様々な社会バイアスに対する複数の静的・文脈的感覚埋め込みの広範な評価を行う。 実験の結果,単語レベルではバイアスが見られない場合でも,感覚レベルでは社会バイアスの懸念レベルが存在し,単語レベルのバイアス評価尺度では無視されることが多かった。

Sense embedding learning methods learn different embeddings for the different senses of an ambiguous word. One sense of an ambiguous word might be socially biased while its other senses remain unbiased. In comparison to the numerous prior work evaluating the social biases in pretrained word embeddings, the biases in sense embeddings have been relatively understudied. We create a benchmark dataset for evaluating the social biases in sense embeddings and propose novel sense-specific bias evaluation measures. We conduct an extensive evaluation of multiple static and contextualised sense embeddings for various types of social biases using the proposed measures. Our experimental results show that even in cases where no biases are found at word-level, there still exist worrying levels of social biases at sense-level, which are often ignored by the word-level bias evaluation measures.
翻訳日:2022-03-17 11:29:51 公開日:2022-03-16
# 非例クラスインクリメンタルラーニングのための自己持続表現展開

Self-Sustaining Representation Expansion for Non-Exemplar Class-Incremental Learning ( http://arxiv.org/abs/2203.06359v2 )

ライセンス: Link先を確認
Kai Zhu, Wei Zhai, Yang Cao, Jiebo Luo, Zheng-Jun Zha(参考訳) 非典型的なクラス増分学習は、古いクラスサンプルを保存できない場合に、古いクラスと新しいクラスの両方を認識することである。 表現の最適化と機能の維持は、新しいクラスの監督の下でのみ達成できるため、これは難しい課題です。 この問題に対処するために,新しい自己持続型表現拡張スキームを提案する。 本手法は, 従来の特徴を維持するため, 主ブランチ拡張と側ブランチ更新を融合する構造再構成戦略と, 不変知識を伝達する主ブランチ蒸留方式とから構成される。 さらに, 蒸留工程に新しい試料を選択的に組み込むことにより, 旧クラスと新クラスの識別性を高めるための試案選択機構を提案する。 3つのベンチマークに関する広範囲な実験は、重要なインクリメンタルなパフォーマンスを示し、最先端のメソッドを3%、3%、6%のマージンで上回っている。

Non-exemplar class-incremental learning is to recognize both the old and new classes when old class samples cannot be saved. It is a challenging task since representation optimization and feature retention can only be achieved under supervision from new classes. To address this problem, we propose a novel self-sustaining representation expansion scheme. Our scheme consists of a structure reorganization strategy that fuses main-branch expansion and side-branch updating to maintain the old features, and a main-branch distillation scheme to transfer the invariant knowledge. Furthermore, a prototype selection mechanism is proposed to enhance the discrimination between the old and new classes by selectively incorporating new samples into the distillation process. Extensive experiments on three benchmarks demonstrate significant incremental performance, outperforming the state-of-the-art methods by a margin of 3%, 3% and 6%, respectively.
翻訳日:2022-03-17 11:29:38 公開日:2022-03-16
# 多人数3次元ポーズ推定のための分布認識型単段モデル

Distribution-Aware Single-Stage Models for Multi-Person 3D Pose Estimation ( http://arxiv.org/abs/2203.07697v2 )

ライセンス: Link先を確認
Zitian Wang, Xuecheng Nie, Xiaochao Qu, Yunpeng Chen, Si Liu(参考訳) 本稿では,多人数3次元ポーズ推定問題に取り組むための分散認識単段モデルを提案する。 既存のトップダウン法とボトムアップ法と異なり,提案したDASモデルは1パス方式で3Dカメラ空間内の人物位置と対応する身体関節を同時にローカライズする。 これにより、効率が向上した単純化されたパイプラインが実現される。 さらにdasは、以前の作品のように単純なラプラシアンやガウス的な仮定をするのではなく、それらの位置の回帰のための身体関節の真の分布を学ぶ。 これにより、モデル予測に価値ある優先順位が与えられ、ボリュームベースの予測と競合するパフォーマンスを達成するために回帰ベースのスキームが促進される。 さらに、DASは回帰目標に徐々に近づき、最適化の難しさを軽減し、回帰性能をさらに高める再帰的な更新戦略を利用する。 DASは完全な畳み込みニューラルネットワークで実装され、エンドツーエンドで学習可能である。 CMU Panoptic と MuPoTS-3D のベンチマーク実験は、提案したDASモデルのより優れた効率、特に以前のベストモデルよりも1.5倍の高速化、そして多人数の3Dポーズ推定における最先端の精度を示す。

In this paper, we present a novel Distribution-Aware Single-stage (DAS) model for tackling the challenging multi-person 3D pose estimation problem. Different from existing top-down and bottom-up methods, the proposed DAS model simultaneously localizes person positions and their corresponding body joints in the 3D camera space in a one-pass manner. This leads to a simplified pipeline with enhanced efficiency. In addition, DAS learns the true distribution of body joints for the regression of their positions, rather than making a simple Laplacian or Gaussian assumption as previous works. This provides valuable priors for model prediction and thus boosts the regression-based scheme to achieve competitive performance with volumetric-base ones. Moreover, DAS exploits a recursive update strategy for progressively approaching to regression target, alleviating the optimization difficulty and further lifting the regression performance. DAS is implemented with a fully Convolutional Neural Network and end-to-end learnable. Comprehensive experiments on benchmarks CMU Panoptic and MuPoTS-3D demonstrate the superior efficiency of the proposed DAS model, specifically 1.5x speedup over previous best model, and its stat-of-the-art accuracy for multi-person 3D pose estimation.
翻訳日:2022-03-17 11:29:23 公開日:2022-03-16
# 2次元物体検出における双曲埋め込みについて

On Hyperbolic Embeddings in 2D Object Detection ( http://arxiv.org/abs/2203.08049v2 )

ライセンス: Link先を確認
Christopher Lang, Alexander Braun, Abhinav Valada(参考訳) 物体検出の大部分はユークリッド空間で定式化されており、ユークリッドまたは球面測地距離は画像領域とオブジェクトクラスのプロトタイプとの類似度を測定する。 本研究では,双曲幾何学が対象分類空間の基盤構造に適合するかどうかを考察する。 2段階,キーポイントベース,およびトランスフォーマーベースのオブジェクト検出アーキテクチャに双曲型分類器を組み込み,大規模,長期,ゼロショットのオブジェクト検出ベンチマークで評価する。 広範な実験評価において,分類空間の構造に出現する分類クラス階層を観察し,分類誤差を低減し,全体のオブジェクト検出性能を向上させた。

Object detection, for the most part, has been formulated in the euclidean space, where euclidean or spherical geodesic distances measure the similarity of an image region to an object class prototype. In this work, we study whether a hyperbolic geometry better matches the underlying structure of the object classification space. We incorporate a hyperbolic classifier in two-stage, keypoint-based, and transformer-based object detection architectures and evaluate them on large-scale, long-tailed, and zero-shot object detection benchmarks. In our extensive experimental evaluations, we observe categorical class hierarchies emerging in the structure of the classification space, resulting in lower classification errors and boosting the overall object detection performance.
翻訳日:2022-03-17 11:29:01 公開日:2022-03-16
# 音声感情認識におけるトランスフォーマー時代の夜明け--ヴァレンスギャップを閉じる

Dawn of the transformer era in speech emotion recognition: closing the valence gap ( http://arxiv.org/abs/2203.07378v2 )

ライセンス: Link先を確認
Johannes Wagner, Andreas Triantafyllopoulos, Hagen Wierstorf, Maximilian Schmitt, Felix Burkhardt, Florian Eyben, Bj\"orn W. Schuller(参考訳) 自己教師付き方式で事前訓練されたトランスフォーマーアーキテクチャの最近の進歩は、いくつかの機械学習タスクにおいて大きな可能性を秘めている。 音声領域では、そのようなアーキテクチャは音声感情認識(SER)の分野でもうまく活用されている。 しかし、既存の研究はモデルサイズや事前学習データの影響を下流のパフォーマンスに評価しておらず、一般化、堅牢性、公平性、効率性に限定的な注意を払っている。 本研究は,MSPポッドキャストの興奮,支配,有病率を微調整したwav2vec 2.0およびHuBERTの事前学習版について,また,IEMOCAPおよびMOSIを用いてクロスコーパス一般化の検証を行った。 我々は,msp-podcast における .638 の一致相関係数 (ccc) を用いて,明示的な言語情報を用いずに価数予測の最高性能を得る。 さらに, トランスフォーマーをベースとしたアーキテクチャは, CNNベースのベースラインに比べて小さな摂動に対してより堅牢であり, 生物学的性グループに対しては公正である。 最後に, 変圧器層を微調整する際に学習した暗黙的な言語情報に基づいて, テキスト情報を明示的に活用する最近のマルチモーダルアプローチと同等に機能することを示す。 トランスフォーマーベースのアーキテクチャは、serの新たな最先端を構成するが、強固さと個々の話者問題を軽減するために、さらなる進歩が必要である。 研究成果を再現するために,コミュニティに最高のパフォーマンスモデルをリリースする。

Recent advances in transformer-based architectures which are pre-trained in self-supervised manner have shown great promise in several machine learning tasks. In the audio domain, such architectures have also been successfully utilised in the field of speech emotion recognition (SER). However, existing works have not evaluated the influence of model size and pre-training data on downstream performance, and have shown limited attention to generalisation, robustness, fairness, and efficiency. The present contribution conducts a thorough analysis of these aspects on several pre-trained variants of wav2vec 2.0 and HuBERT that we fine-tuned on the dimensions arousal, dominance, and valence of MSP-Podcast, while additionally using IEMOCAP and MOSI to test cross-corpus generalisation. To the best of our knowledge, we obtain the top performance for valence prediction without use of explicit linguistic information, with a concordance correlation coefficient (CCC) of .638 on MSP-Podcast. Furthermore, our investigations reveal that transformer-based architectures are more robust to small perturbations compared to a CNN-based baseline and fair with respect to biological sex groups, but not towards individual speakers. Finally, we are the first to show that their extraordinary success on valence is based on implicit linguistic information learnt during fine-tuning of the transformer layers, which explains why they perform on-par with recent multimodal approaches that explicitly utilise textual information. Our findings collectively paint the following picture: transformer-based architectures constitute the new state-of-the-art in SER, but further advances are needed to mitigate remaining robustness and individual speaker issues. To make our findings reproducible, we release the best performing model to the community.
翻訳日:2022-03-17 11:28:48 公開日:2022-03-16
# 顔形態検出装置開発のためのプライバシフレンドリな合成データ

Privacy-friendly Synthetic Data for the Development of Face Morphing Attack Detectors ( http://arxiv.org/abs/2203.06691v2 )

ライセンス: Link先を確認
Naser Damer, C\'esar Augusto Fontanillo L\'opez, Meiling Fang, No\'emie Spiller, Minh Vu Pham, Fadi Boutros(参考訳) モーフィング攻撃検出(MAD)ソリューションは、合成データに基づいて、うまく開発できるのか? . そこで本研究では,最初の合成型mad開発データセットであるsynthetic morphing attack detection development dataset (smdd)を提案する。 このデータセットは、3つのMADバックボーンのトレーニングに成功し、完全に未知の攻撃タイプでも高いMAD性能が証明された。 さらに、本研究の重要な側面は、実際の生体データの使用と共有の課題に関する詳細な法的分析であり、提案するsmddデータセットは非常に不可欠である。 SMDDデータセットは3万の攻撃と5万のボナフィドサンプルで構成され、研究目的で公開されている。

The main question this work aims at answering is: can morphing attack detection (MAD) solutions be successfully developed based on synthetic data?. Towards that, this work introduces the first synthetic-based MAD development dataset, namely the Synthetic Morphing Attack Detection Development dataset (SMDD). This dataset is utilized successfully to train three MAD backbones where it proved to lead to high MAD performance, even on completely unknown attack types. Additionally, an essential aspect of this work is the detailed legal analyses of the challenges of using and sharing real biometric data, rendering our proposed SMDD dataset extremely essential. The SMDD dataset, consisting of 30,000 attack and 50,000 bona fide samples, is made publicly available for research purposes.
翻訳日:2022-03-17 11:27:48 公開日:2022-03-16
# 超解像のためのリッチcnn変換機能アグリゲーションネットワーク

Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution ( http://arxiv.org/abs/2203.07682v2 )

ライセンス: Link先を確認
Jinsu Yoo, Taehoon Kim, Sihaeng Lee, Seung Hwan Kim, Honglak Lee, Tae Hyun Kim(参考訳) 近年の視覚トランスフォーマーは、様々なコンピュータビジョンタスクで有望な結果を得ている。 特に、純粋なトランスフォーマーベースの画像復元アーキテクチャは、多数のトレーニング可能なパラメータを持つマルチタスク事前トレーニングを用いて、既存のCNNベースの手法を超越している。 本稿では,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を利用して,SR結果をさらに改善する,高分解能タスクのための効果的なハイブリッドアーキテクチャを提案する。 具体的には, 変圧器と畳み込み分岐からなるアーキテクチャであり, それぞれの表現を補うために2つの分岐を相互に融合することにより, 性能を実質的に向上させる。 さらに,異なるスケールのトークン間の情報的関係を効率的に活用できる,クロススケールなトークンアテンションモジュールを提案する。 提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。

Recent vision transformers along with self-attention have achieved promising results on various computer vision tasks. In particular, a pure transformer-based image restoration architecture surpasses the existing CNN-based methods using multi-task pre-training with a large number of trainable parameters. In this paper, we introduce an effective hybrid architecture for super-resolution (SR) tasks, which leverages local features from CNNs and long-range dependencies captured by transformers to further improve the SR results. Specifically, our architecture comprises of transformer and convolution branches, and we substantially elevate the performance by mutually fusing two branches to complement each representation. Furthermore, we propose a cross-scale token attention module, which allows the transformer to efficiently exploit the informative relationships among tokens across different scales. Our proposed method achieves state-of-the-art SR results on numerous benchmark datasets.
翻訳日:2022-03-17 11:27:36 公開日:2022-03-16