このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220320となっている論文です。

PDF登録状況(公開日: 20220320)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 変圧器を用いたエキスパート混在型ロバストQAシステムの構築 [全文訳有]

Build a Robust QA System with Transformer-based Mixture of Experts ( http://arxiv.org/abs/2204.09598v1 )

ライセンス: CC BY 4.0
Yu Qing Zhou, Xixuan Julie Liu, Yuanzhe Dong(参考訳) 本稿では,ドメイン外データセットに適応可能な堅牢な質問応答システムの構築を目的とする。 1つのネットワークは、トレーニング分布における表面的相関に過度に適合するが、有意義な数のエキスパートサブネットワーク、入力毎に専門家の疎結合を選択するゲーティングネットワーク、エキスパートサブネットワークの重要性を慎重にバランスさせることにより、Mixture-of-Experts (MoE)モデルにより、ドメイン外のデータセットに一般化可能なマルチタスク学習者のトレーニングが可能になる。 また,moeルーティングアルゴリズムを単純化し,通信コストと計算コストを削減したswitch transformerアーキテクチャと類似した,sparsely-activated switch ffn層に置き換えることで,moe層をディチルバートの中央まで引き上げる可能性についても検討した。 モデルアーキテクチャに加えて,EDA(Easy Data Augmentation)やバックエンド翻訳といったデータ拡張技術についても検討し,ドメイン外の小さなトレーニングデータ間でより有意義なばらつきを生み出すことにより,モデルの性能と堅牢性を高める。 本稿では,最良のアーキテクチャとデータ拡張技術の組み合わせによって,ドメイン外評価において53.477 f1のスコアを達成できることを示し,ベースラインに対する9.52%のパフォーマンス向上を示す。 最終テストセットでは、59.506 F1と41.651 EMが報告された。 我々は、ロバストQAタスクにおけるMixture-of-Expertアーキテクチャの有効性を実証した。

In this paper, we aim to build a robust question answering system that can adapt to out-of-domain datasets. A single network may overfit to the superficial correlation in the training distribution, but with a meaningful number of expert sub-networks, a gating network that selects a sparse combination of experts for each input, and careful balance on the importance of expert sub-networks, the Mixture-of-Experts (MoE) model allows us to train a multi-task learner that can be generalized to out-of-domain datasets. We also explore the possibility of bringing the MoE layers up to the middle of the DistilBERT and replacing the dense feed-forward network with a sparsely-activated switch FFN layers, similar to the Switch Transformer architecture, which simplifies the MoE routing algorithm with reduced communication and computational costs. In addition to model architectures, we explore techniques of data augmentation including Easy Data Augmentation (EDA) and back translation, to create more meaningful variance among the small out-of-domain training data, therefore boosting the performance and robustness of our models. In this paper, we show that our combination of best architecture and data augmentation techniques achieves a 53.477 F1 score in the out-of-domain evaluation, which is a 9.52% performance gain over the baseline. On the final test set, we reported a higher 59.506 F1 and 41.651 EM. We successfully demonstrate the effectiveness of Mixture-of-Expert architecture in a Robust QA task.
翻訳日:2022-04-25 00:57:21 公開日:2022-03-20
# (参考訳) deltaキーワードトランスフォーマー:ダイナミックなマルチヘッドセルフアテンションによるトランスフォーマーのエッジへの導入 [全文訳有]

Delta Keyword Transformer: Bringing Transformers to the Edge through Dynamically Pruned Multi-Head Self-Attention ( http://arxiv.org/abs/2204.03479v1 )

ライセンス: CC BY-SA 4.0
Zuzana Jel\v{c}icov\'a and Marian Verhelst(参考訳) マルチヘッドセルフアテンションはトランスフォーマーネットワークのコアを形成する。 しかし、入力シーケンス長に関して2次的に増加する複雑さは、リソース制約されたエッジデバイスへのデプロイメントを妨げる。 本稿では,トークン間のデータの時間的安定性を利用して推論コストを削減する動的プルーニング手法を提案する。 しきい値に基づく手法は、後続のトークン間の大きな違いしか保持せず、乗算累積数と内部テンソルデータサイズを効果的に削減する。 このアプローチはキーワードスポッティングのためのgoogle speech commandsデータセット上で評価され、ベースラインキーワードトランスフォーマーと比較される。 実験の結果,元の98.4%の精度を維持しながら操作を約80%削減できることがわかった。 さらに、精度を1-4%低下させるだけで 87-94% の演算を削減でき、マルチヘッドの自己意図推論を 7.5-16 の係数で高速化できる。

Multi-head self-attention forms the core of Transformer networks. However, their quadratically growing complexity with respect to the input sequence length impedes their deployment on resource-constrained edge devices. We address this challenge by proposing a dynamic pruning method, which exploits the temporal stability of data across tokens to reduce inference cost. The threshold-based method only retains significant differences between the subsequent tokens, effectively reducing the number of multiply-accumulates , as well as the internal tensor data sizes. The approach is evaluated on the Google Speech Commands Dataset for keyword spotting, and the performance is compared against the baseline Keyword Transformer. Our experiments show that we can reduce ~80% of operations while maintaining the original 98.4% accuracy. Moreover, a reduction of ~87-94% operations can be achieved when only degrading the accuracy by 1-4%, speeding up the multi-head self-attention inference by a factor of ~7.5-16.
翻訳日:2022-04-10 13:25:50 公開日:2022-03-20
# (参考訳) 事前学習の目的は、大きな言語モデルが言語特性について学んだことにどのように影響しますか? [全文訳有]

How does the pre-training objective affect what large language models learn about linguistic properties? ( http://arxiv.org/abs/2203.10415v1 )

ライセンス: CC BY 4.0
Ahmed Alajrami and Nikolaos Aletras(参考訳) マスク言語モデリング(MLM)のような事前学習の目的は、より良い言語表現を学ぶことを目的として、事前訓練言語モデル(例えばBERT)に提案されている。 しかしながら、我々の知る限りでは、bertが言語学特性について学んだことに対して、事前学習目標の違いがどのように影響するか、これまでの研究は行われていない。 MLMのような言語的動機付けの目的は、人間が予測すべき入力とラベルの関係を推測することが困難で直感的でない他の非言語的動機付けの目的と比較して、BERTがより良い言語的知識を得るのに役立つと仮定する。 この目的のために,2つの言語的モチベーションと3つの非言語的モチベーションを持つBERTを事前訓練した。 次に,結果のモデル表現で符号化された言語特性について検討する。 2つの異なる目的によって学習された表現の間には,性能の差が小さいという強い証拠がある。 これらの驚くべき結果は、言語的にインフォームドされた事前学習における支配的な物語に疑問を呈する。

Several pre-training objectives, such as masked language modeling (MLM), have been proposed to pre-train language models (e.g. BERT) with the aim of learning better language representations. However, to the best of our knowledge, no previous work so far has investigated how different pre-training objectives affect what BERT learns about linguistics properties. We hypothesize that linguistically motivated objectives such as MLM should help BERT to acquire better linguistic knowledge compared to other non-linguistically motivated objectives that are not intuitive or hard for humans to guess the association between the input and the label to be predicted. To this end, we pre-train BERT with two linguistically motivated objectives and three non-linguistically motivated ones. We then probe for linguistic characteristics encoded in the representation of the resulting models. We find strong evidence that there are only small differences in probing performance between the representations learned by the two different types of objectives. These surprising results question the dominant narrative of linguistically informed pre-training.
翻訳日:2022-03-26 14:11:46 公開日:2022-03-20
# (参考訳) Attri-VAE: 可変オートエンコーダを用いた医用画像の属性ベース, 切り離し, 解釈可能な表現 [全文訳有]

Attri-VAE: attribute-based, disentangled and interpretable representations of medical images with variational autoencoders ( http://arxiv.org/abs/2203.10417v1 )

ライセンス: CC BY 4.0
Irem Cetin, Oscar Camara, Miguel Angel Gonzalez Ballester(参考訳) モデルの一部として解釈可能性を考慮する深層学習(DL)法は、臨床と画像に基づく属性とDL結果との関係をよりよく理解するために必要であり、医学的意思決定におけるそれらの利用を促進する。 可変オートエンコーダ(VAE)で構築された潜在空間表現は、データ属性の個別制御を保証しない。 属性の絡み合いを強制する属性ベースの手法は、ベンチマークデータの古典的コンピュータビジョンタスクの文献において提案されている。 本稿では,VAE手法であるAttri-VAEを提案する。この手法は,臨床画像と医用画像の属性を,生成された潜在空間の異なる正則化次元に関連付けるための属性正規化項を含む。 さらに,生成した注意マップは,正規化された潜在空間次元における属性エンコーディングを説明する。 Attri-VAEアプローチは、臨床、心臓形態学的、放射線学的特性を有する健常および心筋梗塞患者を解析した。 提案手法は, 再現性, 絡み合い, 解釈性に優れたトレードオフを与え, 定量的指標により, 最先端のvaeアプローチを上回った。 結果として生じる潜在空間は、2つの異なる入力サンプル間または特定の属性次元に沿って軌道内の現実的な合成データの生成を可能にし、異なる心臓状態間の変化をよりよく解釈した。

Deep learning (DL) methods where interpretability is intrinsically considered as part of the model are required to better understand the relationship of clinical and imaging-based attributes with DL outcomes, thus facilitating their use in reasoning medical decisions. Latent space representations built with variational autoencoders (VAE) do not ensure individual control of data attributes. Attribute-based methods enforcing attribute disentanglement have been proposed in the literature for classical computer vision tasks in benchmark data. In this paper, we propose a VAE approach, the Attri-VAE, that includes an attribute regularization term to associate clinical and medical imaging attributes with different regularized dimensions in the generated latent space, enabling a better disentangled interpretation of the attributes. Furthermore, the generated attention maps explained the attribute encoding in the regularized latent space dimensions. The Attri-VAE approach analyzed healthy and myocardial infarction patients with clinical, cardiac morphology, and radiomics attributes. The proposed model provided an excellent trade-off between reconstruction fidelity, disentanglement, and interpretability, outperforming state-of-the-art VAE approaches according to several quantitative metrics. The resulting latent space allowed the generation of realistic synthetic data in the trajectory between two distinct input samples or along a specific attribute dimension to better interpret changes between different cardiac conditions.
翻訳日:2022-03-26 14:00:51 公開日:2022-03-20
# (参考訳) MetaOnce: マルチシーンリレーションとエンティティ-リレーション-イベントゲームに基づくメタバースフレームワーク [全文訳有]

MetaOnce: A Metaverse Framework Based on Multi-scene Relations and Entity-relation-even t Game ( http://arxiv.org/abs/2203.10424v1 )

ライセンス: CC BY 4.0
Hongyin Zhu(参考訳) 既存のメタバースシステムは、エンティティとイベントの間の豊富な関係タイプを欠いている。 課題は、メタバースにリッチな概念、関係、イベントを導入するためのポータブルなフレームワークがないことです。 本稿ではメタバースフレームワークMetaOnceを紹介する。 このフレームワークはマルチシーングラフの構築を提案する。 このフレームワークは、単一のシーンでリッチな関係を記述するだけでなく、複数のシーングラフを完全なグラフに組み合わせ、より包括的な分析と推論を行う。 以前のソーシャルネットワークシステムは主に友人関係を記述している。 エンティティ-リレーショナル-イベントゲームがメタバースシステムと既存のルール制約に与える影響を無視する。 ルールコントローラを提案し,フレームワークが順応的に振る舞うことを可能にする関係に制約を課す。 我々は,フレームワークの機能をテストするメタバースシステムを構築し,実験結果から,メモリとルール制約を伴うマルチシーンメタバースを構築することができることを示す。

Existing metaverse systems lack rich relation types between entities and events. The challenge is that there is no portable framework to introduce rich concepts, relations, events into the metaverse. This paper introduces a new metaverse framework, MetaOnce. This framework proposes to build multi-scene graphs. This framework not only describes rich relations in a single scene but also combines multiple scene graphs into a complete graph for more comprehensive analysis and inference. Prior social network systems mainly describe friend relations. They ignore the effect of entity-relation-even t games on the metaverse system and existing rule constraints. We propose a rule controller and impose constraints on the relations that allow the framework to behave in a compliant manner. We build a metaverse system to test the features of the framework, and experimental results show that our framework can build a multi-scene metaverse with memory and rule constraints.
翻訳日:2022-03-26 13:22:31 公開日:2022-03-20
# (参考訳) STEMM:音声翻訳のための音声テキストマニフォールド混合による自己学習 [全文訳有]

STEMM: Self-learning with Speech-text Manifold Mixup for Speech Translation ( http://arxiv.org/abs/2203.10426v1 )

ライセンス: CC BY 4.0
Qingkai Fang, Rong Ye, Lei Li, Yang Feng, Mingxuan Wang(参考訳) 限定ラベル付きデータを用いたエンドツーエンド音声テキスト翻訳(ST)におけるより良い音声表現の学習法 既存の技術は、しばしば強力な機械翻訳(MT)機能をSTに転送しようとするが、モダリティ間の表現の不一致を無視する。 本稿では,このような不一致を校正するために,stemm法を提案する。 具体的には、異なるモダリティの表現列を混合し、翻訳モデルへの入力として単調な音声シーケンスとマルチモーダルな混合シーケンスの両方を並列に受け取り、その出力予測を自己学習フレームワークで正規化する。 MuST-C音声翻訳ベンチマークとさらなる解析実験により,提案手法はモーダル表現の不一致を効果的に軽減し,8つの翻訳方向の強いベースラインに対する大幅な改善を実現する。

How to learn a better speech representation for end-to-end speech-to-text translation (ST) with limited labeled data? Existing techniques often attempt to transfer powerful machine translation (MT) capabilities to ST, but neglect the representation discrepancy across modalities. In this paper, we propose the Speech-TExt Manifold Mixup (STEMM) method to calibrate such discrepancy. Specifically, we mix up the representation sequences of different modalities, and take both unimodal speech sequences and multimodal mixed sequences as input to the translation model in parallel, and regularize their output predictions with a self-learning framework. Experiments on MuST-C speech translation benchmark and further analysis show that our method effectively alleviates the cross-modal representation discrepancy, and achieves significant improvements over a strong baseline on eight translation directions.
翻訳日:2022-03-26 13:14:13 公開日:2022-03-20
# (参考訳) g2pW:マンダリンにおけるポリフォン曖昧化のための条件付き重み付きソフトマックスBERT [全文訳有]

g2pW: A Conditional Weighted Softmax BERT for Polyphone Disambiguation in Mandarin ( http://arxiv.org/abs/2203.10430v1 )

ライセンス: CC BY 4.0
Yi-Chang Chen and Yu-Chuan Chang and Yen-Cheng Chang and Yi-Ren Yeh(参考訳) ポリフォンの曖昧さは、マンダリン・グラデム・トゥ・音素変換(g2p)において最も重要な課題である。 従来の研究は、事前訓練された言語モデル、制限された出力、およびPart-Of-Speech (POS)タグ付けからの余分な情報により、この問題の恩恵を受けている。 この戦略に触発されて,学習可能なソフトマックスウェイトを適応させ,ポリフォニックな特徴を持つBERTの出力とPOSタグ付けを条件付ける,g2pWという新しい手法を提案した。 先行研究のようにハードマスクを使うのではなく, 音素候補に対するソフトウェイトリング関数の学習が, 性能に有益であることを示した。 我々のg2pWは、POSタグを補助機能として使用しながら、事前訓練されたPOSタグモデルを必要としない。 実験の結果、g2pWは公開データセット上の既存のメソッドよりも優れています。 すべてのコード、モデルウェイト、ユーザフレンドリーなパッケージが公開されている。

Polyphone disambiguation is the most crucial task in Mandarin grapheme-to-phoneme (g2p) conversion. Previous studies have benefited from this problem because of pre-trained language models, restricted output, and extra information from Part-Of-Speech (POS) tagging. Inspired by the strategies, we proposed a novel approach, called g2pW, which adapts learnable softmax-weights to condition the outputs of BERT with the polyphonic character of interest and its POS tagging. Rather than using the hard mask as in previous works, our experiments showed that learning a soft-weighting function for the candidate phonemes benefits performance. Besides, our g2pW does not require extra pre-trained POS tagging models while using POS tags as auxiliary features since we train the POS tagging model simultaneously with the unified encoder. The experiments show that our g2pW outperforms existing methods on the public dataset. All codes, model weights, and a user-friendly package are publicly available.
翻訳日:2022-03-26 12:38:36 公開日:2022-03-20
# (参考訳) 悲しみと抑うつの細粒度分類の解釈可能性 [全文訳有]

Interpretability of Fine-grained Classification of Sadness and Depression ( http://arxiv.org/abs/2203.10432v1 )

ライセンス: CC BY 4.0
Tiasa Singha Roy, Priyam Basu, Aman Priyanshu and Rakshit Naidu(参考訳) 悲しみは、人々が人生を通じて一定の時間に経験する人間の感情であり、感情的な失望と痛みを伴うが、うつ病は、社会的、職業的、その他の重要な機能領域を損なう長期的な精神疾患であり、より深刻な問題となり、早期に対処する必要がある。 NLP技術はこれらの感情の検出とその後の診断に利用できる。 web上のオープンソースのデータのほとんどは、その重大さの違いが巨大であるにも関わらず、感情として、うつ病の一部として悲しみを扱っている。 そこで我々は,この2つの違いを示す新しいデータセットを作成した。 本稿では,この2つの違いを強調し,悲しみと抑うつを区別するモデルがいかに解釈可能であるかを強調する。 このような情報の繊細な性質のため、そのようなデータの扱いやトレーニングにはプライバシー対策を講ずる必要がある。 したがって,フェデレート学習(FL)が文脈言語モデルに与える影響についても検討する。

While sadness is a human emotion that people experience at certain times throughout their lives, inflicting them with emotional disappointment and pain, depression is a longer term mental illness which impairs social, occupational, and other vital regions of functioning making it a much more serious issue and needs to be catered to at the earliest. NLP techniques can be utilized for the detection and subsequent diagnosis of these emotions. Most of the open sourced data on the web deal with sadness as a part of depression, as an emotion even though the difference in severity of both is huge. Thus, we create our own novel dataset illustrating the difference between the two. In this paper, we aim to highlight the difference between the two and highlight how interpretable our models are to distinctly label sadness and depression. Due to the sensitive nature of such information, privacy measures need to be taken for handling and training of such data. Hence, we also explore the effect of Federated Learning (FL) on contextualised language models.
翻訳日:2022-03-26 12:30:07 公開日:2022-03-20
# (参考訳) グラフトポロジー誘導最適輸送による微調整グラフニューラルネットワーク [全文訳有]

Fine-Tuning Graph Neural Networks via Graph Topology induced Optimal Transport ( http://arxiv.org/abs/2203.10453v1 )

ライセンス: CC BY 4.0
Jiying Zhang, Xi Xiao, Long-Kai Huang, Yu Rong and Yatao Bian(参考訳) 近年,グラフ学習コミュニティでは,多くの実世界のアプリケーションにおけるラベル問題を軽減する能力から,事前学習パラダイムが注目されている。 現在の研究では、画像やテキストデータから導かれる重み制約や表現制約といった既存の手法を用いて、不変知識を訓練前の段階から微調整段階へ転送している。 しかし、これらの手法はグラフ構造やグラフニューラルネットワーク(GNN)スタイルのモデルから不変性を保たなかった。 本稿では,GNNスタイルのバックボーンに対して,グラフトポロジーにより誘導される最適トランスポートファインチューニングフレームワークであるGTOT-Tuningを提案する。 GTOT-Tuningは、微調整ネットワークによって生成された表現の保存を強化するために、グラフデータの特性を利用する必要がある。 この目的に向けて,構造事前の最適伝達(ot)問題としてグラフ局所知識伝達を定式化し,微調整モデル動作を制約するgtot正則化器を構築する。 ノード間の隣接関係を利用することで、GTOT正規化器はノードレベルの最適輸送手順を達成し、冗長輸送手順を低減し、事前訓練されたモデルからの効率的な知識伝達をもたらす。 種々のGNNバックボーンを持つ8つの下流タスクに対してGTOT-Tuningを評価し,GNNに対して最先端の微調整性能を実現することを示す。

Recently, the pretrain-finetuning paradigm has attracted tons of attention in graph learning community due to its power of alleviating the lack of labels problem in many real-world applications. Current studies use existing techniques, such as weight constraint, representation constraint, which are derived from images or text data, to transfer the invariant knowledge from the pre-train stage to fine-tuning stage. However, these methods failed to preserve invariances from graph structure and Graph Neural Network (GNN) style models. In this paper, we present a novel optimal transport-based fine-tuning framework called GTOT-Tuning, namely, Graph Topology induced Optimal Transport fine-Tuning, for GNN style backbones. GTOT-Tuning is required to utilize the property of graph data to enhance the preservation of representation produced by fine-tuned networks. Toward this goal, we formulate graph local knowledge transfer as an Optimal Transport (OT) problem with a structural prior and construct the GTOT regularizer to constrain the fine-tuned model behaviors. By using the adjacency relationship amongst nodes, the GTOT regularizer achieves node-level optimal transport procedures and reduces redundant transport procedures, resulting in efficient knowledge transfer from the pre-trained models. We evaluate GTOT-Tuning on eight downstream tasks with various GNN backbones and demonstrate that it achieves state-of-the-art fine-tuning performance for GNNs.
翻訳日:2022-03-26 12:23:33 公開日:2022-03-20
# (参考訳) simCrossTrans: ConvNet または Vision Transformer を用いたオブジェクト検出のための簡易なクロスモーダルトランス学習 [全文訳有]

simCrossTrans: A Simple Cross-Modality Transfer Learning for Object Detection with ConvNets or Vision Transformers ( http://arxiv.org/abs/2203.10456v1 )

ライセンス: CC BY 4.0
Xiaoke Shen, Ioannis Stamos(参考訳) 転送学習はコンピュータビジョン(cv)、自然言語処理(nlp)で広く使われ、大きな成功を収めている。 ほとんどの転送学習システムは、同じモダリティ(例えば、CVのRGB画像とNLPのテキスト)に基づいている。 しかし、cmtl(cross-modality transfer learning)システムは少ない。 本研究では,2次元から3次元のセンサからCMTLを探索し,ロボットナビゲーションにおいて重要な役割を担い,低照度シナリオにおいて良好に機能する3次元センサのみの性能について検討する。 2dから3dへのcmtlパイプラインの多くは複雑で畳み込みニューラルネットワーク(convnets)に基づいているが、convnetsとvision transformers(vits)の両方の実装、拡張、ベースが容易である。 1) 点群を疑似画像に変換することにより, 2次元画像に基づく事前学習モデルからほぼ同一のネットワークを使用できる。 これにより、システムの実装と拡張が容易になります。 2) 近年, 3次元視覚システムの性能低下の要因の一つとして, 閉塞に対して高い性能と堅牢性を示した。 同様のモデルサイズでViTとConvNetを探索し,性能差について検討した。 われわれのアプローチをsimCrossTrans: ConvNets や ViTs を用いた単純なクロスモーダルトランスファー学習と呼ぶ。 SUN RGB-Dデータセットの実験では、simCrossTransでは、ConvNetsとViTsを別々にベースとした13.2\%と16.1\%の絶対的なパフォーマンス向上を実現しています。 また、ViTsベースの性能はConvNetsより9.7\%高いことを観察し、simCrossTrans with ViTのパワーを示した。 simCrossTrans with ViTsは、以前の最先端(SOTA)を+15.4\%$ mAP50で上回っている。 従来の2D検出SOTAベースのRGB画像と比較すると、奥行き画像のみのシステムは1\%のギャップしか持たない。 コード、トレーニング/推論ログ、モデルはhttps://github.com/l iketheflower/simCros sTransで公開されている。

Transfer learning is widely used in computer vision (CV), natural language processing (NLP) and achieves great success. Most transfer learning systems are based on the same modality (e.g. RGB image in CV and text in NLP). However, the cross-modality transfer learning (CMTL) systems are scarce. In this work, we study CMTL from 2D to 3D sensor to explore the upper bound performance of 3D sensor only systems, which play critical roles in robotic navigation and perform well in low light scenarios. While most CMTL pipelines from 2D to 3D vision are complicated and based on Convolutional Neural Networks (ConvNets), ours is easy to implement, expand and based on both ConvNets and Vision transformers(ViTs): 1) By converting point clouds to pseudo-images, we can use an almost identical network from pre-trained models based on 2D images. This makes our system easy to implement and expand. 2) Recently ViTs have been showing good performance and robustness to occlusions, one of the key reasons for poor performance of 3D vision systems. We explored both ViT and ConvNet with similar model sizes to investigate the performance difference. We name our approach simCrossTrans: simple cross-modality transfer learning with ConvNets or ViTs. Experiments on SUN RGB-D dataset show: with simCrossTrans we achieve $13.2\%$ and $16.1\%$ absolute performance gain based on ConvNets and ViTs separately. We also observed the ViTs based performs $9.7\%$ better than the ConvNets one, showing the power of simCrossTrans with ViT. simCrossTrans with ViTs surpasses the previous state-of-the-art (SOTA) by a large margin of $+15.4\%$ mAP50. Compared with the previous 2D detection SOTA based RGB images, our depth image only system only has a $1\%$ gap. The code, training/inference logs and models are publicly available at https://github.com/l iketheflower/simCros sTrans
翻訳日:2022-03-26 11:45:59 公開日:2022-03-20
# (参考訳) ビデオ超解像のための光学流:サーベイ

Optical Flow for Video Super-Resolution: A Survey ( http://arxiv.org/abs/2203.10462v1 )

ライセンス: CC BY 4.0
Zhigang Tu, Hongyan Li, Wei Xie, Yuanzhong Liu, Shifu Zhang, Baoxin Li, Junsong Yuan(参考訳) ビデオスーパーレゾリューションは、多くの視覚アプリケーションで重要な役割を果たすため、コンピュータビジョンにおける最も活発な研究トピックの1つである。 一般に、ビデオ超解像は、時間的アライメントのために連続するビデオフレーム間の変位を推定するために使用される動き補償という重要な成分を含む。 連続するフレーム間の密度とサブピクセルの動きを供給できる光の流れは、このタスクの最も一般的な方法の一つである。 映像の超解像における光学的流れの効果をよく理解するために,本研究では,この課題を初めて包括的に検討する。 この調査は、超解像の機能(すなわち、超解像を必要とする理由)、ビデオ超解像の概念(すなわち、ビデオ超解像であるもの)、評価指標の記述(すなわち、超解像がどのように機能するか)、光学フローに基づくビデオ超解像の導入、ビデオ超解像の時間依存性を捉えるための光フローの利用に関する調査を含む。 本研究では,いくつかの代表的なアルゴリズムを分析し比較する深層学習型ビデオスーパーレゾリューション法について,詳細な研究を行った。 さらに,今後の課題として,今後の研究の方向性と課題を明らかにする。

Video super-resolution is currently one of the most active research topics in computer vision as it plays an important role in many visual applications. Generally, video super-resolution contains a significant component, i.e., motion compensation, which is used to estimate the displacement between successive video frames for temporal alignment. Optical flow, which can supply dense and sub-pixel motion between consecutive frames, is among the most common ways for this task. To obtain a good understanding of the effect that optical flow acts in video super-resolution, in this work, we conduct a comprehensive review on this subject for the first time. This investigation covers the following major topics: the function of super-resolution (i.e., why we require super-resolution); the concept of video super-resolution (i.e., what is video super-resolution); the description of evaluation metrics (i.e., how (video) superresolution performs); the introduction of optical flow based video super-resolution; the investigation of using optical flow to capture temporal dependency for video super-resolution. Prominently, we give an in-depth study of the deep learning based video super-resolution method, where some representative algorithms are analyzed and compared. Additionally, we highlight some promising research directions and open issues that should be further addressed.
翻訳日:2022-03-26 11:25:50 公開日:2022-03-20
# (参考訳) ディープニューラルネットワークの高効率適応のための一方向薄膜アダプタ [全文訳有]

{Unidirectional Thin Adapter for Efficient Adaptation of Deep Neural Networks ( http://arxiv.org/abs/2203.10463v1 )

ライセンス: CC BY 4.0
Han Gyel Sun (1), Hyunjae Ahn (1), HyunGyu Lee (1), Injung Kim (1) ((1) Handong Global University)(参考訳) 本稿では,学習済みのディープニューラルネットワークを最小限の計算量で対象領域に適応させる新しいアダプタネットワークを提案する。 提案モデルであるUDTAは、バックボーンネットワークを補完する補助機能を提供することで、分類器が新しいデータに適応するのに役立つ。 UDTAは、バックボーンの複数のレイヤからの出力を入力機能として取り込むが、バックボーンにいかなる機能も送信しない。 その結果、UDTAはバックボーンの勾配を計算せずに学習でき、トレーニングのための計算を大幅に節約できる。 さらに、UDTAはバックボーンを変更することなくターゲットタスクを学習するため、単一のバックボーンはUDTAのみを個別に学習することで複数のタスクに適応することができる。 少数のサンプルからなる5つの細粒度分類データセットの実験では、udtaはバックプロパゲーションに必要な計算とトレーニング時間を著しく削減し、従来のアダプタモデルと同等あるいはそれ以上の精度を示した。

In this paper, we propose a new adapter network for adapting a pre-trained deep neural network to a target domain with minimal computation. The proposed model, unidirectional thin adapter (UDTA), helps the classifier adapt to new data by providing auxiliary features that complement the backbone network. UDTA takes outputs from multiple layers of the backbone as input features but does not transmit any feature to the backbone. As a result, UDTA can learn without computing the gradient of the backbone, which saves computation for training significantly. In addition, since UDTA learns the target task without modifying the backbone, a single backbone can adapt to multiple tasks by learning only UDTAs separately. In experiments on five fine-grained classification datasets consisting of a small number of samples, UDTA significantly reduced computation and training time required for backpropagation while showing comparable or even improved accuracy compared with conventional adapter models.
翻訳日:2022-03-26 11:10:10 公開日:2022-03-20
# (参考訳) Inspection-L:Bitcoin の実用的なGNNマネーロンダリング検知システム [全文訳有]

Inspection-L: Practical GNN-Based Money Laundering Detection System for Bitcoin ( http://arxiv.org/abs/2203.10465v1 )

ライセンス: CC BY-SA 4.0
Wai Weng Lo, Siamak Layeghy and Marius Portmann(参考訳) 犯罪者はビットコインなどの暗号通貨をマネーロンダリングに利用する経験が増えている。 暗号通貨を利用することで、犯罪者の身元を隠し、犯罪デジタルウォレットを通じて何億ドルもの汚い資金を送ることができる。 しかし、暗号通貨はオープンソースインテリジェンスのための金鉱であり、法執行機関が法医学的な分析を行うのにより多くの権限を持つことができるため、これはパラドックスであると考えられている。 本稿では,自己教師付きディープグラフインフォマックス(dgi)とランダムフォレスト(rf)を用いた,アンチマネーロンダリング(aml)のための不正取引検出のためのグラフニューラルネットワーク(gnn)フレームワークであるinspective-lを提案する。 私たちの知る限りでは、BitcoinにおけるAMLの問題に自己監督型GNNを適用するのは、私たちの提案が初めてです。 提案手法はEllipticデータセットを用いて評価され,暗号不正取引検出における自己教師型GNNの可能性を示すキー分類指標を用いて,最先端の手法よりも優れていることを示す。

Criminals have become increasingly experienced in using cryptocurrencies, such as Bitcoin, for money laundering. The use of cryptocurrencies can hide criminal identities and transfer hundreds of millions of dollars of dirty funds through their criminal digital wallets. However, this is considered a paradox because cryptocurrencies are gold mines for open-source intelligence, allowing law enforcement agencies to have more power in conducting forensic analyses. This paper proposed Inspection-L, a graph neural network (GNN) framework based on self-supervised Deep Graph Infomax (DGI), with Random Forest (RF), to detect illicit transactions for Anti-Money laundering (AML). To the best of our knowledge, our proposal is the first of applying self-supervised GNNs to the problem of AML in Bitcoin. The proposed method has been evaluated on the Elliptic dataset and shows that our approach outperforms the state-of-the-art in terms of key classification metrics, which demonstrates the potential of self-supervised GNN in cryptocurrency illicit transaction detection.
翻訳日:2022-03-26 10:55:25 公開日:2022-03-20
# (参考訳) 次世代IEEE 802.11 WLANにおけるフェデレーション空間再利用最適化 [全文訳有]

Federated Spatial Reuse Optimization in Next-Generation Decentralized IEEE 802.11 WLANs ( http://arxiv.org/abs/2203.10472v1 )

ライセンス: CC BY 4.0
Francesc Wilhelmi, Jernej Hribar, Selim F. Yilmaz, Emre Ozfatura, Kerem Ozfatura, Ozlem Yildiz, Deniz G\"und\"uz, Hao Chen, Xiaoying Ye, Lizhao You, Yulin Shao, Paolo Dini, Boris Bellalta(参考訳) ワイヤレス標準が進化するにつれて、スループット、レイテンシ、セキュリティ、効率性の面で要求の増大に対応するために、より複雑な機能が導入される。 このような新機能の可能性を解き放つため、人工知能(AI)と機械学習(ML)は現在、ハンドプログラミングではなく、データからモデルやプロトコルを導出するために利用されている。 本稿では,次世代無線ローカルネットワーク(WLAN)におけるMLの適用可能性について検討する。 具体的には,IEEE 802.11ax空間再利用(SR)問題に着目し,その性能をFLモデルを用いて予測する。 この研究で概説されたFLソリューションのセットは、2021年のITU(International Telecommunication Union) AI for 5G Challengeの一部である。

As wireless standards evolve, more complex functionalities are introduced to address the increasing requirements in terms of throughput, latency, security, and efficiency. To unleash the potential of such new features, artificial intelligence (AI) and machine learning (ML) are currently being exploited for deriving models and protocols from data, rather than by hand-programming. In this paper, we explore the feasibility of applying ML in next-generation wireless local area networks (WLANs). More specifically, we focus on the IEEE 802.11ax spatial reuse (SR) problem and predict its performance through federated learning (FL) models. The set of FL solutions overviewed in this work is part of the 2021 International Telecommunication Union (ITU) AI for 5G Challenge.
翻訳日:2022-03-26 10:43:34 公開日:2022-03-20
# (参考訳) SimAN: 類似性を考慮した正規化によるシーンテキストの自己教師付き表現学習 [全文訳有]

SimAN: Exploring Self-Supervised Representation Learning of Scene Text via Similarity-Aware Normalization ( http://arxiv.org/abs/2203.10492v1 )

ライセンス: CC BY 4.0
Canjie Luo, Lianwen Jin, Jingdong Chen(参考訳) 近年,シーンテキスト認識コミュニティから自己指導型表現学習が注目されている。 コントラスト学習を用いた従来の研究とは違って,表現学習の枠組みを生成的に定式化することで,別の観点から問題に取り組む。 典型的には、隣接するテキスト行のイメージパッチは、ストローク、テクスチャ、色など、類似したスタイルを持つ傾向にある。 この常識によって、イメージパッチを1つ増やし、隣接するパッチをガイダンスとして使用して、自分自身を回復します。 具体的には、異なるパターンを特定し、対応するスタイルを導くための類似性認識正規化(siman)モジュールを提案する。 このように、ネットワークは乱雑なストロークやごちゃごちゃした背景といった複雑なパターンを区別する表現能力を得る。 実験の結果,提案したSimANは表現品質を著しく向上し,有望な性能を実現することがわかった。 さらに、我々の自己教師型生成ネットワークは、データ合成、テキスト画像編集、フォント補間など、驚くほどの可能性を秘めており、提案したSimANには幅広い実用的な応用があることが示唆されている。

Recently self-supervised representation learning has drawn considerable attention from the scene text recognition community. Different from previous studies using contrastive learning, we tackle the issue from an alternative perspective, i.e., by formulating the representation learning scheme in a generative manner. Typically, the neighboring image patches among one text line tend to have similar styles, including the strokes, textures, colors, etc. Motivated by this common sense, we augment one image patch and use its neighboring patch as guidance to recover itself. Specifically, we propose a Similarity-Aware Normalization (SimAN) module to identify the different patterns and align the corresponding styles from the guiding patch. In this way, the network gains representation capability for distinguishing complex patterns such as messy strokes and cluttered backgrounds. Experiments show that the proposed SimAN significantly improves the representation quality and achieves promising performance. Moreover, we surprisingly find that our self-supervised generative network has impressive potential for data synthesis, text image editing, and font interpolation, which suggests that the proposed SimAN has a wide range of practical applications.
翻訳日:2022-03-26 09:52:36 公開日:2022-03-20
# (参考訳) ディープニューラルネットワークにおける逆パラメータ攻撃 [全文訳有]

Adversarial Parameter Attack on Deep Neural Networks ( http://arxiv.org/abs/2203.10502v1 )

ライセンス: CC BY 4.0
Lijia Yu and Yihan Wang and Xiao-Shan Gao(参考訳) 本稿では, DNNに対する新たなパラメータ摂動攻撃(逆パラメータ攻撃)を提案し, DNNのパラメータに対する小さな摂動を, 攻撃されたDNNの精度を低下させることなく, その堅牢性を大幅に低下させる。 逆パラメータ攻撃は,ユーザの認識が困難であり,攻撃されたdnnは,変更したサンプル入力に対して,高い確率で誤ったラベルを与えるという点で,以前のパラメータ摂動攻撃よりも強い。 敵パラメータの存在が証明される。 ある条件を満たすパラメータセット $\theta$ を持つ dnn $f_{\theta}$ に対して、dnn の深さが十分大きいとすると、$f_{\theta_a}$ の精度が$f_{\theta}$ の精度と等しいような逆パラメータセット $\theta_a$ for $\theta$ が存在するが、$f_{\theta_a}$ のロバスト性測度は任意の境界よりも小さいことが示される。 対向パラメータを計算するための効果的なトレーニングアルゴリズムが与えられ、そのアルゴリズムが高品質の対向パラメータを生成するのに有効であることを示す数値実験が用いられる。

In this paper, a new parameter perturbation attack on DNNs, called adversarial parameter attack, is proposed, in which small perturbations to the parameters of the DNN are made such that the accuracy of the attacked DNN does not decrease much, but its robustness becomes much lower. The adversarial parameter attack is stronger than previous parameter perturbation attacks in that the attack is more difficult to be recognized by users and the attacked DNN gives a wrong label for any modified sample input with high probability. The existence of adversarial parameters is proved. For a DNN $F_{\Theta}$ with the parameter set $\Theta$ satisfying certain conditions, it is shown that if the depth of the DNN is sufficiently large, then there exists an adversarial parameter set $\Theta_a$ for $\Theta$ such that the accuracy of $F_{\Theta_a}$ is equal to that of $F_{\Theta}$, but the robustness measure of $F_{\Theta_a}$ is smaller than any given bound. An effective training algorithm is given to compute adversarial parameters and numerical experiments are used to demonstrate that the algorithms are effective to produce high quality adversarial parameters.
翻訳日:2022-03-26 09:22:59 公開日:2022-03-20
# (参考訳) 注意支援型CSI無線局 [全文訳有]

Attention Aided CSI Wireless Localization ( http://arxiv.org/abs/2203.10506v1 )

ライセンス: CC BY 4.0
Artan Salihu, Stefan Schwarz, Markus Rupp(参考訳) ディープニューラルネットワーク(DNN)は、チャネル状態情報(CSI)に基づいた無線ローカライゼーションの一般的なアプローチとなっている。 一般的には、入力に生のCSIを使用し、ネットワークが位置情報にマッピングするための関連するチャネル表現を学習できるようにする。 しかし、様々な研究により、生のCSIはシステム障害や環境の変化に非常に敏感であることが示されている。 反対に、ハンドデザイン機能はdnnのチャネル表現学習の限界を妨げる可能性がある。 本研究では,ロバストな特徴学習のための注意型CSIを提案する。 我々は,2つの非定常線路環境におけるレイトレーシングチャネルの集中分散MIMOシステムの性能評価を行った。 ベースDNNと比較して,本手法は例外的な性能を提供する。

Deep neural networks (DNNs) have become a popular approach for wireless localization based on channel state information (CSI). A common practice is to use the raw CSI in the input and allow the network to learn relevant channel representations for mapping to location information. However, various works show that raw CSI can be very sensitive to system impairments and small changes in the environment. On the contrary, hand-designing features may hinder the limits of channel representation learning of the DNN. In this work, we propose attention-based CSI for robust feature learning. We evaluate the performance of attended features in centralized and distributed massive MIMO systems for ray-tracing channels in two non-stationary railway track environments. By comparison to a base DNN, our approach provides exceptional performance.
翻訳日:2022-03-26 08:17:31 公開日:2022-03-20
# (参考訳) Soft-CP:医療病変のセマンティックセグメンテーションのための信頼性と効果的なデータ拡張 [全文訳有]

Soft-CP: A Credible and Effective Data Augmentation for Semantic Segmentation of Medical Lesions ( http://arxiv.org/abs/2203.10507v1 )

ライセンス: CC BY 4.0
Pingping Dai, Licong Dong, Ruihan Zhang, Haiming Zhu, Jie Wu, Kehong Yuan(参考訳) 医療データセットは通常、不足とデータ不均衡の問題に直面している。 さらに、医学的病変のセグメンテーションのための大規模なデータセットの注釈付けには、ドメイン知識と時間を要する。 本稿では,医療病変のセマンティックセグメンテーションをオフラインで行うための Copy-Paste Augmentation 法を組み合わせた新しいオブジェクトブレンド法(ソフトCPではショート)を提案する。 画像の異なる複数のデータセットを用いて,本手法の有効性を検証した。 KiTS19[2]データセットの実験では、Soft-CPは既存の医療病変合成手法よりも優れている。 Soft-CPの強化により、低データレジームでは+26.5%のDSC(データの10%)、高データレジームでは+10.2%のDSC(全データ)が増加し、オフラインのトレーニングデータでは、実画像と合成画像の比率は3:1となる。

The medical datasets are usually faced with the problem of scarcity and data imbalance. Moreover, annotating large datasets for semantic segmentation of medical lesions is domain-knowledge and time-consuming. In this paper, we propose a new object-blend method(short in soft-CP) that combines the Copy-Paste augmentation method for semantic segmentation of medical lesions offline, ensuring the correct edge information around the lession to solve the issue above-mentioned. We proved the method's validity with several datasets in different imaging modalities. In our experiments on the KiTS19[2] dataset, Soft-CP outperforms existing medical lesions synthesis approaches. The Soft-CP augementation provides gains of +26.5% DSC in the low data regime(10% of data) and +10.2% DSC in the high data regime(all of data), In offline training data, the ratio of real images to synthetic images is 3:1.
翻訳日:2022-03-26 08:07:54 公開日:2022-03-20
# (参考訳) 大規模TO設計のための適応的かつスケーラブルなANNモデル次数還元法 [全文訳有]

An Adaptive and Scalable ANN-based Model-Order-Reductio n Method for Large-Scale TO Designs ( http://arxiv.org/abs/2203.10515v1 )

ライセンス: CC BY 4.0
Ren Kai Tan, Chao Qian, Dan Xu, Wenjing Ye(参考訳) トポロジー最適化(TO)は、興味のある最適な性能で構造設計を得るための体系的なアプローチを提供する。 しかし、このプロセスでは各イテレーションにおける目的関数と制約の数値的な評価が必要であり、特に大規模設計において計算コストがかかる。 ディープラーニングベースのモデルは、シミュレーションプロセスを置き換える代理モデルとして機能するか、最適化プロセスを完全に置き換えるかによって、プロセスを加速するために開発されている。 しかし、それらのほとんどは、主にシミュレーションによって生成される大量のラベル付きトレーニングデータを必要とする。 データ生成時間は設計ドメインサイズとともに急速にスケールし、メソッド自体の効率が低下する。 もう一つの大きな問題は、ほとんどのディープラーニングモデルの弱い一般化性である。 ほとんどのモデルは、データ生成によく似た設計問題を扱うように訓練されており、もし設計問題が変わったら再訓練を必要とする。 本研究では,粗大から微大までの関心分野をマッピングするニューラルネットワークであるmapnetを用いて,大規模処理を高速化するために,スケーラブルなディープラーニングに基づくモデルオーダリダクション手法を提案する。 提案手法では,TOプロセスの各シミュレーションを粗いメッシュで行うことができ,計算時間を大幅に短縮することができる。 さらに、ドメインフラグメンテーションを用いることで、mapnetの転送性が大幅に向上する。 具体的には、あるカンチレバービーム設計から特定の荷重条件でデータを用いて訓練されたmapnetが、ドメイン形状、サイズ、境界および荷重条件の異なる他の構造設計問題に直接適用できることを実証した。

Topology Optimization (TO) provides a systematic approach for obtaining structure design with optimum performance of interest. However, the process requires numerical evaluation of objective function and constraints at each iteration, which is computational expensive especially for large-scale design. Deep learning-based models have been developed to accelerate the process either by acting as surrogate models replacing the simulation process, or completely replacing the optimization process. However, most of them require a large set of labelled training data, which are generated mostly through simulations. The data generation time scales rapidly with the design domain size, decreasing the efficiency of the method itself. Another major issue is the weak generalizability of most deep learning models. Most models are trained to work with the design problem similar to that used for data generation and require retraining if the design problem changes. In this work a scalable deep learning-based model-order-reductio n method is proposed to accelerate large-scale TO process, by utilizing MapNet, a neural network which maps the field of interest from coarse-scale to fine-scale. The proposed method allows for each simulation of the TO process to be performed at a coarser mesh, thereby greatly reducing the total computational time. Moreover, by using domain fragmentation, the transferability of the MapNet is largely improved. Specifically, it has been demonstrated that the MapNet trained using data from one cantilever beam design with a specific loading condition can be directly applied to other structure design problems with different domain shapes, sizes, boundary and loading conditions.
翻訳日:2022-03-26 07:57:04 公開日:2022-03-20
# (参考訳) 計算シミュレーションのための患者画像から全心メッシュ生成を学習する [全文訳有]

Learning Whole Heart Mesh Generation From Patient Images For Computational Simulations ( http://arxiv.org/abs/2203.10517v1 )

ライセンス: CC BY 4.0
Fanwei Kong, Shawn Shadden(参考訳) 患者固有の心臓モデリングは、医療画像から得られた心臓のジオメトリーと生体物理シミュレーションを組み合わせて、心臓機能の様々な側面を予測する。 しかし、患者画像データから心臓のシミュレーションに適したモデルを生成するには、しばしば複雑な手順と重要な人間の努力が必要となる。 医用画像から心臓のシミュレーションに適したモデルを構築するための高速かつ自動化されたディープラーニング手法を提案する。 このアプローチは、心臓テンプレート全体の変形ハンドルの小さなセットを変形させることで、3d患者画像からのメッシュを構築する。 3次元CTとMRデータの両方において,本手法は心のシミュレーションに適したメッシュ構築における先行手法より一貫して優れ,心全体の再構築に有望な精度を達成する。 時系列CTデータを用いて評価すると, 従来の方法よりも解剖学的, 時間的整合性のあるジオメトリが得られ, 心臓血流シミュレーションのモデリング要求を満足するジオメトリが得られた。 ソースコードはGitHubで入手できます。

Patient-specific cardiac modeling combines geometries of the heart derived from medical images and biophysical simulations to predict various aspects of cardiac function. However, generating simulation-suitable models of the heart from patient image data often requires complicated procedures and significant human effort. We present a fast and automated deep-learning method to construct simulation-suitable models of the heart from medical images. The approach constructs meshes from 3D patient images by learning to deform a small set of deformation handles on a whole heart template. For both 3D CT and MR data, this method achieves promising accuracy for whole heart reconstruction, consistently outperforming prior methods in constructing simulation-suitable meshes of the heart. When evaluated on time-series CT data, this method produced more anatomically and temporally consistent geometries than prior methods, and was able to produce geometries that better satisfy modeling requirements for cardiac flow simulations. Our source code will be available on GitHub.
翻訳日:2022-03-26 07:42:07 公開日:2022-03-20
# (参考訳) 職業の学習:人間-ロボットインタラクションにおける長期行動適応 [全文訳有]

Learning on the Job: Long-Term Behavioural Adaptation in Human-Robot Interactions ( http://arxiv.org/abs/2203.10518v1 )

ライセンス: CC BY-SA 4.0
Francesco Del Duchetto and Marc Hanheide(参考訳) 本研究では,公共空間に長時間展開する自律ロボットが,ユーザインタラクションから自身の行動にオンラインで適応するためのフレームワークを提案する。 ロボットの行動計画(robot behavior planning)は強化学習(rl)フレームワークに埋め込まれている。 実時間インタラクションのための探索・探索トレードオフを管理する上で有用な方法として,上信頼境界値イテレーションアルゴリズム(UCBVI)を用いる。 エンドツーエンドで訓練されたエンゲージメントモデルは、ポリシー実行中にリアルタイムで報酬関数を生成する。 我々はこのアプローチをリンカーンの公共博物館でテストし、訪問客のためのツアーガイドとしてロボットを配置した。 その結果、数ヶ月の探索を経て、ロボットポリシーは、ツアー中に訪問したアイテム数の最初の静的ポリシーよりも22.8%増加し、ツアーを完了する確率は30%上昇した。 本研究は,ロボット工学における長期シナリオにおける行動適応への有望な一歩である。

In this work, we propose a framework for allowing autonomous robots deployed for extended periods of time in public spaces to adapt their own behaviour online from user interactions. The robot behaviour planning is embedded in a Reinforcement Learning (RL) framework, where the objective is maximising the level of overall user engagement during the interactions. We use the Upper-Confidence-Bou nd Value-Iteration (UCBVI) algorithm, which gives a helpful way of managing the exploration-exploita tion trade-off for real-time interactions. An engagement model trained end-to-end generates the reward function in real-time during policy execution. We test this approach in a public museum in Lincoln (UK), where the robot is deployed as a tour guide for the visitors. Results show that after a couple of months of exploration, the robot policy learned to maintain the engagement of users for longer, with an increase of 22.8% over the initial static policy in the number of items visited during the tour and a 30% increase in the probability of completing the tour. This work is a promising step toward behavioural adaptation in long-term scenarios for robotics applications in social settings.
翻訳日:2022-03-26 07:02:05 公開日:2022-03-20
# (参考訳) 複数のソーシャルメディアプラットフォームにわたる説明可能な誤情報検出 [全文訳有]

Explainable Misinformation Detection Across Multiple Social Media Platforms ( http://arxiv.org/abs/2203.11724v1 )

ライセンス: CC BY 4.0
Rahee Walambe, Ananya Srivastava, Bhargav Yagnik, Mohammed Hasan, Zainuddin Saiyed, Gargi Joshi, Ketan Kotecha(参考訳) 本稿では,2つの機械学習手法,すなわちドメイン適応と説明可能なaiの統合を提案し,これら2つの課題に対する一般化検出と説明可能性について論じる。 まず、dann(domain adversarial neural network)は、複数のソーシャルメディアプラットフォームにまたがる汎用的誤情報検出装置を開発し、関連するが見当たらないデータを含むテスト領域の分類結果を生成する。 従来のブラックボックスモデルであるDANNベースのモデルは、その結果、すなわちターゲットドメインのラベルを正当化することができない。 したがって、DANNモードの結果を説明するために、LIME(Local Interpretable Model-Agnostic Explanations)説明可能なAIモデルを適用する。 これらの2つのアプローチとその統合を効果的に説明可能な一般化検出のために示すために、新型コロナウイルスの誤情報がケーススタディであると考えられる。 我々はCoAIDとMiSoVacという2つのデータセットを実験し、DANNの実装の有無を比較した。 DANNは精度測定F1分類スコアを大幅に改善し、精度とAUC性能を向上させる。 その結果,提案フレームワークはドメインシフトの場合には良好に動作し,LIME実装を用いて対象ラベルを記述しながらドメイン不変の特徴を学習し,信頼に足る情報処理と抽出を効果的に行うことができることがわかった。

In this work, the integration of two machine learning approaches, namely domain adaptation and explainable AI, is proposed to address these two issues of generalized detection and explainability. Firstly the Domain Adversarial Neural Network (DANN) develops a generalized misinformation detector across multiple social media platforms DANN is employed to generate the classification results for test domains with relevant but unseen data. The DANN-based model, a traditional black-box model, cannot justify its outcome, i.e., the labels for the target domain. Hence a Local Interpretable Model-Agnostic Explanations (LIME) explainable AI model is applied to explain the outcome of the DANN mode. To demonstrate these two approaches and their integration for effective explainable generalized detection, COVID-19 misinformation is considered a case study. We experimented with two datasets, namely CoAID and MiSoVac, and compared results with and without DANN implementation. DANN significantly improves the accuracy measure F1 classification score and increases the accuracy and AUC performance. The results obtained show that the proposed framework performs well in the case of domain shift and can learn domain-invariant features while explaining the target labels with LIME implementation enabling trustworthy information processing and extraction to combat misinformation effectively.
翻訳日:2022-03-26 06:45:38 公開日:2022-03-20
# (参考訳) 嗜好変化の重要性の認識--AI時代における協調型多分野研究への呼びかけ [全文訳有]

Recognising the importance of preference change: A call for a coordinated multidisciplinary research effort in the age of AI ( http://arxiv.org/abs/2203.10525v1 )

ライセンス: CC BY 4.0
Matija Franklin, Hal Ashton, Rebecca Gorman, Stuart Armstrong(参考訳) 人工知能がより強力になり、日常生活におけるユビキタスな存在になるにつれて、私たちの生活や決定に対するAIシステムの影響を理解し、管理することが不可欠である。 現代のMLシステムは、しばしばユーザの振る舞いを変える(例えば、パーソナライズされたレコメンデーションシステムは、オンラインの振る舞いを変えるレコメンデーションを提供するために、ユーザの好みを学ぶ)。 行動変化の外部性は嗜好変化である。 この記事では、AIシステムの嗜好の変化を理解することに焦点を当てた、多分野的な取り組みの確立を論じる。 我々は,様々な分野の概念を取り入れることに対する選好を運用し,メタ参照と選好変更の選好の重要性を概説し,選好がどう変化するかの予備的枠組みを提案する。 我々は,嗜好変化,許容嗜好変化,不正確な嗜好操作を区別する。 規律の多様性は、このフレームワークにユニークな洞察をもたらします。

As artificial intelligence becomes more powerful and a ubiquitous presence in daily life, it is imperative to understand and manage the impact of AI systems on our lives and decisions. Modern ML systems often change user behavior (e.g. personalized recommender systems learn user preferences to deliver recommendations that change online behavior). An externality of behavior change is preference change. This article argues for the establishment of a multidisciplinary endeavor focused on understanding how AI systems change preference: Preference Science. We operationalize preference to incorporate concepts from various disciplines, outlining the importance of meta-preferences and preference-change preferences, and proposing a preliminary framework for how preferences change. We draw a distinction between preference change, permissible preference change, and outright preference manipulation. A diversity of disciplines contribute unique insights to this framework.
翻訳日:2022-03-26 06:28:50 公開日:2022-03-20
# (参考訳) VinDr-Mammo:フルフィールドデジタルマンモグラフィーにおけるコンピュータ支援診断のための大規模ベンチマークデータセット [全文訳有]

VinDr-Mammo: A large-scale benchmark dataset for computer-aided diagnosis in full-field digital mammography ( http://arxiv.org/abs/2203.11205v1 )

ライセンス: CC BY 4.0
Hieu T. Nguyen, Ha Q. Nguyen, Hieu H. Pham, Khanh Lam, Linh T. Le, Minh Dao, and Van Vu(参考訳) マンモグラフィ(mammography、乳房x線)は、がんやその他の乳がんの検出に最も広く用いられている画像診断法である。 近年, 深層学習を用いたコンピュータ支援診断ツール(CADe, CADx)が, 医師を支援するとともに, マンモグラフィーの精度を向上させるために開発されたことが報告されている。 しかし、ほとんどのマンモグラフィーデータセットはサンプルサイズに制限されているか、スクリーンフィルムマンモグラフィー(SFM)からデジタル化されているため、フルフィールドデジタルマンモグラフィー(FFDM)に基づいて開発されたCADeおよびCADxツールの開発を妨げている。 VinDr-Mammoは,マンモグラフィにおける乳癌および他の疾患の検出と診断のためのFFDMの新しいベンチマークデータセットである。 データセットは5000のマンモグラフィー試験で構成され、それぞれが4つの標準ビューを持ち、仲裁によって解決される(もしあれば)意見の相違を兼ね備えている。 乳房画像報告・データシステム(BI-RADS)と乳房レベルの密度を評価するために作成された。 さらに、このデータセットは非良性発見のカテゴリ、位置、BI-RADS評価も提供する。 我々は,乳がん検診のためのcadeおよびcadxツールの開発を進めるための新たなイメージングリソースとして,physionet 上で vindr-mammo を公開する。

Mammography, or breast X-ray, is the most widely used imaging modality to detect cancer and other breast diseases. Recent studies have shown that deep learning-based computer-assisted detection and diagnosis (CADe or CADx) tools have been developed to support physicians and improve the accuracy of interpreting mammography. However, most published datasets of mammography are either limited on sample size or digitalized from screen-film mammography (SFM), hindering the development of CADe and CADx tools which are developed based on full-field digital mammography (FFDM). To overcome this challenge, we introduce VinDr-Mammo - a new benchmark dataset of FFDM for detecting and diagnosing breast cancer and other diseases in mammography. The dataset consists of 5,000 mammography exams, each of which has four standard views and is double read with disagreement (if any) being resolved by arbitration. It is created for the assessment of Breast Imaging Reporting and Data System (BI-RADS) and density at the breast level. In addition, the dataset also provides the category, location, and BI-RADS assessment of non-benign findings. We make VinDr-Mammo publicly available on PhysioNet as a new imaging resource to promote advances in developing CADe and CADx tools for breast cancer screening.
翻訳日:2022-03-26 06:19:14 公開日:2022-03-20
# (参考訳) 深層学習とランダムサンプリングに基づく造影CTスキャンの位相認識

Phase Recognition in Contrast-Enhanced CT Scans based on Deep Learning and Random Sampling ( http://arxiv.org/abs/2203.11206v1 )

ライセンス: CC BY 4.0
Binh T. Dao, Thang V. Nguyen, Hieu H. Pham and Ha Q. Nguyen(参考訳) 腹部CTスキャンをコントラスト強調の複数の位相で解釈する完全自動システムでは,その位相を正確に分類する必要がある。 本研究の目的は,腹部CTにおける3種類のコントラスト位相を認識するために,高精度で高速な多相分類器を開発し,検証することである。 本研究では,非コントラスト,動脈,静脈などの4段階の腹部CT画像の位相認識に,深部CNNの上にランダムサンプリング機構を用いた新しい手法を提案する。 CNNはスライス的な位相予測として機能し、ランダムサンプリングはCNNモデルの入力スライスを選択する。 その後、多数決はCNNのスライスワイズ結果を合成し、スキャンレベルで最終的な予測を提供する。 830個のCT画像から271,426個のスライスを抽出し,各スキャンからランダムに選択したスライス30%に多数投票を行ったところ,内部検査セット358枚に対して平均92.09%のF1スコアを得た。 提案法はCTPAC-CCRCC (N = 242) と LiTS (N = 131) の2つの外部試験セットで評価した。 性能の低下は観測されているが、モデル性能は、ctpac-ccrccの平均f1-scoreが76.79%、86.94%で、高い精度のままであった。 実験結果から,提案手法は従来の3D手法よりも高い性能を示し,推論に要する計算時間が少なくなった。

A fully automated system for interpreting abdominal computed tomography (CT) scans with multiple phases of contrast enhancement requires an accurate classification of the phases. This work aims at developing and validating a precise, fast multi-phase classifier to recognize three main types of contrast phases in abdominal CT scans. We propose in this study a novel method that uses a random sampling mechanism on top of deep CNNs for the phase recognition of abdominal CT scans of four different phases: non-contrast, arterial, venous, and others. The CNNs work as a slice-wise phase prediction, while the random sampling selects input slices for the CNN models. Afterward, majority voting synthesizes the slice-wise results of the CNNs, to provide the final prediction at scan level. Our classifier was trained on 271,426 slices from 830 phase-annotated CT scans, and when combined with majority voting on 30% of slices randomly chosen from each scan, achieved a mean F1-score of 92.09% on our internal test set of 358 scans. The proposed method was also evaluated on 2 external test sets: CTPAC-CCRCC (N = 242) and LiTS (N = 131), which were annotated by our experts. Although a drop in performance has been observed, the model performance remained at a high level of accuracy with a mean F1-score of 76.79% and 86.94% on CTPAC-CCRCC and LiTS datasets, respectively. Our experimental results also showed that the proposed method significantly outperformed the state-of-the-art 3D approaches while requiring less computation time for inference.
翻訳日:2022-03-26 06:08:53 公開日:2022-03-20
# 深層学習に基づく欠陥認識のためのIntelligent Coin-tap Test

Deep Learning based Intelligent Coin-tap Test for Defect Recognition ( http://arxiv.org/abs/2203.12594v1 )

ライセンス: Link先を確認
Hongyu Li, Peng Jiang, Tiejun Wang(参考訳) コインタップテストは非破壊試験に便利で第一の方法であり、手動の現場操作は困難でコストがかかる。 最新の知的信号処理手法である畳み込みニューラルネットワーク(CNN)の助けを借りて、欠陥を認識する上で優れた性能を示すインテリジェントコインタップテストを実現する。 しかし、CNNの成功は、同じシナリオから得られる多くのラベル付きデータに依存している。 本稿では,あるシナリオのデータに基づいて訓練されたモデルを別のシナリオに転送する,この問題の伝達学習戦略をさらに発展させる。 実験では、ドメイン適応と擬似ラベル学習戦略を用いて顕著な改善が得られた。 したがって、ここで提案する転送学習戦略を適用すれば、(10\%未満の)ラベル付きデータを含むシナリオにモデルを適用することが可能となる。 さらに、この研究で構築されたベンチマークデータセットも使用しました。 約10万の音声信号を含むコインタップテストのベンチマークデータセットはhttps://github.com/P Phub-hy/torch-tapnet .comで公開されている。

The coin-tap test is a convenient and primary method for non-destructive testing, while its manual on-site operation is tough and costly. With the help of the latest intelligent signal processing method, convolutional neural networks (CNN), we achieve an intelligent coin-tap test which exhibited superior performance in recognizing the defects. However, this success of CNNs relies on plenty of well-labeled data from the identical scenario, which could be difficult to get for many real industrial practices. This paper further develops transfer learning strategies for this issue, that is, to transfer the model trained on data of one scenario to another. In experiments, the result presents a notable improvement by using domain adaptation and pseudo label learning strategies. Hence, it becomes possible to apply the model into scenarios with none or little (less than 10\%) labeled data adopting the transfer learning strategies proposed herein. In addition, we used a benchmark dataset constructed ourselves throughout this study. This benchmark dataset for the coin-tap test containing around 100,000 sound signals is published at https://github.com/P Phub-hy/torch-tapnet .
翻訳日:2022-03-24 16:23:23 公開日:2022-03-20
# ZOOMER: 関心領域によるWebスケールグラフの検索強化

ZOOMER: Boosting Retrieval on Web-scale Graphs by Regions of Interest ( http://arxiv.org/abs/2203.12596v1 )

ライセンス: Link先を確認
Yuezihan Jiang, Yu Cheng, Hanyu Zhao, Wentao Zhang, Xupeng Miao, Yu He, Liang Wang, Zhi Yang, Bin Cui(参考訳) 我々は,中国最大のeコマースプラットフォームであるTaobaoで,Webスケールグラフ上でGNNベースのレコメンデーションのトレーニングと提供を行うシステムであるZOOMERを紹介した。 ZOOMERは、Taobaoの巨大なユーザデータによって提示される2つの課題に対処するために設計されている。グラフの巨大なスケールによるトレーニング/保存効率の低下と、特定のユーザの意図からレコメンデーションモデルを逸脱させる情報過剰による推奨品質の低下である。 ZOOMERは、GNNに重要な概念であるROI(Rerea of Interests)を導入してこれを達成している。 ZOOMERは、グラフ全体から焦点を絞り、より関連するROIに"ズームイン"することで、トレーニング/保存コストを削減し、同時に情報の過負荷を軽減する。 慎重に設計されたメカニズムにより、ZOOMERは、各レコメンデーション要求によって表現される関心を識別し、興味についてサンプリングしてROIサブグラフを構築し、多レベルアテンションモジュールによってROIの異なる部分を関心に振り向けるようGNNに誘導する。 大規模な分散システムとしてデプロイされたZOOMERは、トレーニング用に数十億ノードのグラフと、サービス用に毎秒数千リクエストをサポートする。 ZOOMERは、サンプリングスケールの縮小時に、ベースラインメソッドよりも同等(さらに良い)AUCパフォーマンスで最大14倍のスピードアップを達成する。 さらに、オフライン評価とオンラインA/Bテストの両方がZOOMERの有効性を示した。

We introduce ZOOMER, a system deployed at Taobao, the largest e-commerce platform in China, for training and serving GNN-based recommendations over web-scale graphs. ZOOMER is designed for tackling two challenges presented by the massive user data at Taobao: low training/serving efficiency due to the huge scale of the graphs, and low recommendation quality due to the information overload which distracts the recommendation model from specific user intentions. ZOOMER achieves this by introducing a key concept, Region of Interests (ROI) in GNNs for recommendations, i.e., a neighborhood region in the graph with significant relevance to a strong user intention. ZOOMER narrows the focus from the whole graph and "zooms in" on the more relevant ROIs, thereby reducing the training/serving cost and mitigating the information overload at the same time. With carefully designed mechanisms, ZOOMER identifies the interest expressed by each recommendation request, constructs an ROI subgraph by sampling with respect to the interest, and guides the GNN to reweigh different parts of the ROI towards the interest by a multi-level attention module. Deployed as a large-scale distributed system, ZOOMER supports graphs with billions of nodes for training and thousands of requests per second for serving. ZOOMER achieves up to 14x speedup when downsizing sampling scales with comparable (even better) AUC performance than baseline methods. Besides, both the offline evaluation and online A/B test demonstrate the effectiveness of ZOOMER.
翻訳日:2022-03-24 13:54:44 公開日:2022-03-20
# 光ニューラルネットワークのハイブリッドトレーニング

Hybrid training of optical neural networks ( http://arxiv.org/abs/2203.11207v1 )

ライセンス: Link先を確認
James Spall, Xianxin Guo, and A. I. Lvovsky(参考訳) 光ニューラルネットワークは、エネルギー効率が高く並列計算が可能な有望な機械学習ハードウェアとして登場している。 今日の光学ニューラルネットワークは、主にデジタルシミュレーターのシリコトレーニング後に光学推論を行うために開発されている。 しかし、正確にモデル化できない様々な物理的欠陥は、デジタルシミュレータと物理システムの間に悪名高い現実のギャップをもたらす可能性がある。 この課題に対処するために、重み行列をネットワークを経由する前方伝播によって光学的に計算されるニューロン活性化関数で訓練する光ニューラルネットワークのハイブリッドトレーニングを行う。 我々は,光線形分類器,ハイブリッド光電子ネットワーク,複合価値光ネットワークの3つの異なるネットワークを用いたハイブリッドトレーニングの有効性を検討した。 我々は,サイリコ訓練との比較研究を行い,この結果から,ハイブリッドトレーニングは様々な静音に対して堅牢であることが示された。 プラットフォームに依存しないハイブリッドトレーニングスキームは、さまざまな光学ニューラルネットワークに適用可能であり、この研究は、マシンインテリジェンスにおける高度な全光学トレーニングへの道を開く。

Optical neural networks are emerging as a promising type of machine learning hardware capable of energy-efficient, parallel computation. Today's optical neural networks are mainly developed to perform optical inference after in silico training on digital simulators. However, various physical imperfections that cannot be accurately modelled may lead to the notorious reality gap between the digital simulator and the physical system. To address this challenge, we demonstrate hybrid training of optical neural networks where the weight matrix is trained with neuron activation functions computed optically via forward propagation through the network. We examine the efficacy of hybrid training with three different networks: an optical linear classifier, a hybrid opto-electronic network, and a complex-valued optical network. We perform a comparative study to in silico training, and our results show that hybrid training is robust against different kinds of static noise. Our platform-agnostic hybrid training scheme can be applied to a wide variety of optical neural networks, and this work paves the way towards advanced all-optical training in machine intelligence.
翻訳日:2022-03-23 15:40:47 公開日:2022-03-20
# クリップ型アドバンテージ学習によるロバストな行動ギャップ増加

Robust Action Gap Increasing with Clipped Advantage Learning ( http://arxiv.org/abs/2203.11677v1 )

ライセンス: Link先を確認
Zhe Zhang, Yaozhong Gan, Xiaoyang Tan(参考訳) アドバンテージラーニング(AL)は、最適アクションとその競合とのアクションギャップを増大させ、予測エラーに対する堅牢性を改善することを目的としている。 しかし、近似値関数によって誘導される最適作用が真の最適作用と一致しない場合に問題となる。 本稿では,この課題に対処するための新しい手法として,Cellped Advantage Learning (clipped AL)を提案する。 この手法は,すべてのサンプルに対する動作ギャップを盲目的に増やすことで,性能損失率の誤差を増大させる可能性があり,それを回避するため,適応的にアドバンテージ値を調整すべきである,という観測結果から着想を得たものである。 単純なクリップ付きal演算子は高速収束保証を享受するだけでなく、適切な動作ギャップを保ちながら、大きな動作ギャップと高速収束のバランスを保っていることを示す。 提案手法の有効性と有効性をいくつかのrlベンチマークで実証的に検証した。

Advantage Learning (AL) seeks to increase the action gap between the optimal action and its competitors, so as to improve the robustness to estimation errors. However, the method becomes problematic when the optimal action induced by the approximated value function does not agree with the true optimal action. In this paper, we present a novel method, named clipped Advantage Learning (clipped AL), to address this issue. The method is inspired by our observation that increasing the action gap blindly for all given samples while not taking their necessities into account could accumulate more errors in the performance loss bound, leading to a slow value convergence, and to avoid that, we should adjust the advantage value adaptively. We show that our simple clipped AL operator not only enjoys fast convergence guarantee but also retains proper action gaps, hence achieving a good balance between the large action gap and the fast convergence. The feasibility and effectiveness of the proposed method are verified empirically on several RL benchmarks with promising performance.
翻訳日:2022-03-23 13:13:26 公開日:2022-03-20
# (参考訳) 構造と動きによる確率的映像予測 [全文訳有]

Stochastic Video Prediction with Structure and Motion ( http://arxiv.org/abs/2203.10528v1 )

ライセンス: CC BY 4.0
Adil Kaan Akan, Sadra Safadoust, Erkut Erdem, Aykut Erdem, Fatma G\"uney(参考訳) 確率的ビデオ予測モデルは不確実性下で将来の予測を可能にするが、それらはほとんど現実世界のシーンの複雑なダイナミクスをモデル化しない。 例えば、動くカメラでシーンを信頼できる予測することはできず、運転シナリオにおいて前景オブジェクトを独立して移動させることはできない。 既存の手法では、ピクセルの変化のみに焦点を当てることで、構造化世界のダイナミクスを完全に捉えることができない。 本稿では,ビデオに観察を生成するプロセスが存在すると仮定し,それを静的および動的成分に分解することを提案する。 本研究では、車両のシーン構造とエゴモーションに基づいて静的な部分をモデル化し、ダイナミックな物体の残りの動きに基づいて動的部分をモデル化する。 前景と背景の変化の別々の分布を学習することにより、シーンを静的および動的に分解し、それぞれの変化を別々にモデル化することができる。 我々の実験は、切り離し構造と動きが確率的ビデオ予測に役立ち、KITTIとCityscapesの2つの実世界の運転データセットにおける複雑な運転シナリオにおける予測がより良くなることを示した。

While stochastic video prediction models enable future prediction under uncertainty, they mostly fail to model the complex dynamics of real-world scenes. For example, they cannot provide reliable predictions for scenes with a moving camera and independently moving foreground objects in driving scenarios. The existing methods fail to fully capture the dynamics of the structured world by only focusing on changes in pixels. In this paper, we assume that there is an underlying process creating observations in a video and propose to factorize it into static and dynamic components. We model the static part based on the scene structure and the ego-motion of the vehicle, and the dynamic part based on the remaining motion of the dynamic objects. By learning separate distributions of changes in foreground and background, we can decompose the scene into static and dynamic parts and separately model the change in each. Our experiments demonstrate that disentangling structure and motion helps stochastic video prediction, leading to better future predictions in complex driving scenarios on two real-world driving datasets, KITTI and Cityscapes.
翻訳日:2022-03-23 12:35:06 公開日:2022-03-20
# (参考訳) トランスフォーマーを用いたエンドツーエンドビデオテキストスポッティング [全文訳有]

End-to-End Video Text Spotting with Transformer ( http://arxiv.org/abs/2203.10539v1 )

ライセンス: CC BY 4.0
Weijia Wu, Debing Zhang, Ying Fu, Chunhua Shen, Hong Zhou, Yuanqiang Cai, Ping Luo(参考訳) 最近のビデオテキストスポッティングでは、通常は3段階のパイプライン、すなわち個々の画像中のテキストの検出、ローカライズされたテキストの認識、後処理によるテキストストリームの追跡、最終結果の生成が必要となる。 これらのメソッドは通常、トラッキング・バイ・マッチのパラダイムに従い、洗練されたパイプラインを開発する。 本稿では,Transformer Sequence Modeling(TransDETR, Transformer Sequence Modeling, トランスフォーマーシークエンスモデリング)をルーツとし, 簡易かつ効果的なビデオテキスト検出・追跡・認識フレームワークを提案する。 TransDETRは主に2つの利点がある。 1) 隣接するフレームの明示的なマッチングパラダイムとは違って,TransDETRは,長期の時間的シーケンス(7フレーム以上)上で異なる問合せ付きテキストクエリによって,各テキストを暗黙的に追跡,認識する。 2) TransDETRは,3つのサブタスク(テキスト検出,追跡,認識など)を同時に扱う,最初のエンドツーエンドのトレーニング可能なビデオテキストスポッティングフレームワークである。 4つのビデオテキストデータセット(ICDAR2013 Video, ICDAR2015 Video, Minetto, YouTube Video Text)の大規模な実験を行い、TransDETRが最先端のパフォーマンスを達成し、ビデオテキストスポッティングタスクを最大8.0%改善することを示した。 TransDETRのコードはhttps://github.com/w eijiawu/TransDETRにある。

Recent video text spotting methods usually require the three-staged pipeline, i.e., detecting text in individual images, recognizing localized text, tracking text streams with post-processing to generate final results. These methods typically follow the tracking-by-match paradigm and develop sophisticated pipelines. In this paper, rooted in Transformer sequence modeling, we propose a simple, but effective end-to-end video text DEtection, Tracking, and Recognition framework (TransDETR). TransDETR mainly includes two advantages: 1) Different from the explicit match paradigm in the adjacent frame, TransDETR tracks and recognizes each text implicitly by the different query termed text query over long-range temporal sequence (more than 7 frames). 2) TransDETR is the first end-to-end trainable video text spotting framework, which simultaneously addresses the three sub-tasks (e.g., text detection, tracking, recognition). Extensive experiments in four video text datasets (i.e.,ICDAR2013 Video, ICDAR2015 Video, Minetto, and YouTube Video Text) are conducted to demonstrate that TransDETR achieves state-of-the-art performance with up to around 8.0% improvements on video text spotting tasks. The code of TransDETR can be found at https://github.com/w eijiawu/TransDETR.
翻訳日:2022-03-23 12:13:18 公開日:2022-03-20
# (参考訳) Multi-Agent Terraforming:環境操作による効率的なマルチエージェントパス探索 [全文訳有]

Multi-Agent Terraforming: Efficient Multi-Agent Path Finding via Environment Manipulation ( http://arxiv.org/abs/2203.10540v1 )

ライセンス: CC BY 4.0
David Vainshtein, Kiril Solovey, Oren Salzman(参考訳) マルチエージェントパスファインディング(mapf)は、障害物で散らばった環境において、エージェントのチームが開始からゴールまで、衝突のない経路を計画することに関するものである。 MAPFの典型的なアプローチは、障害物の位置が固定されているとみなし、自動倉庫では、障害物(ポッドや棚を表す)をエージェント(ロボットを表す)によって移動させ、ボトルネックを緩和し、短いルートを導入することができる。 本研究では,移動障害物を持つMAPFの研究を開始する。 特に、MAPFの新たな拡張を導入し、Terraforming MAPF (tMAPF) と呼び、いくつかのエージェントが障害を移動して他のエージェントへの道をクリアする役割を担っている。 tMAPFの解決は、エージェント間の衝突だけでなく、障害物の移動場所や移動場所についても推論する必要があるため、非常に難しい。 我々は,tmapfに取り組むために,cbsとpbsという2つの最先端アルゴリズムの拡張を行い,静的オブザーバ設定で可能な最善のソリューションを一貫して上回ることができることを示す。

Multi-agent pathfinding (MAPF) is concerned with planning collision-free paths for a team of agents from their start to goal locations in an environment cluttered with obstacles. Typical approaches for MAPF consider the locations of obstacles as being fixed, which limits their effectiveness in automated warehouses, where obstacles (representing pods or shelves) can be moved out of the way by agents (representing robots) to relieve bottlenecks and introduce shorter routes. In this work we initiate the study of MAPF with movable obstacles. In particular, we introduce a new extension of MAPF, which we call Terraforming MAPF (tMAPF), where some agents are responsible for moving obstacles to clear the way for other agents. Solving tMAPF is extremely challenging as it requires reasoning not only about collisions between agents, but also where and when obstacles should be moved. We present extensions of two state-of-the-art algorithms, CBS and PBS, in order to tackle tMAPF, and demonstrate that they can consistently outperform the best solution possible under a static-obstacle setting.
翻訳日:2022-03-23 10:42:48 公開日:2022-03-20
# (参考訳) ネットワークロバスト性予測のための学習畳み込みニューラルネットワークアプローチ [全文訳有]

A Learning Convolutional Neural Network Approach for Network Robustness Prediction ( http://arxiv.org/abs/2203.10552v1 )

ライセンス: CC BY 4.0
Yang Lou and Ruizi Wu and Junli Li and Lin Wang and Xiang Li and Guanrong Chen(参考訳) ネットワークのロバスト性は、様々な社会ネットワークや産業ネットワークにとって再び悪質な攻撃に不可欠である。 特に、接続性ロバスト性と制御性ロバスト性は、ノードまたはエッジ削除攻撃の連続後にネットワークの残りの接続性と制御性を記録する一連の値によって定量化できる、ネットワーク化されたシステムが接続性と制御性をいかによく維持できるかを反映している。 伝統的に、堅牢性は攻撃シミュレーションによって決定される。 本稿では,畳み込みニューラルネットワーク(lfr-cnn)を用いた学習特徴量表現に基づくネットワークロバストネス予測の改良手法を提案する。 この方式では、高次元ネットワークデータは低次元表現に圧縮され、cnnに渡されてロバスト性予測を行う。 有向および無向の両方の合成および実世界のネットワークに関する広範囲にわたる実験的研究は、このことを実証している。 1) 提案するlfr-cnnは他の2つの最先端予測手法よりも性能が良く, 予測誤差が著しく低い。 2) LFR-CNNは,ネットワークサイズの変化に敏感であり,適用性を大幅に拡張する。 3)LFR-CNNは特徴学習により多くの時間を要するが,攻撃シミュレーションよりも正確な予測が可能である。 4)lfr-cnnは,ネットワークのロバスト性を正確に予測できるだけでなく,従来のスペクトル測定値よりも優れた接続性ロバスト性を示す。

Network robustness is critical for various societal and industrial networks again malicious attacks. In particular, connectivity robustness and controllability robustness reflect how well a networked system can maintain its connectedness and controllability against destructive attacks, which can be quantified by a sequence of values that record the remaining connectivity and controllability of the network after a sequence of node- or edge-removal attacks. Traditionally, robustness is determined by attack simulations, which are computationally very time-consuming or even practically infeasible. In this paper, an improved method for network robustness prediction is developed based on learning feature representation using convolutional neural network (LFR-CNN). In this scheme, higher-dimensional network data are compressed to lower-dimensional representations, and then passed to a CNN to perform robustness prediction. Extensive experimental studies on both synthetic and real-world networks, both directed and undirected, demonstrate that 1) the proposed LFR-CNN performs better than other two state-of-the-art prediction methods, with significantly lower prediction errors; 2) LFR-CNN is insensitive to the variation of the network size, which significantly extends its applicability; 3) although LFR-CNN needs more time to perform feature learning, it can achieve accurate prediction faster than attack simulations; 4) LFR-CNN not only can accurately predict network robustness, but also provides a good indicator for connectivity robustness, better than the classical spectral measures.
翻訳日:2022-03-23 10:25:05 公開日:2022-03-20
# (参考訳) 自然言語理解へのニューラルシンボリックアプローチ [全文訳有]

A Neural-Symbolic Approach to Natural Language Understanding ( http://arxiv.org/abs/2203.10557v1 )

ライセンス: CC BY 4.0
Zhixuan Liu, Zihao Wang, Yuan Lin, Hang Li(参考訳) 事前訓練された言語モデルによって強化されたディープニューラルネットワークは、自然言語理解(NLU)タスクにおいて顕著な成果を上げている。 しかし、その過程で論理的推論が必要な場合、その性能は劇的に悪化する。 これは、理想的には、NLUは、深いニューラルネットワークが得意とするアナログ推論だけでなく、論理推論にも依存する必要があるためである。 二重プロセス理論によれば、ヒト脳内のシステム1とシステム2によって、アナログ推論と論理推論がそれぞれ実行される。 この理論に触発されて,ニューラル・シンボリック・プロセッサ(NSP)と呼ばれるニューラル・シンボリック・プロセッサ(NSP)という,ニューラル・シンボリック・プロセッシングとニューラル・シンボリック・プロセッシングの両方に基づく論理的推論を行うNLUの新しいフレームワークを提案する。 本研究では,2つのNLUタスク,質問応答(QA)と自然言語推論(NLI)について,数値推論(論理推論の一種)が必要な場合の実験を行う。 実験結果から,本手法は両タスクの最先端手法よりも優れていた。

Deep neural networks, empowered by pre-trained language models, have achieved remarkable results in natural language understanding (NLU) tasks. However, their performances can deteriorate drastically when logical reasoning is needed in the process. This is because, ideally, NLU needs to depend on not only analogical reasoning, which deep neural networks are good at, but also logical reasoning. According to the dual-process theory, analogical reasoning and logical reasoning are respectively carried out by System 1 and System 2 in the human brain. Inspired by the theory, we present a novel framework for NLU called Neural-Symbolic Processor (NSP), which performs analogical reasoning based on neural processing and performs logical reasoning based on both neural and symbolic processing. As a case study, we conduct experiments on two NLU tasks, question answering (QA) and natural language inference (NLI), when numerical reasoning (a type of logical reasoning) is necessary. The experimental results show that our method significantly outperforms state-of-the-art methods in both tasks.
翻訳日:2022-03-23 10:01:08 公開日:2022-03-20
# (参考訳) 誰が偽ニュースをtwitterで共有するのか? オンラインポスト・ヒストリーにおける心理言語学的手がかり : 誤情報エコシステムにおけるアクタ間の差別

Who will share Fake-News on Twitter? Psycholinguistic cues in online post histories discriminate Between actors in the misinformation ecosystem ( http://arxiv.org/abs/2203.10560v1 )

ライセンス: CC BY 4.0
Verena Schoenmueller, Simon J. Blanchard and Gita V. Johar(参考訳) 偽情報や偽ニュースの拡散は、民主主義や公衆衛生などの問題への進展を損なう世界的な懸念である。 過去の研究は、そのセマンティクスコンテンツと、そのようなニュースを発行するメディアの特定に重点を置いてきた。 それとは対照的に、フェイクニュースエコシステム(フェイクニュース共有者、ファクトチェック共有者、ランダムtwitterユーザなど)におけるアクターの言語を調べ、それらの言語プロファイルを作成することで、フェイクニュースを共有しやすい個人を識別することを目指している。 フェイクニュースの株主とファクトチェックの株主は、彼らの言語でかなり高い興奮的なネガティブ感情を使うが、フェイクニュースの株主は他のアクターよりも現実的なニーズを表現している。 ツイートから推測される心理言語学的な手がかりを社会デデノグラフィー予測モデルに組み込むことで、偽ニュース共有者の分類精度が大幅に向上する。 偽ニュースの共有者は、偽ニュースのエコシステムにおける他のアクターと重要な方法で異なるが、他の方法で(怒りのレベルなど)類似していることは、偽ニュースのエコシステム全体を研究することの重要性を強調し、識別と予測の正確性を高める。 このアプローチは、プラットフォームが潜在的にフェイクニュース共有者の投稿を事前に表示できるようにすることで、フェイクニュース共有の軽減に役立ちます。

The spread of misinformation or fake-news is a global concern that undermines progress on issues such as protecting democracy and public health. Past research aiming to combat its spread has largely focused on identifying its semantic content and media outlets publishing such news. In contrast, we aim to identify individuals who are more likely to share fake-news by studying the language of actors in the fake-news ecosystem (such as fake-news sharers, fact-check sharers and random twitter users), and creating a linguistic profile of them. Fake-news sharers and fact-check sharers use significantly more high-arousal negative emotions in their language, but fake-news sharers express more existentially-based needs than other actors. Incorporating psycholinguistic cues as inferred from their tweets into a model of socio-demographic predictors considerably improves classification accuracy of fake-news sharers. The finding that fake-news sharers differ in important ways from other actors in the fake-news ecosystem (such as in their existential needs), but are also similar to them in other ways (such as in their anger levels), highlights the importance of studying the entire fake-news ecosystem to increase accuracy in identification and prediction. Our approach can help mitigate fake-news sharing by enabling platforms to pre-emptively screen potential fake-news sharers' posts.
翻訳日:2022-03-23 09:47:42 公開日:2022-03-20
# (参考訳) CRISPnet:カラーレンタルISPネット [全文訳有]

CRISPnet: Color Rendition ISP Net ( http://arxiv.org/abs/2203.10562v1 )

ライセンス: CC BY 4.0
Matheus Souza, Wolfgang Heidrich(参考訳) 画像信号プロセッサ(ISP)は、ノイズの多い生センサ測定からカラーイメージを再構築するための、歴史的に成長したソフトウェアシステムである。 それらは通常、装飾、解体、色復元のための多くのヒューリスティックブロックで構成されている。 この文脈での色再現は特に重要であり、生の色はしばしばひどく歪められ、各携帯電話メーカーは、肌色やその他の視覚的に重要な色などの色調を改善するために独自の特徴的ヒューリスティックを開発した。 近年では、歴史的に成長したISPシステムをディープラーニングパイプラインに置き換えることへの関心が高まっている。 このような学習モデルによるレガシーISPの近似には、多くの進歩があった。 しかし、これらの取り組みの焦点は画像の構造的特徴の再現であり、色調にはあまり注意が払われていない。 ここでは、複雑でレガシなスマートフォンISPと比較して色再現精度を特に目標とする、最初の学習ISPモデルであるCRISPnetを紹介する。 我々は、画像メタデータ(レガシISPのような)と、画像分類に基づく単純なグローバルセマンティクス(レガシISPがシーンタイプを決定するために何をしているかに似たもの)の両方を活用することで、これを実現する。 また,高ダイナミックレンジモニタデータと実世界のデータの両方からなるISPイメージデータセットを,様々な照明条件,露光時間,ゲイン設定の下で,実際の携帯電話ISPパイプラインでキャプチャした。

Image signal processors (ISPs) are historically grown legacy software systems for reconstructing color images from noisy raw sensor measurements. They are usually composited of many heuristic blocks for denoising, demosaicking, and color restoration. Color reproduction in this context is of particular importance, since the raw colors are often severely distorted, and each smart phone manufacturer has developed their own characteristic heuristics for improving the color rendition, for example of skin tones and other visually important colors. In recent years there has been strong interest in replacing the historically grown ISP systems with deep learned pipelines. Much progress has been made in approximating legacy ISPs with such learned models. However, so far the focus of these efforts has been on reproducing the structural features of the images, with less attention paid to color rendition. Here we present CRISPnet, the first learned ISP model to specifically target color rendition accuracy relative to a complex, legacy smart phone ISP. We achieve this by utilizing both image metadata (like a legacy ISP would), as well as by learning simple global semantics based on image classification -- similar to what a legacy ISP does to determine the scene type. We also contribute a new ISP image dataset consisting of both high dynamic range monitor data, as well as real-world data, both captured with an actual cell phone ISP pipeline under a variety of lighting conditions, exposure times, and gain settings.
翻訳日:2022-03-23 09:38:41 公開日:2022-03-20
# (参考訳) Scene-concerned Boottom-up メカニズムによる実交通シーンの自己監視ポイントクラウド補完 [全文訳有]

Self-supervised Point Cloud Completion on Real Traffic Scenes via Scene-concerned Bottom-up Mechanism ( http://arxiv.org/abs/2203.10569v1 )

ライセンス: CC BY 4.0
Yiming Ren, Peishan Cong, Xinge Zhu, Yuexin Ma(参考訳) 実際のスキャンは、自己閉塞性、外部閉塞性、センサーの解像度の制限により、オブジェクトの部分的なジオメトリを見逃す。 point cloud completionは、オブジェクトの不完全な3dスキャンの完全な形状を参照することを目的としている。 現在のディープラーニングベースのアプローチは、トレーニングプロセスで通常合成データセットから得られる大規模な完全な形状に依存している。 ドメインギャップのため、実世界のスキャンには適用できない。 本稿では,交通現場の車両に対して,完全なデータを必要としない自己教師付きポイントクラウド補完手法(TraPCC)を提案する。 車両の対称性と類似性に基づいて、連続点雲フレームを用いて車両のメモリバンクを基準として構築する。 入力の局所幾何学的詳細と大域的形状特徴の両方に焦点を当てたボトムアップ機構を設計した。 さらに,隣接する車両の助けを借りて,欠落した部品に注意を払うために,ネットワーク内のシーングラフを設計する。 実験により、TraPCCは、トレーニング中に完全なデータがなくても、KITTIとnuScenesのトラフィックデータセットのリアルタイム補完に優れた性能を発揮することが示された。 また,完成したアプローチの恩恵を受ける3D検出のダウンストリーム応用についても紹介する。

Real scans always miss partial geometries of objects due to the self-occlusions, external-occlusions, and limited sensor resolutions. Point cloud completion aims to refer the complete shapes for incomplete 3D scans of objects. Current deep learning-based approaches rely on large-scale complete shapes in the training process, which are usually obtained from synthetic datasets. It is not applicable for real-world scans due to the domain gap. In this paper, we propose a self-supervised point cloud completion method (TraPCC) for vehicles in real traffic scenes without any complete data. Based on the symmetry and similarity of vehicles, we make use of consecutive point cloud frames to construct vehicle memory bank as reference. We design a bottom-up mechanism to focus on both local geometry details and global shape features of inputs. In addition, we design a scene-graph in the network to pay attention to the missing parts by the aid of neighboring vehicles. Experiments show that TraPCC achieve good performance for real-scan completion on KITTI and nuScenes traffic datasets even without any complete data in training. We also show a downstream application of 3D detection, which benefits from our completion approach.
翻訳日:2022-03-23 09:28:20 公開日:2022-03-20
# (参考訳) 微分パラメトリック最適化を用いた神経物理動的負荷モデリング [全文訳有]

Neuro-physical dynamic load modeling using differentiable parametric optimization ( http://arxiv.org/abs/2203.10582v1 )

ライセンス: CC BY 4.0
Shrirang Abhyankar, Jan Drgona, Andrew August, Elliot Skomski, Aaron Tuor(参考訳) 本研究では,電気機械過渡安定解析のための分散系の等価負荷モデルを求めるためのデータ駆動手法について検討する。 提案した縮小等価性は、ニューラルネットワークで強化された従来のZIP負荷モデルからなる神経物理モデルである。 この神経物理モデルは、微分可能プログラミングによって訓練される。 本稿では,微分パラメトリックプログラムとして設定したモデルの定式化,モデリングの詳細,訓練について述べる。 この神経物理学的ZIP負荷モデルの性能と精度を,中規模350バス伝送分配ネットワークで示す。

In this work, we investigate a data-driven approach for obtaining a reduced equivalent load model of distribution systems for electromechanical transient stability analysis. The proposed reduced equivalent is a neuro-physical model comprising of a traditional ZIP load model augmented with a neural network. This neuro-physical model is trained through differentiable programming. We discuss the formulation, modeling details, and training of the proposed model set up as a differential parametric program. The performance and accuracy of this neurophysical ZIP load model is presented on a medium-scale 350-bus transmission-distrib ution network.
翻訳日:2022-03-23 09:17:32 公開日:2022-03-20
# (参考訳) 変分量子ポリシー勾配と量子制御への応用 [全文訳有]

Variational Quantum Policy Gradients with an Application to Quantum Control ( http://arxiv.org/abs/2203.10591v1 )

ライセンス: CC BY 4.0
Andr\'e Sequeira, Luis Paulo Santos, Lu\'is Soares Barbosa(参考訳) 量子機械学習モデルは非常に自然な方法で変分量子回路(vqcs)によって構成される。 このようなモデルが教師なし/教師なしの学習タスクにおいて有利であることを証明する実証的な結果がすでにいくつかある。 しかし、強化学習(RL)に適用した場合、あまり知られていない。 本研究では,ハードウェア効率のよいansatzを用いて,ポリシー勾配を検討する。 量子ハードウェアを用いた勾配の「エプシロン」近似の複雑さは、量子回路の実行数を考慮してパラメータ数と対数的にしかスケールしないことが証明される。 我々は、ベンチマーク環境でそのようなモデルの性能を検証し、そのような量子モデルがそれらの環境で使用される典型的なニューラルネットワークより優れていることを経験的に検証する。 さらに,フィッシャー情報スペクトルの利用により,量子モデルが従来のモデルよりもバレンプラトーの傾向が低いことを示す。 異なるユースケースとして,このような変分量子モデルの量子制御問題への応用を検討し,量子量子量子領域におけるその実現可能性を示す。

Quantum Machine Learning models are composed by Variational Quantum Circuits (VQCs) in a very natural way. There are already some empirical results proving that such models provide an advantage in supervised/unsupervi sed learning tasks. However, when applied to Reinforcement Learning (RL), less is known. In this work, we consider Policy Gradients using a hardware-efficient ansatz. We prove that the complexity of obtaining an {\epsilon}-approximation of the gradient using quantum hardware scales only logarithmically with the number of parameters, considering the number of quantum circuits executions. We test the performance of such models in benchmarking environments and verify empirically that such quantum models outperform typical classical neural networks used in those environments, using a fraction of the number of parameters. Moreover, we propose the utilization of the Fisher Information spectrum to show that the quantum model is less prone to barren plateaus than its classical counterpart. As a different use case, we consider the application of such variational quantum models to the problem of quantum control and show its feasibility in the quantum-quantum domain.
翻訳日:2022-03-23 09:05:51 公開日:2022-03-20
# (参考訳) モデルに基づくマルチエージェント強化学習の現状と展望 [全文訳有]

Model-based Multi-agent Reinforcement Learning: Recent Progress and Prospects ( http://arxiv.org/abs/2203.10603v1 )

ライセンス: CC BY 4.0
Xihuai Wang, Zhicheng Zhang, Weinan Zhang(参考訳) マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、複数の参加者が関与する逐次的な意思決定問題に対処する。 しかし、MARLは効果的なトレーニングのために膨大な数のサンプルを必要とする。 一方, モデルに基づく手法では, サンプル効率の有望な利点が得られることが示されている。 しかし、MARLに対するモデルベース手法の試みはごく最近始まったばかりである。 本稿では,モデルベースMARLの理論的解析,アルゴリズム,応用を含む既存研究のレビューを行い,モデルベースMARLの利点と可能性について分析する。 具体的には、アルゴリズムの詳細な分類を提供し、マルチエージェントシナリオに固有の課題に応じて各アルゴリズムの長所と短所を指摘する。 我々はまた、この分野の今後の発展に向けた有望な方向性を概説する。

Significant advances have recently been achieved in Multi-Agent Reinforcement Learning (MARL) which tackles sequential decision-making problems involving multiple participants. However, MARL requires a tremendous number of samples for effective training. On the other hand, model-based methods have been shown to achieve provable advantages of sample efficiency. However, the attempts of model-based methods to MARL have just started very recently. This paper presents a review of the existing research on model-based MARL, including theoretical analyses, algorithms, and applications, and analyzes the advantages and potential of model-based MARL. Specifically, we provide a detailed taxonomy of the algorithms and point out the pros and cons for each algorithm according to the challenges inherent to multi-agent scenarios. We also outline promising directions for future development of this field.
翻訳日:2022-03-23 08:44:58 公開日:2022-03-20
# (参考訳) 透明性戦略に基づくマンモグラムのBI-RADS分類のためのデータ拡張 [全文訳有]

Transparency strategy-based data augmentation for BI-RADS classification of mammograms ( http://arxiv.org/abs/2203.10609v1 )

ライセンス: CC BY 4.0
Sam B. Tran, Huyen T. X. Nguyen, Hieu H. Pham, Ha Q. Nguyen(参考訳) マンモグラフィ分類タスクにおける深層学習(DL)アルゴリズムの性能向上のために,画像拡張技術が広く研究されている。 近年,データ不足やデータ不均衡問題に対する画像強調の有効性が実証されている。 本稿では,マンモグラム分類器の乳房画像報告・データシステム(BI-RADS)スコアを向上するための新しい透明性戦略を提案する。 提案手法は、関心領域(ROI)情報を用いて、原画像からよりリスクの高いトレーニング例を生成する。 ベンチマークマンモグラフィーデータセットを用いて大規模な実験を行った。 実験の結果, 提案手法は, Upsampling や CutMix などの最先端データ拡張技術を上回ることがわかった。 本研究は、BI-RADS分類における他の拡張戦略よりも透明性手法が効果的であることを強調し、コンピュータビジョンタスクに広く適用できることを示した。

Image augmentation techniques have been widely investigated to improve the performance of deep learning (DL) algorithms on mammography classification tasks. Recent methods have proved the efficiency of image augmentation on data deficiency or data imbalance issues. In this paper, we propose a novel transparency strategy to boost the Breast Imaging Reporting and Data System (BI-RADS) scores of mammograms classifier. The proposed approach utilizes the Region of Interest (ROI) information to generate more high-risk training examples from original images. Our extensive experiments were conducted on our benchmark mammography dataset. The experiment results show that the proposed approach surpasses current state-of-the-art data augmentation techniques such as Upsampling or CutMix. The study highlights that the transparency method is more effective than other augmentation strategies for BI-RADS classification and can be widely applied for our computer vision tasks.
翻訳日:2022-03-23 08:28:27 公開日:2022-03-20
# (参考訳) 対話システムのための大規模解釈可能な知識グラフ推論に向けて [全文訳有]

Towards Large-Scale Interpretable Knowledge Graph Reasoning for Dialogue Systems ( http://arxiv.org/abs/2203.10610v1 )

ライセンス: CC BY 4.0
Yi-Lin Tuan, Sajjad Beygi, Maryam Fazel-Zarandi, Qiaozi Gao, Alessandra Cervone, William Yang Wang(参考訳) 今日、音声アシスタントと対話するユーザーは、適切な応答を導き出すために、リクエストを非常に特定の方法でフレーズする必要がある。 これはユーザエクスペリエンスを制限し、部分的には対話プラットフォームの推論能力の欠如と、膨大な労力を要する手作りのルールによるものだ。 ユーザエクスペリエンスの向上とデザイナの手作業の軽減の可能な方法のひとつは,ユーザの発話を知覚しながら推論を行うエンドツーエンド対話システムを構築することだ。 本研究では,よりスケーラブルで汎用的な対話システムにおいて,知識推論機能を組み込む新しい手法を提案する。 提案手法により,単一変圧器モデルによる大規模知識グラフの歩行による応答生成が可能となる。 我々の知る限りでは、変圧器モデルが微分可能な知識グラフを解析して応答を生成するのはこれが初めてである。 タスク指向とドメイン固有のチャット対話における提案手法の推論能力について検討する。 実験の結果,完全解釈可能な推論パスを持つ対話システムにおいて,知識グラフを効果的かつ効率的に組み込むことができた。

Users interacting with voice assistants today need to phrase their requests in a very specific manner to elicit an appropriate response. This limits the user experience, and is partly due to the lack of reasoning capabilities of dialogue platforms and the hand-crafted rules that require extensive labor. One possible way to improve user experience and relieve the manual efforts of designers is to build an end-to-end dialogue system that can do reasoning itself while perceiving user's utterances. In this work, we propose a novel method to incorporate the knowledge reasoning capability into dialogue systems in a more scalable and generalizable manner. Our proposed method allows a single transformer model to directly walk on a large-scale knowledge graph to generate responses. To the best of our knowledge, this is the first work to have transformer models generate responses by reasoning over differentiable knowledge graphs. We investigate the reasoning abilities of the proposed method on both task-oriented and domain-specific chit-chat dialogues. Empirical results show that this method can effectively and efficiently incorporate a knowledge graph into a dialogue system with fully-interpretable reasoning paths.
翻訳日:2022-03-23 08:21:42 公開日:2022-03-20
# (参考訳) 医用画像解析における異常検出の強化のための複数のエキスパートアノテーションからの学習 [全文訳有]

Learning from Multiple Expert Annotators for Enhancing Anomaly Detection in Medical Image Analysis ( http://arxiv.org/abs/2203.10611v1 )

ライセンス: CC BY 4.0
Khiem H. Le, Tuan V. Tran, Hieu H. Pham, Hieu T. Nguyen, Tung T. Le, Ha Q. Nguyen(参考訳) データ駆動アプローチに基づく正確なコンピュータ支援診断システムを構築するには、大量の高品質のラベル付きデータが必要である。 医用画像解析では、複数の専門家が、その専門知識や経験に応じて、アノテーションプロセス中に「根拠真理ラベル」に関する主観的な評価を行うことが多い。 その結果、ラベル付きデータは、注釈者間の不一致率が高い様々な人間のバイアスを含み、教師付き機械学習アルゴリズムの性能に大きな影響を及ぼす可能性がある。 この課題に取り組むために,複数の放射線医学専門家の注釈を組み合わせることで,医療スキャンで異常を検出することを目的とした深層学習に基づく検出器を訓練する手法を提案する。 提案手法はまず,トレーニング例の真理アノテーションと信頼度を推定する。 推定アノテーションとそのスコアは、異常な発見をローカライズするために、再重み付き損失関数を持つディープラーニング検出器のトレーニングに使用される。 シミュレーションおよび実世界の医療画像データセットを用いて,提案手法の広範な実験的評価を行う。 実験の結果,提案手法はアノテーション間の不一致を考慮しないベースラインアプローチを著しく上回っており,各アノテーションを基底的真理として等しく扱う手法や,アノテーションによって別々に提供される異なるラベル集合で訓練された異なるモデルのアンサンブルを含む。

Building an accurate computer-aided diagnosis system based on data-driven approaches requires a large amount of high-quality labeled data. In medical imaging analysis, multiple expert annotators often produce subjective estimates about "ground truth labels" during the annotation process, depending on their expertise and experience. As a result, the labeled data may contain a variety of human biases with a high rate of disagreement among annotators, which significantly affect the performance of supervised machine learning algorithms. To tackle this challenge, we propose a simple yet effective approach to combine annotations from multiple radiology experts for training a deep learning-based detector that aims to detect abnormalities on medical scans. The proposed method first estimates the ground truth annotations and confidence scores of training examples. The estimated annotations and their scores are then used to train a deep learning detector with a re-weighted loss function to localize abnormal findings. We conduct an extensive experimental evaluation of the proposed approach on both simulated and real-world medical imaging datasets. The experimental results show that our approach significantly outperforms baseline approaches that do not consider the disagreements among annotators, including methods in which all of the noisy annotations are treated equally as ground truth and the ensemble of different models trained on different label sets provided separately by annotators.
翻訳日:2022-03-23 08:04:58 公開日:2022-03-20
# (参考訳) VinDr-PCXR:小児の一般的な胸部疾患の解釈のための大規模胸部X線撮影データセット [全文訳有]

VinDr-PCXR: An open, large-scale chest radiograph dataset for interpretation of common thoracic diseases in children ( http://arxiv.org/abs/2203.10612v1 )

ライセンス: CC BY 4.0
Ngoc H. Nguyen, Hieu H. Pham, Thanh T. Tran, Tuan N.M. Nguyen, and Ha Q. Nguyen(参考訳) 成人胸部X線撮影(CXR)におけるコンピュータ支援診断システムは,大規模な注釈付きデータセットの利用可能化と高性能教師あり学習アルゴリズムの出現により,近年大きな成功を収めている。 しかし、CXRスキャンにおける小児疾患の検出・診断のための診断モデルの開発は、高品質な医師注記データセットが欠如していることから行われている。 この課題を克服するために、2020年から2021年にかけてベトナムの大手小児病院から遡及的に収集された9,125の新たな小児CXRデータセットであるVinDr-PCXRを紹介し、リリースする。 各スキャンには10年以上の経験のある小児放射線科医が手動で注釈を付けた。 このデータセットには36の批判的所見と15の疾患があった。 特に,画像上の長方形のバウンディングボックスを用いて,各異常を同定した。 我々の知る限り、複数の所見や疾患を検出するための病変レベルのアノテーションと画像レベルのラベルを含む、最初の、かつ最大のCXRデータセットである。 アルゴリズム開発のために、データセットは7,728のトレーニングセットと1,397のテストセットに分割された。 データ駆動型アプローチによる小児CXR解釈の新たな進歩を促進するため、VinDr-PCXRデータサンプルの詳細な説明とデータセットをhttps://physionet.or g/で公開する。

Computer-aided diagnosis systems in adult chest radiography (CXR) have recently achieved great success thanks to the availability of large-scale, annotated datasets and the advent of high-performance supervised learning algorithms. However, the development of diagnostic models for detecting and diagnosing pediatric diseases in CXR scans is undertaken due to the lack of high-quality physician-annotated datasets. To overcome this challenge, we introduce and release VinDr-PCXR, a new pediatric CXR dataset of 9,125 studies retrospectively collected from a major pediatric hospital in Vietnam between 2020 and 2021. Each scan was manually annotated by a pediatric radiologist who has more than ten years of experience. The dataset was labeled for the presence of 36 critical findings and 15 diseases. In particular, each abnormal finding was identified via a rectangle bounding box on the image. To the best of our knowledge, this is the first and largest pediatric CXR dataset containing lesion-level annotations and image-level labels for the detection of multiple findings and diseases. For algorithm development, the dataset was divided into a training set of 7,728 and a test set of 1,397. To encourage new advances in pediatric CXR interpretation using data-driven approaches, we provide a detailed description of the VinDr-PCXR data sample and make the dataset publicly available on https://physionet.or g/.
翻訳日:2022-03-23 07:48:46 公開日:2022-03-20
# (参考訳) DQNは本当に学んでいますか? Pongにおける対人訓練の取り組み [全文訳有]

Does DQN really learn? Exploring adversarial training schemes in Pong ( http://arxiv.org/abs/2203.10614v1 )

ライセンス: CC BY 4.0
Bowen He, Sreehari Rammohan, Jessica Forde, Michael Littman(参考訳) そこで本研究では,自己プレイ型学習システムであるchainerとpoolについて検討し,atari pongのエージェント性能が通常のdqnエージェントと比較して向上することを示した。 エージェントのパフォーマンスを測定するために,エージェントの学習方針を破る戦略を学ぶのがいかに難しいかを計測するロバストネス指標を定義した。 過去のバージョンをプレイすることで、ChainerとPoolはポリシーの弱点を標的にし、攻撃に対する抵抗を改善することができる。 これらの手法を用いて訓練されたエージェントは、我々のロバストネス測定値でよく得点し、標準のDQNエージェントを容易に打ち負かすことができる。 我々は、線形探索を用いて、異なるエージェントがゲームのために開発する内部構造を照らし出す。 ストリンカーやプールを持つトレーニングエージェントは、標準的なdqnエージェントよりも重要なゲーム状態の特徴を推定する予測能力が高く、よりリッチなネットワークアクティベーションをもたらす。

In this work, we study two self-play training schemes, Chainer and Pool, and show they lead to improved agent performance in Atari Pong compared to a standard DQN agent -- trained against the built-in Atari opponent. To measure agent performance, we define a robustness metric that captures how difficult it is to learn a strategy that beats the agent's learned policy. Through playing past versions of themselves, Chainer and Pool are able to target weaknesses in their policies and improve their resistance to attack. Agents trained using these methods score well on our robustness metric and can easily defeat the standard DQN agent. We conclude by using linear probing to illuminate what internal structures the different agents develop to play the game. We show that training agents with Chainer or Pool leads to richer network activations with greater predictive power to estimate critical game-state features compared to the standard DQN agent.
翻訳日:2022-03-23 07:39:40 公開日:2022-03-20
# (参考訳) 接近物体に対するロコモーション政策の階層的強化学習--予備的研究 [全文訳有]

Hierarchical Reinforcement Learning of Locomotion Policies in Response to Approaching Objects: A Preliminary Study ( http://arxiv.org/abs/2203.10616v1 )

ライセンス: CC BY 4.0
Shangqun Yu, Sreehari Rammohan, Kaiyu Zheng, George Konidaris(参考訳) ウサギや鳥のような動物は、物体を見たことがなく、物体の性質の認識が限られているにもかかわらず、人間や岩のような動的に接近する物体に反応して、即座に移動行動を起こすことができる。 近年,人間型ロボットなどの複雑な運動系がA地点からB地点へ移動し,自然界における動物の自然反応の観察に触発されて,ロボットの移動の進展をロボットに部分的に観察可能な外部の動的物体が関与する環境にまで拡大したいと考えている。 この目標に向けた第一歩として,手足のロボットがボールにぶつからないようにするためのシミュレーション環境を MuJoCo 内に構築する。 本研究は,動物が通常持っている運動経験が,階層的強化学習フレームワークの下での反応制御政策の学習に有用かどうかを検討する。 予備的な結果は、部分観測可能性(半径に基づく物体視認性)を考慮しても、この階層的強化学習法を用いて学習がより効率的になるという主張を支持する。

Animals such as rabbits and birds can instantly generate locomotion behavior in reaction to a dynamic, approaching object, such as a person or a rock, despite having possibly never seen the object before and having limited perception of the object's properties. Recently, deep reinforcement learning has enabled complex kinematic systems such as humanoid robots to successfully move from point A to point B. Inspired by the observation of the innate reactive behavior of animals in nature, we hope to extend this progress in robot locomotion to settings where external, dynamic objects are involved whose properties are partially observable to the robot. As a first step toward this goal, we build a simulation environment in MuJoCo where a legged robot must avoid getting hit by a ball moving toward it. We explore whether prior locomotion experiences that animals typically possess benefit the learning of a reactive control policy under a proposed hierarchical reinforcement learning framework. Preliminary results support the claim that the learning becomes more efficient using this hierarchical reinforcement learning method, even when partial observability (radius-based object visibility) is taken into account.
翻訳日:2022-03-23 07:34:10 公開日:2022-03-20
# (参考訳) 光コヒーレンストモグラフィ分類のための医師診断を用いたマルチモーダル学習 [全文訳有]

Multi-Modal Learning Using Physicians Diagnostics for Optical Coherence Tomography Classification ( http://arxiv.org/abs/2203.10622v1 )

ライセンス: CC BY 4.0
Y. Logan, K. Kokilepersaud, G. Kwon and G. AlRegib, C. Wykoff, H. Yu(参考訳) 本稿では,マルチモーダル学習を用いた光コヒーレンストモグラフィ(oct)の分析に専門家の診断と洞察を組み込んだ枠組みを提案する。 本手法の有効性を示すために, OCTを用いた疾患分類を改善するための診断属性データセットを作成する。 OCTにおける疾患分類のための機械学習の展開は成功したが、そのような手法には専門家の洞察が欠けている。 我々は、学習フレームワークにおける別の監督として眼科評価を注入することは、正確かつ解釈可能な分類を行うための機械学習プロセスにとって非常に重要であると論じている。 提案手法は,診断属性特徴と潜在視覚表現とを組み合わせた総合的な実験により実証し,それらが最先端のアプローチを上回ることを示す。 最後に,提案するデュアルストリームアーキテクチャを分析し,分類性能に最も寄与するコンポーネントを決定する洞察を与える。

In this paper, we propose a framework that incorporates experts diagnostics and insights into the analysis of Optical Coherence Tomography (OCT) using multi-modal learning. To demonstrate the effectiveness of this approach, we create a medical diagnostic attribute dataset to improve disease classification using OCT. Although there have been successful attempts to deploy machine learning for disease classification in OCT, such methodologies lack the experts insights. We argue that injecting ophthalmological assessments as another supervision in a learning framework is of great importance for the machine learning process to perform accurate and interpretable classification. We demonstrate the proposed framework through comprehensive experiments that compare the effectiveness of combining diagnostic attribute features with latent visual representations and show that they surpass the state-of-the-art approach. Finally, we analyze the proposed dual-stream architecture and provide an insight that determine the components that contribute most to classification performance.
翻訳日:2022-03-23 07:27:51 公開日:2022-03-20
# (参考訳) 大規模機械読解システムの校正 [全文訳有]

Calibration of Machine Reading Systems at Scale ( http://arxiv.org/abs/2203.10623v1 )

ライセンス: CC BY 4.0
Shehzaad Dhuliawala, Leonard Adolphs, Rajarshi Das, Mrinmaya Sachan(参考訳) 一般的な機械学習システムでは、予測に対するシステムの信頼度を評価するために予測の確率を推定する。 つまり、予測に対するシステムの信頼度は、予測された出力の真の確率と一致しない。 本稿では,オープンドメイン質問応答やクレーム検証システムなどのオープンセッティングマシン読解システムの校正について検討する。 個別検索や深層読解成分を含む複雑なシステムの校正は困難であり,現在の校正手法はこれらの設定には適用できない。 これらの設定に適応できる既存のキャリブレーションアプローチへの簡単な拡張を提案する。 実験結果から,本手法は有効であり,解答システムに解答不能あるいは解答不能な分布質問が生じた場合の解答を選択的に予測する上で有用であることがわかった。

In typical machine learning systems, an estimate of the probability of the prediction is used to assess the system's confidence in the prediction. This confidence measure is usually uncalibrated; i.e.\ the system's confidence in the prediction does not match the true probability of the predicted output. In this paper, we present an investigation into calibrating open setting machine reading systems such as open-domain question answering and claim verification systems. We show that calibrating such complex systems which contain discrete retrieval and deep reading components is challenging and current calibration techniques fail to scale to these settings. We propose simple extensions to existing calibration approaches that allows us to adapt them to these settings. Our experimental results reveal that the approach works well, and can be useful to selectively predict answers when question answering systems are posed with unanswerable or out-of-the-training distribution questions.
翻訳日:2022-03-23 07:18:19 公開日:2022-03-20
# (参考訳) 強化学習に基づくレコメンダシステムにおける明示的ユーザ操作

Explicit User Manipulation in Reinforcement Learning Based Recommender Systems ( http://arxiv.org/abs/2203.10629v1 )

ライセンス: CC BY 4.0
Matthew Sparr(参考訳) レコメンダシステムは、ユーザとプラットフォーム、それらを利用するサービスの両方に価値があるため、現代世界では非常に普及しています。 一般的には、ユーザエクスペリエンスを改善し、満足度を高めることができるが、リスクは伴わない。 そのようなリスクの1つは、ユーザへの影響と、ユーザの好みを形作る上でアクティブな役割を果たす能力である。 このリスクは強化学習に基づく推薦システムにとってより重要である。 例えば、今日のユーザに推奨されるコンテンツが、将来推奨される他のコンテンツに対するユーザの好みを阻害する可能性があることを学習することができる。 強化学習に基づくレコメンデーションシステムは、クリック、エンゲージメント、消費の最大化を意味するならば、暗黙的にユーザに影響を与えることができる。 特にソーシャルニュースやメディアプラットフォームでは、この種の行動が警告の原因となっている。 ソーシャルメディアは間違いなく世論において役割を担っており、政治的二極化の増大に寄与する要因となっている。 このようなプラットフォーム上のレコメンダシステムは、望ましくない方法でユーザに影響を与える大きな可能性を秘めている。 しかし、このような操作を意図的に使用することも可能かもしれない。 政治的意見のダイナミックスモデリングやユーザデータの大規模な収集の進展に伴い、ユーザの信念や意見が一定の目的に向けて調整された明示的なユーザ操作が、強化学習に基づくレコメンデータシステムにおいて重要な関心事として出現する。

Recommender systems are highly prevalent in the modern world due to their value to both users and platforms and services that employ them. Generally, they can improve the user experience and help to increase satisfaction, but they do not come without risks. One such risk is that of their effect on users and their ability to play an active role in shaping user preferences. This risk is more significant for reinforcement learning based recommender systems. These are capable of learning for instance, how recommended content shown to a user today may tamper that user's preference for other content recommended in the future. Reinforcement learning based recommendation systems can thus implicitly learn to influence users if that means maximizing clicks, engagement, or consumption. On social news and media platforms, in particular, this type of behavior is cause for alarm. Social media undoubtedly plays a role in public opinion and has been shown to be a contributing factor to increased political polarization. Recommender systems on such platforms, therefore, have great potential to influence users in undesirable ways. However, it may also be possible for this form of manipulation to be used intentionally. With advancements in political opinion dynamics modeling and larger collections of user data, explicit user manipulation in which the beliefs and opinions of users are tailored towards a certain end emerges as a significant concern in reinforcement learning based recommender systems.
翻訳日:2022-03-23 07:04:41 公開日:2022-03-20
# (参考訳) V2X-ViT:視覚変換器を用いた車両間協調認識 [全文訳有]

V2X-ViT: Vehicle-to-Everythin g Cooperative Perception with Vision Transformer ( http://arxiv.org/abs/2203.10638v1 )

ライセンス: CC BY 4.0
Runsheng Xu, Hao Xiang, Zhengzhong Tu, Xin Xia, Ming-Hsuan Yang, Jiaqi Ma(参考訳) 本稿では、車両間通信(v2x)の自動運転車の認識性能向上への応用について検討する。 本稿では,新しい視覚変換器を用いたV2X通信を用いたロバストな協調認識フレームワークを提案する。 具体的には、道路上のエージェント(車やインフラなど)間で情報を効果的に融合するために、総合的な注意モデル、すなわちV2X-ViTを構築します。 V2X-ViTは異質なマルチエージェント・セルフアテンションとマルチスケールウィンドウ・セルフアテンションの交互層で構成され、エージェント間相互作用とエージェントごとの空間関係をキャプチャする。 これらの重要なモジュールは、非同期情報共有、ポーズエラー、V2Xコンポーネントの不均一性など、共通のV2X課題を処理するために、統合トランスフォーマーアーキテクチャで設計されている。 提案手法を検証するため,CARLAとOpenCDAを用いた大規模V2X知覚データセットを作成する。 大規模実験により,V2X-ViTは3次元物体検出のための最先端性能を新たに設定し,厳しい騒音環境下においても頑健な性能を実現することが示された。 データセット、ソースコード、トレーニングされたモデルはオープンソースになる。

In this paper, we investigate the application of Vehicle-to-Everythin g (V2X) communication to improve the perception performance of autonomous vehicles. We present a robust cooperative perception framework with V2X communication using a novel vision Transformer. Specifically, we build a holistic attention model, namely V2X-ViT, to effectively fuse information across on-road agents (i.e., vehicles and infrastructure). V2X-ViT consists of alternating layers of heterogeneous multi-agent self-attention and multi-scale window self-attention, which captures inter-agent interaction and per-agent spatial relationships. These key modules are designed in a unified Transformer architecture to handle common V2X challenges, including asynchronous information sharing, pose errors, and heterogeneity of V2X components. To validate our approach, we create a large-scale V2X perception dataset using CARLA and OpenCDA. Extensive experimental results demonstrate that V2X-ViT sets new state-of-the-art performance for 3D object detection and achieves robust performance even under harsh, noisy environments. The dataset, source code, and trained models will be open-sourced.
翻訳日:2022-03-23 07:02:36 公開日:2022-03-20
# (参考訳) 衛星地球物理場の時空再構成のためのマルチモーダル学習に基づくインバージョンモデル [全文訳有]

Multimodal learning-based inversion models for the space-time reconstruction of satellite-derived geophysical fields ( http://arxiv.org/abs/2203.10640v1 )

ライセンス: CC BY 4.0
Ronan Fablet, Bertrand Chapron(参考訳) 多数の地球観測応用のためには、様々な衛星センサーの恩恵を受け、あるプロセスの再構築や興味ある情報に対処することができる。 様々な衛星センサーは、衛星軌道と大気環境(例えば、クローカバー、豪雨、...)に対する感度によって異なるサンプリングパターンを持つ観測データを提供する。 不規則にサンプリングされた観測を考慮できるだけでなく、モデル駆動反転法の定義はしばしば、異なる観測源を関連付けるために物理モデルを明確に導出できる特定のケーススタディに制限される。 本稿では,マルチモーダル・インバージョン問題に対処する新たな方法として,エンドツーエンドの学習方式を提案する。 提案されたスキームは、変分定式化と訓練可能な観測演算子、項と解法を組み合わせたものである。 宇宙海洋学への応用により,衛星から得られた海面温度画像から関連情報を抽出し,衛星高度データから発生する海面電流の再構成を促進できることを示す。

For numerous earth observation applications, one may benefit from various satellite sensors to address the reconstruction of some process or information of interest. A variety of satellite sensors deliver observation data with different sampling patterns due satellite orbits and/or their sensitivity to atmospheric conditions (e.g., clour cover, heavy rains,...). Beyond the ability to account for irregularly-sampled observations, the definition of model-driven inversion methods is often limited to specific case-studies where one can explicitly derive a physical model to relate the different observation sources. Here, we investigate how end-to-end learning schemes provide new means to address multimodal inversion problems. The proposed scheme combines a variational formulation with trainable observation operators, {\em a priori} terms and solvers. Through an application to space oceanography, we show how this scheme can successfully extract relevant information from satellite-derived sea surface temperature images and enhance the reconstruction of sea surface currents issued from satellite altimetry data.
翻訳日:2022-03-23 06:37:13 公開日:2022-03-20
# (参考訳) 非パラメトリック回帰に対する信頼区間

Confidence intervals for nonparametric regression ( http://arxiv.org/abs/2203.10643v1 )

ライセンス: CC BY 4.0
David Barrera(参考訳) 我々は、ラデマッハ理論の観点から、一般的な損失関数を持つ回帰スキームのコストに対する確率の漸近的境界を実証し、議論し、Vapnik-Chervonenkis理論の観点から、最小二乗回帰結果の条件付き期待に対する平均$L^{2}$-distanceに対する最適性について論じる。 結果は,非定常的かつ独立的なトレーニングサンプルを含む分析から得られたものであり,トレーニングサンプルが依存性を示す関連事例に対して,説明・説明のように拡張することができる。

We demonstrate and discuss nonasymptotic bounds in probability for the cost of a regression scheme with a general loss function from the perspective of the Rademacher theory, and for the optimality with respect to the average $L^{2}$-distance to the underlying conditional expectations of least squares regression outcomes from the perspective of the Vapnik-Chervonenkis theory. The results follow from an analysis involving independent but possibly nonstationary training samples and can be extended, in a manner that we explain and illustrate, to relevant cases in which the training sample exhibits dependence.
翻訳日:2022-03-23 06:29:22 公開日:2022-03-20
# (参考訳) スタンスから懸念へ:命題分析の新たな課題・領域への適応 [全文訳有]

From Stance to Concern: Adaptation of Propositional Analysis to New Tasks and Domains ( http://arxiv.org/abs/2203.10659v1 )

ライセンス: CC BY 4.0
Brodie Mather, Bonnie J Dorr, Adam Dalton, William de Beaumont, Owen Rambow, Sonja M. Schmer-Galunder(参考訳) 本稿では、命題分析(述語対)を新しいタスクや領域に適応するための一般化パラダイムを提案する。 我々は、姿勢(信念駆動の感情)と関心(道徳的次元や意見を伴うトピックの問題)の類似を利用して説明表現を生成する。 重要な貢献は、ドメインに依存しない関心タイプ(ドメイン当たり2~4時間労働)を抽出するための半自動リソースビルディングと、ドメインに依存しない道徳的次元の抽出と支持値の完全な自動手順を組み合わせることである。 意味的類似性(semantic similarity)による、命題構造からの語の選択は、強い基準レキシコンを超えた3段階の粒度で新しい道徳次元レキシコンを生成する。 我々は,専門家アノテータに基づく基礎的真理(GT)を開発し,懸念検出出力をGTと比較し,基準値よりも231%向上し,精度は10%低下した。 F1はベースラインよりも66%、人間のパフォーマンスは97.8%向上した。 我々の語彙に基づくアプローチは、コストのかかる人的労働とモデル構築を採用するアプローチよりも大きな節約をもたらす。 新たに拡張したモラルディメンション/バリューレキシコン,アノテーションガイドライン,gtをコミュニティに提供する。

We present a generalized paradigm for adaptation of propositional analysis (predicate-argument pairs) to new tasks and domains. We leverage an analogy between stances (belief-driven sentiment) and concerns (topical issues with moral dimensions/endorseme nts) to produce an explanatory representation. A key contribution is the combination of semi-automatic resource building for extraction of domain-dependent concern types (with 2-4 hours of human labor per domain) and an entirely automatic procedure for extraction of domain-independent moral dimensions and endorsement values. Prudent (automatic) selection of terms from propositional structures for lexical expansion (via semantic similarity) produces new moral dimension lexicons at three levels of granularity beyond a strong baseline lexicon. We develop a ground truth (GT) based on expert annotators and compare our concern detection output to GT, to yield 231% improvement in recall over baseline, with only a 10% loss in precision. F1 yields 66% improvement over baseline and 97.8% of human performance. Our lexically based approach yields large savings over approaches that employ costly human labor and model building. We provide to the community a newly expanded moral dimension/value lexicon, annotation guidelines, and GT.
翻訳日:2022-03-23 06:28:24 公開日:2022-03-20
# ECAPA-TDNNによる音声合成

ECAPA-TDNN for Multi-speaker Text-to-speech Synthesis ( http://arxiv.org/abs/2203.10473v1 )

ライセンス: Link先を確認
Jinlong Xue, Yayue Deng, Ya Li, Jianqing Sun, Jiaen Liang(参考訳) 近年,マルチ話者音声合成(TTS)のためのニューラルネットワークモデルが大きな進歩を遂げている。 しかし、これらの手法で使用される現在の話者エンコーダモデルでは十分な話者情報を取得できない。 本稿では,よりパワフルなスピーカエンコーダを導入することにより,高品質な音声を生成できるとともに,視聴覚・視聴覚両話者の類似度を向上させるエンドツーエンド手法を提案する。 この方法は、話者検証タスクから得られた最先端TDNNベースのECAPA-TDNNに基づく話者エンコーダと、FastSpeech2ベースのシンセサイザーと、HiFi-GANボコーダの3つの別々に訓練されたコンポーネントから構成される。 異なる話者エンコーダモデルを比較することにより,実測および未観測テストセットの自然性および類似性が向上する。 合成音声を効率よく評価するために,ディープラーニングに基づく自動MOS評価手法を初めて導入し,これらの手法は自動音声品質評価において大きな可能性を示す。

In recent years, the neural network-based model for multi-speaker text-to-speech synthesis (TTS) has made significant progress. However, the current speaker encoder models used in these methods cannot capture enough speaker information. In this paper, we propose an end-to-end method that is able to generate high-quality speech and better similarity for both seen and unseen speakers by introducing a more powerful speaker encoder. The method consists of three separately trained components: a speaker encoder based on the state-of-the-art TDNN-based ECAPA-TDNN derived from speaker verification task, a FastSpeech2 based synthesizer, and a HiFi-GAN vocoder. By comparing different speaker encoder models, our proposed method can achieve better naturalness and similarity in seen and unseen test sets. To efficiently evaluate our synthesized speech, we are the first to adopt deep-learning-based automatic MOS evaluation methods to assess our results, and these methods show great potential in automatic speech quality assessment.
翻訳日:2022-03-22 19:25:01 公開日:2022-03-20
# 無人航空機制御作業における強化学習報酬関数

Reinforcement learning reward function in unmanned aerial vehicle control tasks ( http://arxiv.org/abs/2203.10519v1 )

ライセンス: Link先を確認
Mikhail S. Tovarnov and Nikita V. Bykov(参考訳) 本稿では,無人航空機(uav)制御と航法問題において,深層強化学習に使用できる新たな報酬関数を提案する。 報酬関数は、三階ベジエ曲線である目標に対する簡略化された軌跡の時間の構成と推定に基づいている。 この報酬関数は、2次元および3次元の仮想環境の問題を解決するために変更できる。 報酬関数の有効性は, 推力, 慣性, 重力, 空力抵抗の力を考慮して, uav制御と飛行のダイナミクスを記述する簡易な2次元環境として新たに開発された仮想環境において検証された。 この定式化では、UAV制御とナビゲーションの3つのタスクがうまく解決され、UAVは宇宙の特定の地点への飛行、別のUAVによるインターセプションの回避、そして別のUAVによるインターセプションの組織化である。 最も関連性の高い3つの深層強化学習アルゴリズム、ソフトアクタークリティカル、深層決定主義政策グラディエント、ツイン遅延深層決定主義政策グラディエントが使用された。 3つのアルゴリズムはいずれも良好に動作し,選択した報酬関数の有効性を示した。

This paper presents a new reward function that can be used for deep reinforcement learning in unmanned aerial vehicle (UAV) control and navigation problems. The reward function is based on the construction and estimation of the time of simplified trajectories to the target, which are third-order Bezier curves. This reward function can be applied unchanged to solve problems in both two-dimensional and three-dimensional virtual environments. The effectiveness of the reward function was tested in a newly developed virtual environment, namely, a simplified two-dimensional environment describing the dynamics of UAV control and flight, taking into account the forces of thrust, inertia, gravity, and aerodynamic drag. In this formulation, three tasks of UAV control and navigation were successfully solved: UAV flight to a given point in space, avoidance of interception by another UAV, and organization of interception of one UAV by another. The three most relevant modern deep reinforcement learning algorithms, Soft actor-critic, Deep Deterministic Policy Gradient, and Twin Delayed Deep Deterministic Policy Gradient were used. All three algorithms performed well, indicating the effectiveness of the selected reward function.
翻訳日:2022-03-22 19:24:36 公開日:2022-03-20
# ダークサイド: edaの機械学習におけるセキュリティの懸念

The Dark Side: Security Concerns in Machine Learning for EDA ( http://arxiv.org/abs/2203.10597v1 )

ライセンス: Link先を確認
Zhiyao Xie and Jingyu Pan and Chen-Chia Chang and Yiran Chen(参考訳) ICの複雑さが増大するにつれ、新しい電子設計自動化(EDA)手法によって設計効率の向上が著しく求められている。 近年、機械学習(ML)技術により、多くの先例のない効率的なEDA手法が実現されている。 しかし、MLは回路設計における大きな可能性を示しているが、セキュリティ問題に関するダークサイドは、ほとんど議論されていない。 本稿では,ML for EDAにおけるすべてのセキュリティ問題について,包括的かつ公平に概説する。 多くはこの分野の実践者によって隠されたり無視されたりしている。 本稿では,まず4つの主要なセキュリティ問題を定義するための分類法を提案し,その上で,ML for EDAにおけるさまざまなアプリケーションシナリオと特別な特性を分析した。 その後,各セキュリティの問題点について,実験により詳細な分析を行う。

The growing IC complexity has led to a compelling need for design efficiency improvement through new electronic design automation (EDA) methodologies. In recent years, many unprecedented efficient EDA methods have been enabled by machine learning (ML) techniques. While ML demonstrates its great potential in circuit design, however, the dark side about security problems, is seldomly discussed. This paper gives a comprehensive and impartial summary of all security concerns we have observed in ML for EDA. Many of them are hidden or neglected by practitioners in this field. In this paper, we first provide our taxonomy to define four major types of security concerns, then we analyze different application scenarios and special properties in ML for EDA. After that, we present our detailed analysis of each security concern with experiments.
翻訳日:2022-03-22 19:24:16 公開日:2022-03-20
# RareGAN: 希少クラスのサンプル生成

RareGAN: Generating Samples for Rare Classes ( http://arxiv.org/abs/2203.10674v1 )

ライセンス: Link先を確認
Zinan Lin, Hao Liang, Giulia Fanti, Vyas Sekar(参考訳) ラベル付きデータセットの希少クラスに対して,ラベリング予算を対象とするgans(generative adversarial network)の学習問題について検討する。 この問題は、セキュリティ(DNS増幅攻撃のためのパケットの合成など)、システムとネットワーク(高いリソース使用を誘発するワークロードの合成など)、マシンラーニング(まれなクラスからのイメージ生成など)といった分野の実践的な応用から動機づけられている。 既存のアプローチは不適切であり、完全なラベル付きデータセットを必要とするか、一般的なクラスのクラスに対するレアクラスの忠実さを犠牲にする。 本研究では,条件付きganをラベル付きデータとラベル付きデータに拡張し,より汎用性を高めること,最も有用なラベルを要求するアクティブラーニングアプローチ,そして,希少クラス学習を優先する重み付き損失関数の3つの重要な概念を新たに合成するレアガンを提案する。 我々は、RareGANが、異なるアプリケーション、予算、希少なクラス分数、GAN損失、アーキテクチャにわたる以前の作業よりも、レアクラスの忠実度と多様性のトレードオフを達成していることを示す。

We study the problem of learning generative adversarial networks (GANs) for a rare class of an unlabeled dataset subject to a labeling budget. This problem is motivated from practical applications in domains including security (e.g., synthesizing packets for DNS amplification attacks), systems and networking (e.g., synthesizing workloads that trigger high resource usage), and machine learning (e.g., generating images from a rare class). Existing approaches are unsuitable, either requiring fully-labeled datasets or sacrificing the fidelity of the rare class for that of the common classes. We propose RareGAN, a novel synthesis of three key ideas: (1) extending conditional GANs to use labelled and unlabelled data for better generalization; (2) an active learning approach that requests the most useful labels; and (3) a weighted loss function to favor learning the rare class. We show that RareGAN achieves a better fidelity-diversity tradeoff on the rare class than prior work across different applications, budgets, rare class fractions, GAN losses, and architectures.
翻訳日:2022-03-22 19:22:00 公開日:2022-03-20
# ノイズテールは深いreluネットワークにどのように影響するか?

How do noise tails impact on deep ReLU networks? ( http://arxiv.org/abs/2203.10418v1 )

ライセンス: Link先を確認
Jianqing Fan, Yihong Gu, Wen-Xin Zhou(参考訳) 本稿では, 雑音が有限位相しか持たないという仮定の下で, 非パラメトリック回帰に対する深いReLUニューラルネットワークの安定性について検討する。 本稿では,階層的構成構造を持つ非パラメトリック回帰関数のクラスにおいて,適応型フーバー損失と深層reluニューラルネットワークを用いた場合,収束の最適速度がp,滑らか度,内在次元にどのように依存するかを明らかにする。 この最適収束率は通常の最小二乗法では得られないが、サンプルサイズ、滑らかさ、モーメントパラメータに適応する適切に選択されたパラメータを持つフーバー損失によって達成できる。 最適化誤差を許容する適応型フーバーreluニューラルネットワーク推定器の濃度不等式も導出する。 フーバー損失を用いたニューラルネットワーク推定器のクラス内のマッチング下限を確立するために、従来の経路とは異なる戦略を採用し、真の機能よりも優れた経験的損失を持つ深いreluネットワーク推定器を構築し、これら2つの関数の違いは低いバウンドを提供する。 このステップはHuberizationバイアスに関連しているが、より重要なのは深いReLUネットワークの近似性である。 その結果,深層reluニューラルネットワークの近似理論において新たな結果が得られた。

This paper investigates the stability of deep ReLU neural networks for nonparametric regression under the assumption that the noise has only a finite p-th moment. We unveil how the optimal rate of convergence depends on p, the degree of smoothness and the intrinsic dimension in a class of nonparametric regression functions with hierarchical composition structure when both the adaptive Huber loss and deep ReLU neural networks are used. This optimal rate of convergence cannot be obtained by the ordinary least squares but can be achieved by the Huber loss with a properly chosen parameter that adapts to the sample size, smoothness, and moment parameters. A concentration inequality for the adaptive Huber ReLU neural network estimators with allowable optimization errors is also derived. To establish a matching lower bound within the class of neural network estimators using the Huber loss, we employ a different strategy from the traditional route: constructing a deep ReLU network estimator that has a better empirical loss than the true function and the difference between these two functions furnishes a low bound. This step is related to the Huberization bias, yet more critically to the approximability of deep ReLU networks. As a result, we also contribute some new results on the approximation theory of deep ReLU neural networks.
翻訳日:2022-03-22 18:48:24 公開日:2022-03-20
# 2目的最適化のための確率交互アルゴリズムの収束率

Convergence rates of the stochastic alternating algorithm for bi-objective optimization ( http://arxiv.org/abs/2203.10605v1 )

ライセンス: Link先を確認
Suyun Liu and Luis Nunes Vicente(参考訳) 二目的最適化のための確率交互アルゴリズムは、各関数に対して最適化ステップを別々に適用しなければならない2つの競合関数を最適化する際に考慮される。 このようなアルゴリズムは、各イテレーションにおいてそれぞれの目的に対して、一定のステップの勾配または緩やかな降下を適用することで構成される。 本稿では, 2つの関数の重み付き和の最小値を決定するために, 強い凸性の下で, 確率的交互化アルゴリズムが$\mathcal{O}(1/T)$のサブ線形収束率を達成できることを示す。 凸ケースの拡張は、そのレートが$\mathcal{o}(1/\sqrt{t})$に弱くなることを示す。 これらの値は非滑らかな場合においても有効である。 重要なことに、各関数に適用されるステップの割合を変えることで、パレートフロントへの近似を決定することができる。

Stochastic alternating algorithms for bi-objective optimization are considered when optimizing two conflicting functions for which optimization steps have to be applied separately for each function. Such algorithms consist of applying a certain number of steps of gradient or subgradient descent on each single objective at each iteration. In this paper, we show that stochastic alternating algorithms achieve a sublinear convergence rate of $\mathcal{O}(1/T)$, under strong convexity, for the determination of a minimizer of a weighted-sum of the two functions, parameterized by the number of steps applied on each of them. An extension to the convex case is presented for which the rate weakens to $\mathcal{O}(1/\sqrt{T})$. These rates are valid also in the non-smooth case. Importantly, by varying the proportion of steps applied to each function, one can determine an approximation to the Pareto front.
翻訳日:2022-03-22 18:48:05 公開日:2022-03-20
# 物理測定としてのクエーリア:クエーリアと純粋概念の数学的モデル

Qualia as physical measurements: a mathematical model of qualia and pure concepts ( http://arxiv.org/abs/2203.10602v1 )

ライセンス: Link先を確認
Pedro Resende(参考訳) クォーリア空間は、点がクォーリアであり、開集合がルイスの意味での純粋概念であるソバー位相空間として定義され、主観的時間と論理的抽象の意識的な経験を伝える追加の代数的構造を持つ。 この構造は物理測定の空間のものと類似している。 クエーリアと測定値は同じ性質で、古典的な情報が生成され、物理的に保存される基本過程に対応しており、そのため、意識の難しい問題と測定問題は、同じ問題の2つの側面である。 クォーリア空間は、時空と意識エージェントの既存の概念とは無関係であるが、その構造はオブザーバーの導出幾何学モデルに適している。 intersubjectivity は、異なる観測者を量子重ね合わせの論理的なバージョンへと導く方法で関連付けることに基づいている。

A space of qualia is defined to be a sober topological space whose points are the qualia and whose open sets are the pure concepts in the sense of Lewis, carrying additional algebraic structure that conveys the conscious experience of subjective time and logical abstraction. This structure is analogous to that of a space of physical measurements. It is conjectured that qualia and measurements have the same nature, corresponding to fundamental processes via which classical information is produced and physically stored, and that therefore the hard problem of consciousness and the measurement problem are two facets of the same problem. The space of qualia is independent from any preexisting notions of spacetime and conscious agent, but its structure caters for a derived geometric model of observer. Intersubjectivity is based on relating different observers in a way that leads to a logical version of quantum superposition.
翻訳日:2022-03-22 18:47:49 公開日:2022-03-20
# 構造に基づく薬物設計のための3次元分子生成モデル

A 3D Molecule Generative Model for Structure-Based Drug Design ( http://arxiv.org/abs/2203.10446v1 )

ライセンス: Link先を確認
Shitong Luo, Jiaqi Guan, Jianzhu Ma, Jian Peng(参考訳) 我々は、特定のタンパク質結合部位に結合する分子を生成する構造に基づく薬物設計における根本的な問題を研究する。 薬物設計における深層生成モデルの成功をわれわれは見てきたが、既存の手法は主に文字列ベースかグラフベースである。 これらは空間情報の欠如によって制限され、構造ベースの設計タスクに適用できない。 特に、これらのモデルでは分子がターゲットタンパク質とどのように相互作用するかを正確に3D空間で知ることはほとんどない。 本稿では,指定された3Dタンパク質結合部位の分子を生成する3D生成モデルを提案する。 具体的には、3dコンテキストとして結合部位が与えられると、3d空間における原子の出現の確率密度を推定し、原子を持つ可能性が高い位置を高い確率で割り当てる。 3d分子を生成するために、我々は自己回帰サンプリングスキームを提案する -- 原子は学習された分布から新しい原子が存在しないまで連続的にサンプリングされる。 このサンプリング方式と組み合わせることで, 有効で多様な分子を生成でき, 分子サンプリングやリンカー設計など, 様々な構造に基づく分子設計タスクに適用できる。 実験の結果, 本モデルから採取した分子は, 特定の標的に対する高い結合親和性を示し, 薬物類似性などの優れた薬物特性を示すことがわかった。

We study a fundamental problem in structure-based drug design -- generating molecules that bind to specific protein binding sites. While we have witnessed the great success of deep generative models in drug design, the existing methods are mostly string-based or graph-based. They are limited by the lack of spatial information and thus unable to be applied to structure-based design tasks. Particularly, such models have no or little knowledge of how molecules interact with their target proteins exactly in 3D space. In this paper, we propose a 3D generative model that generates molecules given a designated 3D protein binding site. Specifically, given a binding site as the 3D context, our model estimates the probability density of atom's occurrences in 3D space -- positions that are more likely to have atoms will be assigned higher probability. To generate 3D molecules, we propose an auto-regressive sampling scheme -- atoms are sampled sequentially from the learned distribution until there is no room for new atoms. Combined with this sampling scheme, our model can generate valid and diverse molecules, which could be applicable to various structure-based molecular design tasks such as molecule sampling and linker design. Experimental results demonstrate that molecules sampled from our model exhibit high binding affinity to specific targets and good drug properties such as drug-likeness even if the model is not explicitly optimized for them.
翻訳日:2022-03-22 18:44:44 公開日:2022-03-20
# 過パラメータ化:外挿するモデルに必要な条件

Over-parameterizatio n: A Necessary Condition for Models that Extrapolate ( http://arxiv.org/abs/2203.10447v1 )

ライセンス: Link先を確認
Roozbeh Yousefzadeh(参考訳) 本研究では,トレーニングセットの凸殻の外側に模型を外挿する能力を持つためには,過パラメータ化を必要条件として検討する。 具体的には,画像分類やディープラーニングの応用など,分類モデルについて検討する。 そのようなモデルは、ドメインを分割し、各パーティション \cite{strang2019linear} にクラスを割り当てる分類関数である。 分割は決定境界によって定義され、分類モデル/関数も同様である。 訓練セットの凸船体はドメインのサブセットのみを占有するが、訓練されたモデルは訓練セットの凸船体だけでなく、領域全体を分割することができる。 これは、多くのテストサンプルがトレーニングセットの凸包の外側にあり、モデルがその凸包の外側の領域を分割する方法がその一般化に影響を及ぼすため重要である。 近似理論を用いて、オーバーパラメータ化はトレーニングセットの凸殻外領域の分割を制御するための必要条件であることを示す。 また,学習課題と学習セットに基づく過度なパラメータ化の概念について,より明確な定義を提案する。 画像と非画像の両方のデータセットの幾何学に関する実証的な証拠を示し、モデルによって実行される外挿の程度についての洞察を提供する。 ResNetモデルにより学習された64次元特徴空間を考察し,その空間における凸殻と決定境界の幾何学的配置について検討する。 また、外挿の概念を定式化し、モデルのスコープと関連付けます。 最後に、純粋および応用数学におけるリッチな外挿文学(例えば、ホイットニーの拡張問題)を概観し、その文脈に我々の理論を置く。

In this work, we study over-parameterizatio n as a necessary condition for having the ability for the models to extrapolate outside the convex hull of training set. We specifically, consider classification models, e.g., image classification and other applications of deep learning. Such models are classification functions that partition their domain and assign a class to each partition \cite{strang2019linear}. Partitions are defined by decision boundaries and so is the classification model/function. Convex hull of training set may occupy only a subset of the domain, but trained model may partition the entire domain and not just the convex hull of training set. This is important because many of the testing samples may be outside the convex hull of training set and the way in which a model partitions its domain outside the convex hull would be influential in its generalization. Using approximation theory, we prove that over-parameterizatio n is a necessary condition for having control over the partitioning of the domain outside the convex hull of training set. We also propose a more clear definition for the notion of over-parametrization based on the learning task and the training set at hand. We present empirical evidence about geometry of datasets, both image and non-image, to provide insights about the extent of extrapolation performed by the models. We consider a 64-dimensional feature space learned by a ResNet model and investigate the geometric arrangements of convex hulls and decision boundaries in that space. We also formalize the notion of extrapolation and relate it to the scope of the model. Finally, we review the rich extrapolation literature in pure and applied mathematics, e.g., the Whitney's Extension Problem, and place our theory in that context.
翻訳日:2022-03-22 18:44:22 公開日:2022-03-20
# CrossBeam: ボトムアッププログラム合成における検索学習

CrossBeam: Learning to Search in Bottom-Up Program Synthesis ( http://arxiv.org/abs/2203.10452v1 )

ライセンス: Link先を確認
Kensen Shi, Hanjun Dai, Kevin Ellis, Charles Sutton(参考訳) プログラム合成の多くのアプローチは、与えられた仕様を満たすものを見つけるためにプログラムの膨大な空間内で探索を実行する。 以前の研究では、組合せ探索アルゴリズムのガイドにニューラルネットワークを用いたが、そのようなアプローチは依然として検索空間の大部分を探索し、所望のプログラムのサイズが大きくなるとすぐに難解になる。 探索空間の爆発を抑えるため,組合せ探索アルゴリズムに頼らず,ボトムアップ合成のためのハンズオン探索ポリシーを学習するためのニューラルネットワークのトレーニングを提案する。 われわれのアプローチはCrossBeamと呼ばれ、ニューラルモデルを用いて、探索されたプログラムを新しいプログラムに組み合わせる方法を選択し、検索履歴と部分的なプログラム実行を考慮に入れている。 検索の学習に関する構造化予測の仕事によって動機づけられたcrossbeamは、トレーニングタスクのボトムアップ検索から抽出されたデータを使用して、オンポリシーを訓練する。 クロスビームを2つの異なる領域、文字列操作と論理プログラミングで評価する。 我々はCrossBeamが効率的に検索することを学び、最先端と比較してプログラム空間のより小さな部分を探索する。

Many approaches to program synthesis perform a search within an enormous space of programs to find one that satisfies a given specification. Prior works have used neural models to guide combinatorial search algorithms, but such approaches still explore a huge portion of the search space and quickly become intractable as the size of the desired program increases. To tame the search space blowup, we propose training a neural model to learn a hands-on search policy for bottom-up synthesis, instead of relying on a combinatorial search algorithm. Our approach, called CrossBeam, uses the neural model to choose how to combine previously-explored programs into new programs, taking into account the search history and partial program executions. Motivated by work in structured prediction on learning to search, CrossBeam is trained on-policy using data extracted from its own bottom-up searches on training tasks. We evaluate CrossBeam in two very different domains, string manipulation and logic programming. We observe that CrossBeam learns to search efficiently, exploring much smaller portions of the program space compared to the state-of-the-art.
翻訳日:2022-03-22 18:43:58 公開日:2022-03-20
# フォールトベースデータ取得による脳-コンピュータインタフェースの修復

Repairing Brain-Computer Interfaces with Fault-Based Data Acquisition ( http://arxiv.org/abs/2203.10677v1 )

ライセンス: Link先を確認
Cailin Winston, Caleb Winston, Chloe N Winston, Claris Winston, Cleah Winston, Rajesh PN Rao, Ren\'e Just(参考訳) 脳-コンピュータインターフェース(BCI)は、記録された脳からの神経信号をデコードし、脳をコード化された神経信号で刺激する。 bcisは、ハードウェアとソフトウェアの両方にまたがり、義肢や義肢を通した動きの復元から、スペラーによる感覚やコミュニケーションの回復まで、幅広い回復医療の応用がある。 bcisはまた、例えば、臨床医に発作、睡眠パターン、感情を検出するデータを提供するなど、診断医学にも応用できる。 彼らの約束にもかかわらず、bcisは、すべてのシナリオにおいて安全な運用に必要な信頼性と堅牢性に関する課題のために、日々の長期使用には採用されていない。 安全な手術を確保するには、現在、患者と臨床医の両方が関与する手動データ収集とリカバリに数時間を要する。 しかし、データ収集はbciの特定の障害を取り除くことを目的としていない。 本稿では,BCIの欠陥を識別,検出,位置決めする新しい手法を提案する。 具体的には,ユーザによる入力データや関連するタスクにおける特性パターンへの障害をローカライズする方法として,障害検出とスライス機能のための部分テストオラクルを提案する。 対象データ取得と再学習により,提案手法はBCIの正確性を向上させる。 提案手法を5つのbci応用で評価した。 提案手法は,(1) 障害の局所化,(2) 対象とする障害ベースデータ取得に基づく再訓練により,障害発生頻度を著しく低減できることを示す。 これらの結果から,提案手法は故障bcisの修復に有望な一歩であることが示唆された。

Brain-computer interfaces (BCIs) decode recorded neural signals from the brain and/or stimulate the brain with encoded neural signals. BCIs span both hardware and software and have a wide range of applications in restorative medicine, from restoring movement through prostheses and robotic limbs to restoring sensation and communication through spellers. BCIs also have applications in diagnostic medicine, e.g., providing clinicians with data for detecting seizures, sleep patterns, or emotions. Despite their promise, BCIs have not yet been adopted for long-term, day-to-day use because of challenges related to reliability and robustness, which are needed for safe operation in all scenarios. Ensuring safe operation currently requires hours of manual data collection and recalibration, involving both patients and clinicians. However, data collection is not targeted at eliminating specific faults in a BCI. This paper presents a new methodology for characterizing, detecting, and localizing faults in BCIs. Specifically, it proposes partial test oracles as a method for detecting faults and slice functions as a method for localizing faults to characteristic patterns in the input data or relevant tasks performed by the user. Through targeted data acquisition and retraining, the proposed methodology improves the correctness of BCIs. We evaluated the proposed methodology on five BCI applications. The results show that the proposed methodology (1) precisely localizes faults and (2) can significantly reduce the frequency of faults through retraining based on targeted, fault-based data acquisition. These results suggest that the proposed methodology is a promising step towards repairing faulty BCIs.
翻訳日:2022-03-22 18:42:04 公開日:2022-03-20
# 高速アウトオフ分布と異常検出のための部分空間モデリング

Subspace Modeling for Fast Out-Of-Distribution and Anomaly Detection ( http://arxiv.org/abs/2203.10422v1 )

ライセンス: Link先を確認
Ibrahima J. Ndiour, Nilesh A. Ahuja, Omesh Tickoo(参考訳) 本稿では,ディープニューラルネットワーク(DNN)における異常および分布外(OOD)サンプルを高速かつ原理的に検出する手法を提案する。 本研究では,dnnが生成する意味的特徴に対する線形統計次元低減手法の応用を提案し,その特徴に真にまたがる低次元部分空間を捉える。 高次元空間における原特徴と低次元縮小埋め込みの事前像との差の$\ell_2$-normである「機能再構成誤差」(FRE)がOODと異常検出に極めて有効であることを示す。 任意の層で生成された中間的特徴を一般化するために,非線形カーネル法を適用して方法論を拡張する。 標準画像データセットとDNNアーキテクチャを用いた実験により、我々の手法は最高の品質性能を達成または超えるが、最先端技術で必要とされる計算コストとメモリコストのごく一部を達成できることを示した。 従来のcpuでも、非常に効率的にトレーニングや実行が可能です。

This paper presents a fast, principled approach for detecting anomalous and out-of-distribution (OOD) samples in deep neural networks (DNN). We propose the application of linear statistical dimensionality reduction techniques on the semantic features produced by a DNN, in order to capture the low-dimensional subspace truly spanned by said features. We show that the "feature reconstruction error" (FRE), which is the $\ell_2$-norm of the difference between the original feature in the high-dimensional space and the pre-image of its low-dimensional reduced embedding, is highly effective for OOD and anomaly detection. To generalize to intermediate features produced at any given layer, we extend the methodology by applying nonlinear kernel-based methods. Experiments using standard image datasets and DNN architectures demonstrate that our method meets or exceeds best-in-class quality performance, but at a fraction of the computational and memory cost required by the state of the art. It can be trained and run very efficiently, even on a traditional CPU.
翻訳日:2022-03-22 18:16:15 公開日:2022-03-20
# 有利な学習の円滑化

Smoothing Advantage Learning ( http://arxiv.org/abs/2203.10445v1 )

ライセンス: Link先を確認
Yaozhong Gan, Zhe Zhang, Xiaoyang Tan(参考訳) アドバンテージラーニング(AL)は,行動ギャップに基づく正規化による推定誤差に対する価値に基づく強化学習の堅牢性の向上を目的としている。 残念ながら、この方法は関数近似の場合不安定になる傾向がある。 本稿では,この問題を緩和するために,スムージング・アドバンスト・ラーニング (SAL) というシンプルなALの変種を提案する。 提案手法の鍵となるのは,ALのベルマン最適演算子をスムーズな演算子に置き換えることで,時間差目標の信頼性を高めることである。 得られた動作ギャップと、近似SALに対する性能バウンドの詳細な説明を行う。 さらに, 提案手法は, 収束率と近似誤差の上界とのトレードオフを制御し, ALの訓練手順を安定させるだけでなく, 最適作用値と準最適作用値との作用ギャップを増大させることで有効であることを示した。

Advantage learning (AL) aims to improve the robustness of value-based reinforcement learning against estimation errors with action-gap-based regularization. Unfortunately, the method tends to be unstable in the case of function approximation. In this paper, we propose a simple variant of AL, named smoothing advantage learning (SAL), to alleviate this problem. The key to our method is to replace the original Bellman Optimal operator in AL with a smooth one so as to obtain more reliable estimation of the temporal difference target. We give a detailed account of the resulting action gap and the performance bound for approximate SAL. Further theoretical analysis reveals that the proposed value smoothing technique not only helps to stabilize the training procedure of AL by controlling the trade-off between convergence rate and the upper bound of the approximation errors, but is beneficial to increase the action gap between the optimal and sub-optimal action value as well.
翻訳日:2022-03-22 18:15:57 公開日:2022-03-20
# 動的グラフのための学習可能なエンコーダデコーダアーキテクチャ:サーベイ

Learnable Encoder-Decoder Architecture for Dynamic Graph: A Survey ( http://arxiv.org/abs/2203.10480v1 )

ライセンス: Link先を確認
Yuecai Zhu, Fuyuan Lyu, Chengming Hu, Xi Chen, Xue Liu(参考訳) 近年,オンラインサービスは膨大な量のユーザアクティビティデータを生成している。 サービスプロバイダは、クライアントの振る舞い分析を実行するためにこれらのデータを収集し、より良く、よりカスタマイズされたサービスを提供する。 これらのデータの大部分は、facebookのソーシャルグラフやyoutubeのユーザビデオインタラクショングラフなど、グラフとしてモデル化および保存することができる。 これらのグラフは、実世界のダイナミクスを捉えるために時間をかけて進化し、動的グラフの発明につながる。 しかし、動的グラフに埋め込まれた時間情報は、解析とデプロイにおいて新たな課題をもたらす。 イベントの停滞、時間的情報学習、明示的な時間次元の利用は、動的グラフ学習におけるいくつかの課題である。 本研究は,産業とアカデミアの両方に便利な参照を提供するため,動的グラフ進化理論に基づく3段階反復時間学習フレームワークを提案し,一般化された枠組みを用いて時間情報の学習を解釈する。 本フレームワークでは,動的グラフ学習のための学習可能なエンコーダ・デコーダアーキテクチャの分類と評価を行う。 この調査は、研究者やエンジニアにとって、動的学習タスクに適したグラフ構造を見つける上で有用なガイドラインになると考えています。

In recent years, the prevalent online services generate a sheer volume of user activity data. Service providers collect these data in order to perform client behavior analysis, and offer better and more customized services. Majority of these data can be modeled and stored as graph, such as the social graph in Facebook, user-video interaction graph in Youtube. These graphs need to evolve over time to capture the dynamics in the real world, leading to the invention of dynamic graphs. However, the temporal information embedded in the dynamic graphs brings new challenges in analyzing and deploying them. Events staleness, temporal information learning and explicit time dimension usage are some example challenges in dynamic graph learning. In order to offer a convenient reference to both the industry and academia, this survey presents the Three Stages Recurrent Temporal Learning Framework based on dynamic graph evolution theories, so as to interpret the learning of temporal information with a generalized framework. Under this framework, this survey categories and reviews different learnable encoder-decoder architectures for supervised dynamic graph learning. We believe that this survey could supply useful guidelines to researchers and engineers in finding suitable graph structures for their dynamic learning tasks.
翻訳日:2022-03-22 18:15:43 公開日:2022-03-20
# MicroRacer: 深層強化学習のための実践環境

MicroRacer: a didactic environment for Deep Reinforcement Learning ( http://arxiv.org/abs/2203.10494v1 )

ライセンス: Link先を確認
Andrea Asperti, Marco Del Brutto(参考訳) MicroRacerは、特にDeep Reinforcement Learningの実践を目的とした、カーレースにインスパイアされた、シンプルでオープンソースの環境である。 環境の複雑さは、ユーザーが洗練されたソフトウェアや非常に長いトレーニング時間を必要とすることなく、様々な方法、ネットワーク、ハイパーパラメータの設定を実験できるように、明示的に調整されている。 DDPG、PPO、SAC、TD2、DSACといった主要な学習アルゴリズムのベースラインエージェントも、トレーニング時間と性能の予備比較とともに提供される。

MicroRacer is a simple, open source environment inspired by car racing especially meant for the didactics of Deep Reinforcement Learning. The complexity of the environment has been explicitly calibrated to allow users to experiment with many different methods, networks and hyperparameters settings without requiring sophisticated software or the need of exceedingly long training times. Baseline agents for major learning algorithms such as DDPG, PPO, SAC, TD2 and DSAC are provided too, along with a preliminary comparison in terms of training time and performance.
翻訳日:2022-03-22 18:14:25 公開日:2022-03-20
# LEReg: 局所エネルギー正規化を備えたグラフニューラルネットワーク

LEReg: Empower Graph Neural Networks with Local Energy Regularization ( http://arxiv.org/abs/2203.10565v1 )

ライセンス: Link先を確認
Xiaojun Ma, Hanyue Chen, Guojie Song(参考訳) グラフニューラルネットワーク(GNN)を用いたグラフ解析の研究は、グラフの表現力が大きいことから、ますます注目を集めている。 GNNは、隣接行列とノードの特徴を、各畳み込み層のエッジを通るメッセージによってノード表現にマップする。 しかし、GNNを通して渡されるメッセージは、グラフのすべての部分に必ずしも有益ではない。 具体的には、データ分布がグラフ上で異なるため、情報収集に必要な受容場(ノードが情報を取得することができる最も遠いノード)も異なる。 既存のGNNはグラフのすべての部分を均一に扱うため、各ユニークな部分に対して最も情報性の高いメッセージを適応的に渡すことは困難である。 この問題を解決するために,(1)エネルギー内regと(2)エネルギー間regという2つの正規化項を提案する。 実験と理論的議論を通じて,まず,各部分の平滑化速度が大きく変化し,各部分のトポロジーが平滑化の仕方に影響を及ぼすことを示した。 エネルギー内レグでは、各部分内のメッセージパッシングを強化し、より有用な情報を得るのに役立ちます。 Inter-Energy Regにより、GNNが異なるノードを区別する能力が改善される。 提案された2つの正規化項により、GNNは最も有用な情報を適応的にフィルタリングし、より堅牢に学習し、表現力を高めることができる。 さらに,LERegはプラグアンドプレイ特性を持つ他のGNNモデルにも容易に適用可能である。 いくつかのベンチマークでの大規模な実験では、LERegによるGNNのパフォーマンスが、最先端の手法と一致しているか検証している。 有効性と効率は、精巧な実験で実証的に可視化される。

Researches on analyzing graphs with Graph Neural Networks (GNNs) have been receiving more and more attention because of the great expressive power of graphs. GNNs map the adjacency matrix and node features to node representations by message passing through edges on each convolution layer. However, the message passed through GNNs is not always beneficial for all parts in a graph. Specifically, as the data distribution is different over the graph, the receptive field (the farthest nodes that a node can obtain information from) needed to gather information is also different. Existing GNNs treat all parts of the graph uniformly, which makes it difficult to adaptively pass the most informative message for each unique part. To solve this problem, we propose two regularization terms that consider message passing locally: (1) Intra-Energy Reg and (2) Inter-Energy Reg. Through experiments and theoretical discussion, we first show that the speed of smoothing of different parts varies enormously and the topology of each part affects the way of smoothing. With Intra-Energy Reg, we strengthen the message passing within each part, which is beneficial for getting more useful information. With Inter-Energy Reg, we improve the ability of GNNs to distinguish different nodes. With the proposed two regularization terms, GNNs are able to filter the most useful information adaptively, learn more robustly and gain higher expressiveness. Moreover, the proposed LEReg can be easily applied to other GNN models with plug-and-play characteristics. Extensive experiments on several benchmarks verify that GNNs with LEReg outperform or match the state-of-the-art methods. The effectiveness and efficiency are also empirically visualized with elaborate experiments.
翻訳日:2022-03-22 18:14:16 公開日:2022-03-20
# 因果制約と構造情報を用いた分布ロバストリスク評価

Distributionally robust risk evaluation with causality constraint and structural information ( http://arxiv.org/abs/2203.10571v1 )

ライセンス: Link先を確認
Bingyan Han(参考訳) 本研究は,時間データ上での期待関数値の分布的ロバスト評価について検討する。 代替手段のセットは、因果的最適輸送によって特徴づけられる。 強い双対性を証明し、因果制約を無限次元のテスト函数空間上の最小化として再送する。 ニューラルネットワークによるテスト関数を近似し、Rademacherの複雑さによるサンプルの複雑さを証明する。 さらに、あいまいさを更に制限するために構造情報が利用できる場合、二重定式化を証明し、効率的な最適化方法を提供する。 確率的ボラティリティのシミュレーションと在庫指数の実証分析により,我々は,古典的最適輸送公式の代替案を提供する。

This work studies distributionally robust evaluation of expected function values over temporal data. A set of alternative measures is characterized by the causal optimal transport. We prove the strong duality and recast the causality constraint as minimization over an infinite-dimensional test function space. We approximate test functions by neural networks and prove the sample complexity with Rademacher complexity. Moreover, when structural information is available to further restrict the ambiguity set, we prove the dual formulation and provide efficient optimization methods. Simulation on stochastic volatility and empirical analysis on stock indices demonstrate that our framework offers an attractive alternative to the classic optimal transport formulation.
翻訳日:2022-03-22 18:05:47 公開日:2022-03-20
# ディープニューラルネットワークを用いたシングルイメージ人体再構成

Single-image Human-body Reshaping with Deep Neural Networks ( http://arxiv.org/abs/2203.10496v1 )

ライセンス: Link先を確認
Beijia Chen, Hongbo Fu, Xiang Chen, Kun Zhou, Youyi Zheng(参考訳) 本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。 このパイプラインは、まずパラメトリックな3d人間モデルから人間の画像に適合し、その後、ユーザによって特定された意味属性に対して適合した3dモデルを再形成する。 以前の手法では、画像領域全体に3D再構成効果を伝達するため、前景と背景の両方に歪みを引き起こすことが多かった。 その代わりに、より現実的な再構成結果を得るために、原画像に条件付けされた生成敵ネットと、3Dモデルによって誘導される2次元ワープ場を利用する。 具体的には、2本のU-netライクなジェネレータを用いて、ソース画像のフォアグラウンドと背景情報を別々に符号化し、特徴空間のワープにより、フォアグラウンドブランチからバックブランチへの情報フローを誘導する。 さらに、ペアデータが存在しないデータ不足(例えば、異なる形状の同一の人体)に対処するために、我々のネットワークを訓練するための新しい弱制御戦略を導入する。 また,不適切な体対画像嵌合による望ましくないアーティファクトの修正を手作業で行う従来の方法とは異なり,本手法は完全自動である。 屋内および屋外のデータセットに対する広範囲な実験により,従来の手法よりも優れた手法が得られた。

In this paper, we present NeuralReshaper, a novel method for semantic reshaping of human bodies in single images using deep generative networks. To achieve globally coherent reshaping effects, our approach follows a fit-then-reshape pipeline, which first fits a parametric 3D human model to a source human image and then reshapes the fitted 3D model with respect to user-specified semantic attributes. Previous methods rely on image warping to transfer 3D reshaping effects to the entire image domain and thus often cause distortions in both foreground and background. Instead, to achieve more realistic reshaping results, we resort to generative adversarial nets conditioned on the source image and a 2D warping field induced by the reshaped 3D model. Specifically, we separately encode the foreground and background information in the source image using a two-headed U-net-like generator and guide the information flow from the foreground branch to the background branch via feature space warping. Furthermore, to deal with the lack-of-data problem that no paired data exist (i.e., the same human bodies in varying shapes), we introduce a novel weakly-supervised strategy to train our network. Besides, unlike previous methods that often require manual efforts to correct undesirable artifacts caused by incorrect body-to-image fitting, our method is fully automatic. Extensive experiments on both indoor and outdoor datasets demonstrate the superiority of our method over previous approaches.
翻訳日:2022-03-22 18:02:28 公開日:2022-03-20
# 軟骨視認性に乏しいデータセットからの分割骨モデルを用いた直接幾何処理軟骨生成法

A direct geometry processing cartilage generation method using segmented bone models from datasets with poor cartilage visibility ( http://arxiv.org/abs/2203.10667v1 )

ライセンス: Link先を確認
Faezeh Moshfeghifar, Max Kragballe Nielsen, Jos\'e D. Tasc\'on-Vidarte, Sune Darkner, Kenny Erleben(参考訳) 人工股関節の被験者特異的軟骨を作製する方法を提案する。 骨幾何を考えると、我々のアプローチは画像のモダリティに非依存であり、整合性インターフェースを作成し、有限要素解析に適している。 解剖学的形状の整合性と良好な応力パターンを示す10個の股関節に本法を適用した。 本手法は高速であり,手作業によるセグメンテーションやトレーニングデータが実現できない場合,人工股関節の大規模生体力学的集団研究を支援する。

We present a method to generate subject-specific cartilage for the hip joint. Given bone geometry, our approach is agnostic to image modality, creates conforming interfaces, and is well suited for finite element analysis. We demonstrate our method on ten hip joints showing anatomical shape consistency and well-behaved stress patterns. Our method is fast and may assist in large-scale biomechanical population studies of the hip joint when manual segmentation or training data is not feasible.
翻訳日:2022-03-22 18:02:04 公開日:2022-03-20
# 変圧器を用いたエンド・ツー・エンドヒューマン・ゲイズ・ターゲット検出

End-to-End Human-Gaze-Target Detection with Transformers ( http://arxiv.org/abs/2203.10433v1 )

ライセンス: Link先を確認
Danyang Tu and Xiongkuo Min and Huiyu Duan and Guodong Guo and Guangtao Zhai and Wei Shen(参考訳) 本稿では,HGT(Human-Gaze-Targ et)検出のための効果的かつ効率的な手法を提案する。 現在のアプローチでは、hgt検出タスクを、人間の頭部の位置を最初に検出し、次に次の視線目標予測サブネットワークに供給する2段階のフレームワークを使用して、サルエント物体検出と人間の視線予測の別々のブランチに分離する。 対照的に、HGT検出タスクを人頭の位置と視線目標を同時に検出するものとして再定義する。 このようにして、HGTTR(Human-Gaze-Tar get Detection TRansformer)と呼ばれる手法は、HGT検出パイプラインを合理化して、他の全ての追加コンポーネントを除去する。 hgttrは、敬礼対象と人間の視線の関係を世界的イメージの文脈から考える。 さらに、人間の頭の位置を入力として要求する既存の2段階の手法とは異なり、HGTTRは1度に1人の人間の視線目標のみを予測できるため、すべての人の視線目標の位置を直接エンドツーエンドで予測することができる。 提案手法の有効性とロバスト性は,2つの標準ベンチマークデータセットである gazefollowing と videoattentiontarget の広範な実験により検証された。 ベルやホイッスルがなければ、HGTTRは既存の最先端の手法よりはるかに優れている(GazeFollowingでは6.4 mAP、VideoAttentionTarget では10.3 mAP)。

In this paper, we propose an effective and efficient method for Human-Gaze-Target (HGT) detection, i.e., gaze following. Current approaches decouple the HGT detection task into separate branches of salient object detection and human gaze prediction, employing a two-stage framework where human head locations must first be detected and then be fed into the next gaze target prediction sub-network. In contrast, we redefine the HGT detection task as detecting human head locations and their gaze targets, simultaneously. By this way, our method, named Human-Gaze-Target detection TRansformer or HGTTR, streamlines the HGT detection pipeline by eliminating all other additional components. HGTTR reasons about the relations of salient objects and human gaze from the global image context. Moreover, unlike existing two-stage methods that require human head locations as input and can predict only one human's gaze target at a time, HGTTR can directly predict the locations of all people and their gaze targets at one time in an end-to-end manner. The effectiveness and robustness of our proposed method are verified with extensive experiments on the two standard benchmark datasets, GazeFollowing and VideoAttentionTarget . Without bells and whistles, HGTTR outperforms existing state-of-the-art methods by large margins (6.4 mAP gain on GazeFollowing and 10.3 mAP gain on VideoAttentionTarget ) with a much simpler architecture.
翻訳日:2022-03-22 16:54:23 公開日:2022-03-20
# アーキテクチャ検索の畳み込みによるビジョントランスフォーマー

Vision Transformer with Convolutions Architecture Search ( http://arxiv.org/abs/2203.10435v1 )

ライセンス: Link先を確認
Haichao Zhang, Kuangrong Hao, Witold Pedrycz, Lei Gao, Xuesong Tang, and Bing Wei(参考訳) トランスフォーマーはコンピュータビジョンタスクの処理において大きな利点を示す。 彼らはマルチヘッドアテンション機構を利用して画像分類タスクをモデル化し、分割画像からなる一連のパッチを処理する。 しかし、複雑なタスクでは、コンピュータビジョンにおけるトランスフォーマーは、少しダイナミックな注意とグローバルなコンテキストを継承するだけでなく、ノイズの低減、シフト、オブジェクトのスケール不変性に関する機能を導入する必要がある。 そこで本研究では,トランスフォーマーとコンボリューションの構造特性について考察し,コンボリューションアーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。 VTCASによって探索された高性能バックボーンネットワークは、マルチヘッドアテンション機構の利点を維持しつつ、畳み込みニューラルネットワークの望ましい特徴をTransformerアーキテクチャに導入する。 検索されたブロックベースのバックボーンネットワークは、異なるスケールで特徴マップを抽出することができる。 これらの特徴は、画像分類(32Mパラメータ、ImageNet-1KのTop-1精度82.0%)やオブジェクト検出(COCO2017の50.4% mAP)など、幅広い視覚的タスクと互換性がある。 マルチヘッドアテンション機構に基づくトポロジーとcnnは,画素のリレーショナル特徴とオブジェクトのマルチスケール特徴を適応的に関連付ける。 これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。

Transformers exhibit great advantages in handling computer vision tasks. They model image classification tasks by utilizing a multi-head attention mechanism to process a series of patches consisting of split images. However, for complex tasks, Transformer in computer vision not only requires inheriting a bit of dynamic attention and global context, but also needs to introduce features concerning noise reduction, shifting, and scaling invariance of objects. Therefore, here we take a step forward to study the structural characteristics of Transformer and convolution and propose an architecture search method-Vision Transformer with Convolutions Architecture Search (VTCAS). The high-performance backbone network searched by VTCAS introduces the desirable features of convolutional neural networks into the Transformer architecture while maintaining the benefits of the multi-head attention mechanism. The searched block-based backbone network can extract feature maps at different scales. These features are compatible with a wider range of visual tasks, such as image classification (32 M parameters, 82.0% Top-1 accuracy on ImageNet-1K) and object detection (50.4% mAP on COCO2017). The proposed topology based on the multi-head attention mechanism and CNN adaptively associates relational features of pixels with multi-scale features of objects. It enhances the robustness of the neural network for object recognition, especially in the low illumination indoor scene.
翻訳日:2022-03-22 16:53:54 公開日:2022-03-20
# VGSE: ゼロショット学習のためのビジュアルグラウンドセマンティック埋め込み

VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning ( http://arxiv.org/abs/2203.10444v1 )

ライセンス: Link先を確認
Wenjia Xu, Yongqin Xian, Jiuniu Wang, Bernt Schiele, Zeynep Akata(参考訳) 人間アノテーション属性はゼロショット学習における強力なセマンティック埋め込みとして機能する。 しかし、アノテーションプロセスは労働集約的であり、専門家の監督が必要である。 現在の教師なしセマンティック埋め込み、すなわち単語埋め込みは、クラス間の知識伝達を可能にする。 しかし、単語埋め込みは必ずしも視覚的な類似性を反映せず、ゼロショット性能を低下させる。 ゼロショット学習のための識別的視覚特性を含む意味的埋め込みを,人間の注釈を必要とせずに発見する。 本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に分割し,そのクラス識別と意味的関連性を付加する。 これらのクラスタを未確認のクラスに関連付けるために、単語埋め込みなどの外部知識を使用し、新しいクラス関係発見モジュールを提案する。 定量的・定性的評価により,本モデルでは視認クラスと視認クラスの両方の視覚特性をモデル化する意味埋め込みを探索する。 さらに,様々なzslモデルにまたがる単語埋め込みよりも,視覚的に接する意味埋め込みの性能が,大きなマージンで向上することを示す3つのベンチマークを実演した。

Human-annotated attributes serve as powerful semantic embeddings in zero-shot learning. However, their annotation process is labor-intensive and needs expert supervision. Current unsupervised semantic embeddings, i.e., word embeddings, enable knowledge transfer between classes. However, word embeddings do not always reflect visual similarities and result in inferior zero-shot performance. We propose to discover semantic embeddings containing discriminative visual properties for zero-shot learning, without requiring any human annotation. Our model visually divides a set of images from seen classes into clusters of local image regions according to their visual similarity, and further imposes their class discrimination and semantic relatedness. To associate these clusters with previously unseen classes, we use external knowledge, e.g., word embeddings and propose a novel class relation discovery module. Through quantitative and qualitative evaluation, we demonstrate that our model discovers semantic embeddings that model the visual properties of both seen and unseen classes. Furthermore, we demonstrate on three benchmarks that our visually-grounded semantic embeddings further improve performance over word embeddings across various ZSL models by a large margin.
翻訳日:2022-03-22 16:53:07 公開日:2022-03-20
# 細胞画像セグメンテーションのための相互漏洩ネットワーク

Adversarial Mutual Leakage Network for Cell Image Segmentation ( http://arxiv.org/abs/2203.10455v1 )

ライセンス: Link先を確認
Hiroki Tsuda and Kazuhiro Hotta(参考訳) GANを用いた3つのセグメンテーション手法と,ジェネレータと識別器間の情報漏洩を提案する。 まず, 識別器からジェネレータへの注意機構を用いて, 識別器の重要情報を強化・漏洩する, 適応型訓練注意モジュール(ATA-Module)を提案する。 ATA-Moduleは、重要な情報を識別器からジェネレータに送信する。 第2に,画素単位の難易度に基づく注目マップを識別器にリークするTop-Down Pixel-wise Difficulty Attention Module (Top-Down PDA-Module)を提案する。 ジェネレータは画素単位の難易度に集中するよう訓練し、判別器はジェネレータから漏れた難易度情報を用いて分類する。 最後に,生成元と識別器間の情報を相互にリークする逆相互漏洩ネットワーク(AML-Net)を提案する。 他のネットワークの情報を利用することで、通常のセグメンテーションモデルよりも効率的にトレーニングすることができる。 セルイメージセグメンテーションのための2つのデータセットに対して,提案手法を3つ評価した。 実験の結果,従来の手法に比べてAML-Netのセグメンテーション精度は大幅に向上した。

We propose three segmentation methods using GAN and information leakage between generator and discriminator. First, we propose an Adversarial Training Attention Module (ATA-Module) that uses an attention mechanism from the discriminator to the generator to enhance and leak important information in the discriminator. ATA-Module transmits important information to the generator from the discriminator. Second, we propose a Top-Down Pixel-wise Difficulty Attention Module (Top-Down PDA-Module) that leaks an attention map based on pixel-wise difficulty in the generator to the discriminator. The generator trains to focus on pixel-wise difficulty, and the discriminator uses the difficulty information leaked from the generator for classification. Finally, we propose an Adversarial Mutual Leakage Network (AML-Net) that mutually leaks the information each other between the generator and the discriminator. By using the information of the other network, it is able to train more efficiently than ordinary segmentation models. Three proposed methods have been evaluated on two datasets for cell image segmentation. The experimental results show that the segmentation accuracy of AML-Net was much improved in comparison with conventional methods.
翻訳日:2022-03-22 16:52:53 公開日:2022-03-20
# 3次元合成データを利用したポートレート眼鏡と影除去

Portrait Eyeglasses and Shadow Removal by Leveraging 3D Synthetic Data ( http://arxiv.org/abs/2203.10474v1 )

ライセンス: Link先を確認
Junfeng Lyu, Zhibo Wang, Feng Xu(参考訳) 肖像画では、眼鏡は顔領域を遮蔽し、顔に鋳型影を発生させ、顔認証や表情認識などの多くの技術の性能を低下させる。 ポートレート眼鏡の除去はこれらの問題に対処するために重要である。 しかし、点灯効果(例えば、鋳型影)が複雑であることから、眼鏡を完全に取り除くことは困難である。 本稿では,顔画像から眼鏡や鋳影を除去するための新しい枠組みを提案する。 この方法は、眼鏡と鋳造影の両方が検出され、画像から除去される、検出・削除の方法で機能する。 教師付きトレーニングのためのペアデータがないため,検出タスクと除去タスクの両方に対して中間と最終の両方を監督する新しい合成ポートレートデータセットを提示する。 さらに,合成データと実データとのギャップを埋めるためにクロスドメイン手法を適用する。 私たちの知る限りでは、提案された技術はメガネとキャストシャドウを同時に取り除く最初の方法です。 コードと合成データセットはhttps://github.com/s torymy/take-off-eyeg lassesで入手できる。

In portraits, eyeglasses may occlude facial regions and generate cast shadows on faces, which degrades the performance of many techniques like face verification and expression recognition. Portrait eyeglasses removal is critical in handling these problems. However, completely removing the eyeglasses is challenging because the lighting effects (e.g., cast shadows) caused by them are often complex. In this paper, we propose a novel framework to remove eyeglasses as well as their cast shadows from face images. The method works in a detect-then-remove manner, in which eyeglasses and cast shadows are both detected and then removed from images. Due to the lack of paired data for supervised training, we present a new synthetic portrait dataset with both intermediate and final supervisions for both the detection and removal tasks. Furthermore, we apply a cross-domain technique to fill the gap between the synthetic and real data. To the best of our knowledge, the proposed technique is the first to remove eyeglasses and their cast shadows simultaneously. The code and synthetic dataset are available at https://github.com/S toryMY/take-off-eyeg lasses.
翻訳日:2022-03-22 16:52:33 公開日:2022-03-20
# TVConv: レイアウト対応ビジュアル処理のための効率的な翻訳バリアント変換

TVConv: Efficient Translation Variant Convolution for Layout-aware Visual Processing ( http://arxiv.org/abs/2203.10489v1 )

ライセンス: Link先を確認
Jierun Chen, Tianlang He, Weipeng Zhuo, Li Ma, Sangtae Ha, S.-H. Gary Chan(参考訳) 畳み込みが多くのスマートアプリケーションに力を与えているため、動的畳み込みは様々な入力に適応する能力をさらに備えている。 しかし、静的および動的畳み込みはレイアウトに依存しないか計算量が多いため、例えば顔認識や医用画像のセグメンテーションなど、レイアウト固有のアプリケーションには適さない。 これらの応用は,大きな画像内分散(空間的)と小さな画像間分散の特徴を自然に示している。 この観察は、レイアウト対応の視覚処理のための効率的な翻訳変種畳み込み(TVConv)を動機付ける。 技術的には、TVConvは親和性マップと重量発生ブロックで構成されている。 親和性マップは画素対関係を優雅に表現する一方で、重み付けブロックは、効率のよい推論を維持しながら、より優れたトレーニングのために明示的に過度にパラメータ化することができる。 概念的には単純だが、TVConvは畳み込みの効率を大幅に改善し、様々なネットワークアーキテクチャに簡単に接続できる。 顔認識に関する大規模な実験により、TVConvは計算コストを最大3.1倍に削減し、スループットを2.3倍改善し、奥行きの畳み込みよりも高い精度を維持した。 さらに,同じ計算コストで平均精度を最大4.21%向上させる。 また,視ディスク/カップセグメンテーションタスクの実験を行い,より優れた一般化性能を得ることにより,重要データ不足の軽減に寄与する。 コードはhttps://github.com/J ierunChen/TVConv.com で入手できる。

As convolution has empowered many smart applications, dynamic convolution further equips it with the ability to adapt to diverse inputs. However, the static and dynamic convolutions are either layout-agnostic or computation-heavy, making it inappropriate for layout-specific applications, e.g., face recognition and medical image segmentation. We observe that these applications naturally exhibit the characteristics of large intra-image (spatial) variance and small cross-image variance. This observation motivates our efficient translation variant convolution (TVConv) for layout-aware visual processing. Technically, TVConv is composed of affinity maps and a weight-generating block. While affinity maps depict pixel-paired relationships gracefully, the weight-generating block can be explicitly overparameterized for better training while maintaining efficient inference. Although conceptually simple, TVConv significantly improves the efficiency of the convolution and can be readily plugged into various network architectures. Extensive experiments on face recognition show that TVConv reduces the computational cost by up to 3.1x and improves the corresponding throughput by 2.3x while maintaining a high accuracy compared to the depthwise convolution. Moreover, for the same computation cost, we boost the mean accuracy by up to 4.21%. We also conduct experiments on the optic disc/cup segmentation task and obtain better generalization performance, which helps mitigate the critical data scarcity issue. Code is available at https://github.com/J ierunChen/TVConv.
翻訳日:2022-03-22 16:52:15 公開日:2022-03-20
# 両眼ステレオと単眼構造光の組み合わせによる深度推定

Depth Estimation by Combining Binocular Stereo and Monocular Structured-Light ( http://arxiv.org/abs/2203.10493v1 )

ライセンス: Link先を確認
Yuhua Xu, Xiaoli Yang, Yushan Yu, Wei Jia, Zhaobi Chu, Yulan Guo(参考訳) 受動的ステレオシステムは、白い壁のような弱いテクスチャオブジェクトにうまく適応できないことがよく知られている。 しかし、これらの弱いテクスチャターゲットは屋内環境では非常に一般的である。 本稿では,二つのカメラ(rgbカメラとirカメラ)と赤外線スペックルプロジェクタからなる新しいステレオシステムを提案する。 RGBカメラは深さ推定とテクスチャ取得の両方に使用される。 irカメラとスペックルプロジェクターは単眼構造光(msl)サブシステムとなり、2つのカメラは双眼鏡ステレオサブシステムを形成することができる。 MSLサブシステムによって生成された深度マップはステレオマッチングネットワークの外部ガイダンスを提供し、マッチング精度を大幅に向上させることができる。 提案システムの有効性を検証するため,プロトタイプを構築し,室内シーンでテストデータセットを収集する。 評価の結果,ネットワークラフトを用いた場合,提案方式のバッド2.0誤差は受動ステレオシステムの28.2%であった。 データセットとトレーニングされたモデルはhttps://github.com/Y uhuaXu/MonoStereoFus ion.comで公開されている。

It is well known that the passive stereo system cannot adapt well to weak texture objects, e.g., white walls. However, these weak texture targets are very common in indoor environments. In this paper, we present a novel stereo system, which consists of two cameras (an RGB camera and an IR camera) and an IR speckle projector. The RGB camera is used both for depth estimation and texture acquisition. The IR camera and the speckle projector can form a monocular structured-light (MSL) subsystem, while the two cameras can form a binocular stereo subsystem. The depth map generated by the MSL subsystem can provide external guidance for the stereo matching networks, which can improve the matching accuracy significantly. In order to verify the effectiveness of the proposed system, we build a prototype and collect a test dataset in indoor scenes. The evaluation results show that the Bad 2.0 error of the proposed system is 28.2% of the passive stereo system when the network RAFT is used. The dataset and trained models are available at https://github.com/Y uhuaXu/MonoStereoFus ion.
翻訳日:2022-03-22 16:51:50 公開日:2022-03-20
# Iwin: トランスフォーマーと不規則ウィンドウによるヒューマンオブジェクトのインタラクション検出

Iwin: Human-Object Interaction Detection via Transformer with Irregular Windows ( http://arxiv.org/abs/2203.10537v1 )

ライセンス: Link先を確認
Danyang Tu and Xiongkuo Min and Huiyu Duan and Guodong Guo and Guangtao Zhai and Wei Shen(参考訳) 本稿では,人間と物体の相互作用(HOI)の検出に特化して設計された新しい視覚変換器Iwin Transformerを提案する。 Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。 不規則な窓は、学習されたオフセットで通常のグリッド位置を拡大することで達成される。 1)トークン表現学習の冗長性を解消し,効率的な人間/オブジェクト検出を実現する。 2) 凝集トークンを人・物と異なる形状で整合させることにより,対話認識のための高度に抽象的な視覚的意味論の獲得が容易となる。 HICO-DETとV-COCOの2つの標準HOI検出ベンチマークデータセットにおいて、Iwin Transformerの有効性と効率を検証した。 その結果,既存のトランスフォーマー法ではHICO-DETが3.7 mAP,V-COCOが2.0 mAP,トレーニングエポックが0.5 \times$より少ない結果が得られた。

This paper presents a new vision Transformer, named Iwin Transformer, which is specifically designed for human-object interaction (HOI) detection, a detailed scene understanding task involving a sequential process of human/object detection and interaction recognition. Iwin Transformer is a hierarchical Transformer which progressively performs token representation learning and token agglomeration within irregular windows. The irregular windows, achieved by augmenting regular grid locations with learned offsets, 1) eliminate redundancy in token representation learning, which leads to efficient human/object detection, and 2) enable the agglomerated tokens to align with humans/objects with different shapes, which facilitates the acquisition of highly-abstracted visual semantics for interaction recognition. The effectiveness and efficiency of Iwin Transformer are verified on the two standard HOI detection benchmark datasets, HICO-DET and V-COCO. Results show our method outperforms existing Transformers-based methods by large margins (3.7 mAP gain on HICO-DET and 2.0 mAP gain on V-COCO) with fewer training epochs ($0.5 \times$).
翻訳日:2022-03-22 16:51:33 公開日:2022-03-20
# 夜間空中追跡のための教師なし領域適応

Unsupervised Domain Adaptation for Nighttime Aerial Tracking ( http://arxiv.org/abs/2203.10541v1 )

ライセンス: Link先を確認
Junjie Ye, Changhong Fu, Guangze Zheng, Danda Pani Paudel, Guang Chen(参考訳) 物体追跡のこれまでの進歩は、夜間における性能を無視しながら、照明の良好な状況について報告されていた。 この研究は、夜間航空追跡(UDAT)のための新しい教師なしドメイン適応フレームワークを開発する。 具体的には、夜間追跡ビデオからトレーニングパッチを生成するために、ユニークなオブジェクト発見アプローチが提供される。 ドメインの不一致に対処するために,特徴抽出器にトランスフォーマティブベースのブリッジング層を配置し,両領域の画像特徴を整合させる。 Transformerの昼夜の特徴判別器では、昼夜追跡モデルは夜間追跡のために逆向きに訓練される。 さらに,非教師なし領域適応型夜間追跡のための先駆的ベンチマークであるnat2021を構築し,180個の手動アノテーション付き夜間追跡シーケンスと276k以上の非ラベル夜間追跡フレームからなるテストセットを構築した。 夜間の航空追跡におけるフレームワークの堅牢性とドメイン適応性の実証実験を行った。 コードとベンチマークはhttps://github.com/v ision4robotics/UDATで公開されている。

Previous advances in object tracking mostly reported on favorable illumination circumstances while neglecting performance at nighttime, which significantly impeded the development of related aerial robot applications. This work instead develops a novel unsupervised domain adaptation framework for nighttime aerial tracking (named UDAT). Specifically, a unique object discovery approach is provided to generate training patches from raw nighttime tracking videos. To tackle the domain discrepancy, we employ a Transformer-based bridging layer post to the feature extractor to align image features from both domains. With a Transformer day/night feature discriminator, the daytime tracking model is adversarially trained to track at night. Moreover, we construct a pioneering benchmark namely NAT2021 for unsupervised domain adaptive nighttime tracking, which comprises a test set of 180 manually annotated tracking sequences and a train set of over 276k unlabelled nighttime tracking frames. Exhaustive experiments demonstrate the robustness and domain adaptability of the proposed framework in nighttime aerial tracking. The code and benchmark are available at https://github.com/v ision4robotics/UDAT.
翻訳日:2022-03-22 16:51:10 公開日:2022-03-20
# 制御点を有する文書の変形

Document Dewarping with Control Points ( http://arxiv.org/abs/2203.10543v1 )

ライセンス: Link先を確認
Guo-Wang Xie, Fei Yin, Xu-Yao Zhang, and Cheng-Lin Liu(参考訳) 現在、文書画像は携帯電話などの携帯端末で広く撮影されている。 これらの画像のocr性能は、文書紙の幾何学的歪み、多様なカメラ位置、複雑な背景の影響が大きい。 本稿では,制御点と基準点を推定し,歪んだ文書画像を補正する簡易かつ効果的な手法を提案する。 その後、制御点と基準点間の補間法を用いてスパースマッピングを後方マッピングに変換し、元の歪んだ文書画像を補正画像に再マップする。 さらに、制御ポイントは、相互作用やその後の調整を容易にするために制御可能である。 異なるアプリケーションシナリオに応じて、後処理メソッドと頂点の数を柔軟に選択できる。 実験により,本手法は様々な歪み型を持つ文書画像の修正が可能であり,実世界のデータセットにおける最先端の性能が得られることを示した。 本稿では,文書変形の制御点に基づく学習データセットも提供する。 コードとデータセットは、https://github.com/g wxie/Document-Dewarp ing-with-Control-Poi ntsでリリースされる。

Document images are now widely captured by handheld devices such as mobile phones. The OCR performance on these images are largely affected due to geometric distortion of the document paper, diverse camera positions and complex backgrounds. In this paper, we propose a simple yet effective approach to rectify distorted document image by estimating control points and reference points. After that, we use interpolation method between control points and reference points to convert sparse mappings to backward mapping, and remap the original distorted document image to the rectified image. Furthermore, control points are controllable to facilitate interaction or subsequent adjustment. We can flexibly select post-processing methods and the number of vertices according to different application scenarios. Experiments show that our approach can rectify document images with various distortion types, and yield state-of-the-art performance on real-world dataset. This paper also provides a training dataset based on control points for document dewarping. Both the code and the dataset are released at https://github.com/g wxie/Document-Dewarp ing-with-Control-Poi nts.
翻訳日:2022-03-22 16:49:38 公開日:2022-03-20
# 合成モデルによる3次元シーン理解に向けて

Towards 3D Scene Understanding by Referring Synthetic Models ( http://arxiv.org/abs/2203.10546v1 )

ライセンス: Link先を確認
Runnan Chen, Xinge Zhu, Nenglun Chen, Dawei Wang, Wei Li, Yuexin Ma, Ruigang Yang, Wenping Wang(参考訳) point cloud上での視覚的な認識では、有望なパフォーマンスが達成されている。 しかし、現在の手法は通常、シーンスキャンの労働力拡張アノテーションに依存している。 本稿では,合成モデルが実際のシーンアノテーションの負担を軽減する方法について検討する。例えば,ラベル付き3d合成モデルを監督の基準とするニューラルネットは,実際のシーンスキャンにおいて,オブジェクトの特定のカテゴリを認識することを目的としている(シーンアノテーションを使わずに)。 この問題は、合成3Dモデルから実際の3Dシーンへ知識を伝達する方法を研究し、Referring Transfer Learning (RTL) と呼ばれている。 主な課題は、合成モデルと実シーンの間の(合成モデルから実シーンへの)モデル・ツー・シーンと(合成モデルから実シーンのオブジェクトへの)合成・トゥ・リアルのギャップを解決することである。 そこで本研究では,二つのアライメント操作を行うための単純かつ効果的なフレームワークを提案する。 まず、物理データアライメントは、合成モデルがシーンのオブジェクトの多様性をデータ処理技術でカバーすることを目的としている。 次に、新しい \textbf{convex-hull regularized feature alignment} は、学習可能なプロトタイプを導入し、合成モデルと実シーンの両方のポイント特徴を統一された特徴空間に投影し、ドメインギャップを軽減する。 これらの操作により、ネットワークが実際の見えないシーンで対象のオブジェクトを認識するのが難しくなる。 実験の結果,ScanNet および S3DIS データセットの平均 mAP は 46.08 % と 55.49 % であることがわかった。 コードは公開されます。

Promising performance has been achieved for visual perception on the point cloud. However, the current methods typically rely on labour-extensive annotations on the scene scans. In this paper, we explore how synthetic models alleviate the real scene annotation burden, i.e., taking the labelled 3D synthetic models as reference for supervision, the neural network aims to recognize specific categories of objects on a real scene scan (without scene annotation for supervision). The problem studies how to transfer knowledge from synthetic 3D models to real 3D scenes and is named Referring Transfer Learning (RTL). The main challenge is solving the model-to-scene (from a single model to the scene) and synthetic-to-real (from synthetic model to real scene's object) gap between the synthetic model and the real scene. To this end, we propose a simple yet effective framework to perform two alignment operations. First, physical data alignment aims to make the synthetic models cover the diversity of the scene's objects with data processing techniques. Then a novel \textbf{convex-hull regularized feature alignment} introduces learnable prototypes to project the point features of both synthetic models and real scenes to a unified feature space, which alleviates the domain gap. These operations ease the model-to-scene and synthetic-to-real difficulty for a network to recognize the target objects on a real unseen scene. Experiments show that our method achieves the average mAP of 46.08\% and 55.49\% on the ScanNet and S3DIS datasets by learning the synthetic models from the ModelNet dataset. Code will be publicly available.
翻訳日:2022-03-22 16:49:23 公開日:2022-03-20
# m\"obius graph convolutional networkを用いた3次元人物ポーズ推定

3D Human Pose Estimation Using M\"obius Graph Convolutional Networks ( http://arxiv.org/abs/2203.10554v1 )

ライセンス: Link先を確認
Niloofar Azizi, Horst Possegger, Emanuele Rodol\`a, Horst Bischof(参考訳) 人間の行動を理解するには3次元のポーズ推定が不可欠である。 近年、最先端の性能を達成し、比較的軽量なアーキテクチャを提供するグラフ畳み込みネットワーク(GCN)によって有望な結果が得られている。 しかし、GCNの最大の制限は、結合間のすべての変換を明示的にエンコードできないことである。 この問題に対処するために,M\"obius transformation (M\"obiusGCN") を用いた新しいスペクトルGCNを提案する。 特に、これによって関節間の変換を直接的かつ明示的に符号化することができ、結果としてよりコンパクトな表現が得られる。 これまでの最も軽いアーキテクチャと比べても、我々の新しいアプローチは90~98%のパラメータを必要とし、つまり最も軽いm\"obiusgcnは0.042mのトレーニング可能なパラメータしか使用していません。 急激なパラメータ削減に加えて、関節の変形を明示的に符号化することで、最先端の成果も達成できる。 我々は、Human3.6MとMPI-INF-3DHPの2つの挑戦的ポーズ推定ベンチマークに対するアプローチを評価し、現状とM\"obiusGCNの一般化能力を実証した。

3D human pose estimation is fundamental to understanding human behavior. Recently, promising results have been achieved by graph convolutional networks (GCNs), which achieve state-of-the-art performance and provide rather light-weight architectures. However, a major limitation of GCNs is their inability to encode all the transformations between joints explicitly. To address this issue, we propose a novel spectral GCN using the M\"obius transformation (M\"obiusGCN). In particular, this allows us to directly and explicitly encode the transformation between joints, resulting in a significantly more compact representation. Compared to even the lightest architectures so far, our novel approach requires 90-98% fewer parameters, i.e. our lightest M\"obiusGCN uses only 0.042M trainable parameters. Besides the drastic parameter reduction, explicitly encoding the transformation of joints also enables us to achieve state-of-the-art results. We evaluate our approach on the two challenging pose estimation benchmarks, Human3.6M and MPI-INF-3DHP, demonstrating both state-of-the-art results and the generalization capabilities of M\"obiusGCN.
翻訳日:2022-03-22 16:48:53 公開日:2022-03-20
# ポイント3D:3D CNNによる移動点としての行動追跡

Point3D: tracking actions as moving points with 3D CNNs ( http://arxiv.org/abs/2203.10584v1 )

ライセンス: Link先を確認
Shentong Mo, Jingfei Xia, Xiaoqing Tan, Bhiksha Raj(参考訳) 時空間的行動認識は、行動の発生場所と発生時期を検出することを含む課題である。 現在の最先端のアクション検出器は、主にアンカーベースであり、大量のアンカーボックスを計算するため、センシティブなアンカー設計と膨大な計算を必要とする。 突発的なアンカーフリーアプローチにより,時空間動作認識のための高精度なフレキシブルかつ計算効率の高いネットワークであるPoint3Dを提案する。 私たちのPoint3Dは、アクションローカライゼーションのためのPoint Headとアクション分類のための3D Headで構成されています。 まず、ポイントヘッドは人間の中心点を追跡し、キーポイントを結び、アクションのバウンディングボックスをローカライズするために使用される。 これらのロケーション機能は、フレーム間の長距離依存関係を学習するために、タイムワイドな注意に導かれる。 3Dヘッドは後に最終動作分類のために配備される。 JHMDB, UCF101-24, AVAベンチマークにおいて, フレームmAP, ビデオmAPの両面で最先端の性能を実現する。 包括的アブレーション研究は、Point3Dで提案された各モジュールの有効性も示している。

Spatio-temporal action recognition has been a challenging task that involves detecting where and when actions occur. Current state-of-the-art action detectors are mostly anchor-based, requiring sensitive anchor designs and huge computations due to calculating large numbers of anchor boxes. Motivated by nascent anchor-free approaches, we propose Point3D, a flexible and computationally efficient network with high precision for spatio-temporal action recognition. Our Point3D consists of a Point Head for action localization and a 3D Head for action classification. Firstly, Point Head is used to track center points and knot key points of humans to localize the bounding box of an action. These location features are then piped into a time-wise attention to learn long-range dependencies across frames. The 3D Head is later deployed for the final action classification. Our Point3D achieves state-of-the-art performance on the JHMDB, UCF101-24, and AVA benchmarks in terms of frame-mAP and video-mAP. Comprehensive ablation studies also demonstrate the effectiveness of each module proposed in our Point3D.
翻訳日:2022-03-22 16:48:30 公開日:2022-03-20
# 階層的視覚言語知識蒸留によるボカブラリー1段階検出

Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation ( http://arxiv.org/abs/2203.10593v1 )

ライセンス: Link先を確認
Zongyang Ma, Guan Luo, Jin Gao, Liang Li, Yuxin Chen, Shaoru Wang, Congxuan Zhang, Weiming Hu(参考訳) open-vocabulary object detectionは、トレーニングセットを超えて新しいオブジェクトカテゴリを検出することを目的としている。 先進的な開語彙2段階検出器は、インスタンスレベルの視覚-視覚的知識蒸留を用いて、検出器の視覚空間と事前訓練された視覚-言語モデル(PVLM)の意味空間を整合させる。 しかし、より効率的な1段検出器では、クラスに依存しない物体の提案がないため、未知の物体の知識蒸留が妨げられ、性能が著しく低下する。 本稿では,開語彙1段階検出のための階層型視覚言語知識蒸留法,すなわちHierKDを提案する。 特に, pvlm から検出器へ未発見のカテゴリの知識を伝達するために, グローバルレベルの知識蒸留法が検討されている。 さらに, 提案するグローバルレベルの知識蒸留と共通インスタンスレベルの知識蒸留を組み合わせて, 目に見えないカテゴリーの知識を同時に学習する。 MS-COCOの大規模実験により, ゼロショット検出および一般化ゼロショット検出設定により, 従来最高の1ステージ検出器の1.9\%および6.7\%$AP_{50}$ゲインを著しく上回り, 最高の2ステージ検出器と比較して, パフォーマンスギャップを14\%から7.3\%に低減した。

Open-vocabulary object detection aims to detect novel object categories beyond the training set. The advanced open-vocabulary two-stage detectors employ instance-level visual-to-visual knowledge distillation to align the visual space of the detector with the semantic space of the Pre-trained Visual-Language Model (PVLM). However, in the more efficient one-stage detector, the absence of class-agnostic object proposals hinders the knowledge distillation on unseen objects, leading to severe performance degradation. In this paper, we propose a hierarchical visual-language knowledge distillation method, i.e., HierKD, for open-vocabulary one-stage detection. Specifically, a global-level knowledge distillation is explored to transfer the knowledge of unseen categories from the PVLM to the detector. Moreover, we combine the proposed global-level knowledge distillation and the common instance-level knowledge distillation to learn the knowledge of seen and unseen categories simultaneously. Extensive experiments on MS-COCO show that our method significantly surpasses the previous best one-stage detector with 11.9\% and 6.7\% $AP_{50}$ gains under the zero-shot detection and generalized zero-shot detection settings, and reduces the $AP_{50}$ performance gap from 14\% to 7.3\% compared to the best two-stage detector.
翻訳日:2022-03-22 16:48:13 公開日:2022-03-20
# スマートフォンをデジタル一眼レフカメラに変える

Transform your Smartphone into a DSLR Camera: Learning the ISP in the Wild ( http://arxiv.org/abs/2203.10636v1 )

ライセンス: Link先を確認
Ardhendu Shekhar Tripathi, Martin Danelljan, Samarth Shukla, Radu Timofte, Luc Van Gool(参考訳) 本稿では,スマートフォンが取得したRAW画像に対して,DSLRの品質画像を生成するトレーニング可能な画像信号処理(ISP)フレームワークを提案する。 トレーニング画像ペア間の色ずれに対処するために、カラー条件ISPネットワークを使用し、各入力RAWと基準DSLR画像間の新しいパラメトリック色マッピングを最適化する。 推定中,効率的なグローバルコンテキストトランスフォーマーモジュールを用いたカラー予測ネットワークの設計により,ターゲットカラー画像の予測を行う。 後者は、グローバル情報を利用して一貫性のある色とトーンマッピングを学ぶ。 さらに,トレーニング中の不正確な動作推定を伴う領域を識別・破棄するために,ロバストなマスク付きアライメント損失を提案する。 最後に、弱いペアの電話RAWとDSLR sRGB画像からなるWild(ISPW)データセットにISPを導入する。 2つのデータセットに新しい最先端技術を設定することで、我々の手法を広く評価する。

We propose a trainable Image Signal Processing (ISP) framework that produces DSLR quality images given RAW images captured by a smartphone. To address the color misalignments between training image pairs, we employ a color-conditional ISP network and optimize a novel parametric color mapping between each input RAW and reference DSLR image. During inference, we predict the target color image by designing a color prediction network with efficient Global Context Transformer modules. The latter effectively leverage global information to learn consistent color and tone mappings. We further propose a robust masked aligned loss to identify and discard regions with inaccurate motion estimation during training. Lastly, we introduce the ISP in the Wild (ISPW) dataset, consisting of weakly paired phone RAW and DSLR sRGB images. We extensively evaluate our method, setting a new state-of-the-art on two datasets.
翻訳日:2022-03-22 16:46:02 公開日:2022-03-20
# FUTR3D:3次元検出のための統合センサフュージョンフレームワーク

FUTR3D: A Unified Sensor Fusion Framework for 3D Detection ( http://arxiv.org/abs/2203.10642v1 )

ライセンス: Link先を確認
Xuanyao Chen, Tianyuan Zhang, Yue Wang, Yilun Wang, Hang Zhao(参考訳) センサ融合は、自動運転やロボティクスなど、多くの認識システムにおいて重要なトピックである。 既存のマルチモーダル3D検出モデルは通常、センサーの組み合わせや設定に応じてカスタマイズされた設計を含む。 本研究は, FUTR3Dと呼ばれる, センサ構成のほぼすべてに使用可能な3次元検出のための, 初の統合エンドツーエンドセンサ融合フレームワークを提案する。 futr3dはクエリベースのモダリティ非依存機能サンプリング(mafs)と、3d検出のためのセット・ツー・セットの損失を持つトランスデコーダを使用する。 我々は,カメラ,低解像度LiDAR,高解像度LiDAR,レーダの様々な組み合わせにおけるフレームワークの有効性を検証する。 NuScenesデータセットでは、FUTR3Dは、さまざまなセンサーの組み合わせで特別に設計されたメソッドよりも優れたパフォーマンスを実現する。 さらに、FUTR3Dはセンサー構成の異なる優れた柔軟性を実現し、低コストの自動運転を可能にする。 例えば、カメラ付き4ビームLiDARのみを使用するFUTR3D (56.8 mAP)は、32ビームLiDARを使用した最先端の3D検出モデルCenterPoint (56.6 mAP)と同等の性能を達成する。

Sensor fusion is an essential topic in many perception systems, such as autonomous driving and robotics. Existing multi-modal 3D detection models usually involve customized designs depending on the sensor combinations or setups. In this work, we propose the first unified end-to-end sensor fusion framework for 3D detection, named FUTR3D, which can be used in (almost) any sensor configuration. FUTR3D employs a query-based Modality-Agnostic Feature Sampler (MAFS), together with a transformer decoder with a set-to-set loss for 3D detection, thus avoiding using late fusion heuristics and post-processing tricks. We validate the effectiveness of our framework on various combinations of cameras, low-resolution LiDARs, high-resolution LiDARs, and Radars. On NuScenes dataset, FUTR3D achieves better performance over specifically designed methods across different sensor combinations. Moreover, FUTR3D achieves great flexibility with different sensor configurations and enables low-cost autonomous driving. For example, only using a 4-beam LiDAR with cameras, FUTR3D (56.8 mAP) achieves on par performance with state-of-the-art 3D detection model CenterPoint (56.6 mAP) using a 32-beam LiDAR.
翻訳日:2022-03-22 16:45:47 公開日:2022-03-20
# 時間変動オートエンコーダを用いた乳癌骨切り術の予測

Breast Cancer Induced Bone Osteolysis Prediction Using Temporal Variational Auto-Encoders ( http://arxiv.org/abs/2203.10645v1 )

ライセンス: Link先を確認
Wei Xiong, Neil Yeung, Shubo Wang, Haofu Liao, Liyun Wang, Jiebo Luo(参考訳) 目的と影響のステートメント。 マウス乳癌骨転移のCT画像から骨分解予測を行うための深層学習モデルを採用した。 骨CTを前段階でスキャンすると、このモデルには、シーケンシャル画像から得られた骨とがんの相互作用が組み込まれ、将来のCT画像を生成する。 がん浸潤骨の骨病変の発生を予測する能力は、骨折のリスクを評価し、乳癌骨転移の適切な治療法を選択するのに役立つ。 はじめに。 乳癌はしばしば骨に転移し、骨分解性病変を引き起こし、重度の痛みや致命的な骨折を含む骨格関連事象(SRE)を引き起こす。 現在のイメージング技術では肉眼的骨病変を検出できるが、骨病変の発生と進展を予測することは依然として課題である。 メソッド。 我々は,t-vaeモデルを採用し,変動型オートエンコーダと長期短期記憶ネットワークを併用し,ティビアの連続画像を含むマイクロctデータセット上での骨病変の発生を予測する。 本モデルでは, 早期の早期にCT検査を行った結果, データから将来の状態の分布を把握できた。 結果だ 骨病変進展予測タスクにおいて,他の深層学習に基づく予測モデルと比較検討を行った。 我々のモデルは、様々な評価指標の下で既存のモデルよりもはるかに正確な予測を生成する。 結論だ 骨分解性骨病変の進展を正確に予測し,可視化する深層学習フレームワークを開発した。 乳癌患者のSRE予防のための治療戦略の計画と評価を支援する。

Objective and Impact Statement. We adopt a deep learning model for bone osteolysis prediction on computed tomography (CT) images of murine breast cancer bone metastases. Given the bone CT scans at previous time steps, the model incorporates the bone-cancer interactions learned from the sequential images and generates future CT images. Its ability of predicting the development of bone lesions in cancer-invading bones can assist in assessing the risk of impending fractures and choosing proper treatments in breast cancer bone metastasis. Introduction. Breast cancer often metastasizes to bone, causes osteolytic lesions, and results in skeletal related events (SREs) including severe pain and even fatal fractures. Although current imaging techniques can detect macroscopic bone lesions, predicting the occurrence and progression of bone lesions remains a challenge. Methods. We adopt a temporal variational auto-encoder (T-VAE) model that utilizes a combination of variational auto-encoders and long short-term memory networks to predict bone lesion emergence on our micro-CT dataset containing sequential images of murine tibiae. Given the CT scans of murine tibiae at early weeks, our model can learn the distribution of their future states from data. Results. We test our model against other deep learning-based prediction models on the bone lesion progression prediction task. Our model produces much more accurate predictions than existing models under various evaluation metrics. Conclusion. We develop a deep learning framework that can accurately predict and visualize the progression of osteolytic bone lesions. It will assist in planning and evaluating treatment strategies to prevent SREs in breast cancer patients.
翻訳日:2022-03-22 16:45:25 公開日:2022-03-20
# 点雲を用いたスーパービジョンのない横方向Ego-Vehicle制御

Lateral Ego-Vehicle Control without Supervision using Point Clouds ( http://arxiv.org/abs/2203.10662v1 )

ライセンス: Link先を確認
Florian M\"uller, Qadeer Khan, Daniel Cremers(参考訳) 既存の視覚に基づく横方向車両制御アプローチでは、RGB画像を適切な操舵コマンドに直接マッピングすることができる。 しかしながら、トレーニングデータに障害事例がないため、現実のシナリオでは不十分な堅牢性に苦しむ傾向にあります。 本稿では、横方向車両制御のためのより堅牢でスケーラブルなモデルをトレーニングするためのフレームワークを提案する。 フレームワークはラベルなしのRGBイメージのみを必要とする。 トレーニングされたモデルは、点雲を入力として、ステアリング角が推測される後続のフレームに対する横オフセットを予測する。 フレームポーズは、視覚的オドメトリーから順番に得られる。 点雲は、密度の深い深度マップを3Dに投影することによって考え出される。 この点からの任意の数の追加軌道をトレーニング中に生成することができる。 これはモデルの堅牢性を高めるためです。 オンライン実験により,提案手法の性能は教師付きモデルよりも優れていることが示された。

Existing vision based supervised approaches to lateral vehicle control are capable of directly mapping RGB images to the appropriate steering commands. However, they are prone to suffering from inadequate robustness in real world scenarios due to a lack of failure cases in the training data. In this paper, a framework for training a more robust and scalable model for lateral vehicle control is proposed. The framework only requires an unlabeled sequence of RGB images. The trained model takes a point cloud as input and predicts the lateral offset to a subsequent frame from which the steering angle is inferred. The frame poses are in turn obtained from visual odometry. The point cloud is conceived by projecting dense depth maps into 3D. An arbitrary number of additional trajectories from this point cloud can be generated during training. This is to increase the robustness of the model. Online experiments show that the performance of our method is superior to that of the supervised model.
翻訳日:2022-03-22 16:44:59 公開日:2022-03-20
# 変分量子回路設計による量子マルチエージェント強化学習

Quantum Multi-Agent Reinforcement Learning via Variational Quantum Circuit Design ( http://arxiv.org/abs/2203.10443v1 )

ライセンス: Link先を確認
Won Joon Yun, Yunseok Kwak, Jae Pyoung Kim, Hyunhee Cho, Soyi Jung, Jihong Park, Joongheon Kim(参考訳) 近年、量子コンピューティング(QC)は産業や学界から注目を集めている。 特に、様々なQC研究トピックの中で、変分量子回路(VQC)は量子深部強化学習(QRL)を可能にする。 QRLの多くの研究により、QRLは古典的強化学習法(RL)よりも訓練パラメータの制限下で優れていることが示されている。 本稿では、QRLを量子マルチエージェントRL(QMARL)に拡張し、実証する。 しかし、ノイズ中間スケール量子(NISQ)と古典的マルチエージェントRL(MARL)の非定常特性の難しさのため、QRLをQMARLに拡張することは簡単ではない。 そこで本研究では,これらの問題に対処するための新しいVQCを設計することで,集中型トレーニングと分散実行(CTDE)QMARLフレームワークを提案する。 本稿では, エッジエージェントがパケットをクラウドにオフロードする単一ホップ環境でQMARLの実証を行う。 広範なデモンストレーションにより、提案されたqmarlフレームワークは、古典的なフレームワークよりも総報酬の57.7%を増加させることが示された。

In recent years, quantum computing (QC) has been getting a lot of attention from industry and academia. Especially, among various QC research topics, variational quantum circuit (VQC) enables quantum deep reinforcement learning (QRL). Many studies of QRL have shown that the QRL is superior to the classical reinforcement learning (RL) methods under the constraints of the number of training parameters. This paper extends and demonstrates the QRL to quantum multi-agent RL (QMARL). However, the extension of QRL to QMARL is not straightforward due to the challenge of the noise intermediate-scale quantum (NISQ) and the non-stationary properties in classical multi-agent RL (MARL). Therefore, this paper proposes the centralized training and decentralized execution (CTDE) QMARL framework by designing novel VQCs for the framework to cope with these issues. To corroborate the QMARL framework, this paper conducts the QMARL demonstration in a single-hop environment where edge agents offload packets to clouds. The extensive demonstration shows that the proposed QMARL framework enhances 57.7% of total reward than classical frameworks.
翻訳日:2022-03-22 16:03:17 公開日:2022-03-20
# サンプリング、最適化、推論および適応剤の幾何学的方法

Geometric Methods for Sampling, Optimisation, Inference and Adaptive Agents ( http://arxiv.org/abs/2203.10592v1 )

ライセンス: Link先を確認
Alessandro Barp, Lancelot Da Costa, Guilherme Fran\c{c}a, Karl Friston, Mark Girolami, Michael I. Jordan, and Grigorios A. Pavliotis(参考訳) 本章では,サンプリング,最適化,推論,適応的意思決定の問題に根ざした基本的な幾何学的構造を明らかにする。 この同定に基づいて,これらの幾何学的構造を効率的に解くアルゴリズムを導出する。 これらの分野では、測度保存過程、情報分岐、ポアソン幾何学、幾何積分など、幅広い幾何学理論が自然に現れることを示す。 具体的には、どのように 'emph{ (i) ハミルトン系のシンプレクティック幾何学を利用することで、(加速)サンプリングおよび最適化法である \emph{ を構築できる。 (ii)} ヒルベルト部分空間とシュタイン作用素の理論は、ロバストな推定子を得るための一般的な方法論を提供する。 (iii) 意思決定の情報幾何を保存することは、能動推論を行う適応的エージェントを産み出す。 例えば、推論はサンプリングと最適化に重点を置いており、適応的意思決定は、反事実的影響を推測することで決定を評価する。 私たちの展覧会は、技術的な議論ではなく、基礎となるアイデアを概念的に概観するものです。

In this chapter, we identify fundamental geometric structures that underlie the problems of sampling, optimisation, inference and adaptive decision-making. Based on this identification, we derive algorithms that exploit these geometric structures to solve these problems efficiently. We show that a wide range of geometric theories emerge naturally in these fields, ranging from measure-preserving processes, information divergences, Poisson geometry, and geometric integration. Specifically, we explain how \emph{(i)} leveraging the symplectic geometry of Hamiltonian systems enable us to construct (accelerated) sampling and optimisation methods, \emph{(ii)} the theory of Hilbertian subspaces and Stein operators provides a general methodology to obtain robust estimators, \emph{(iii)} preserving the information geometry of decision-making yields adaptive agents that perform active inference. Throughout, we emphasise the rich connections between these fields; e.g., inference draws on sampling and optimisation, and adaptive decision-making assesses decisions by inferring their counterfactual consequences. Our exposition provides a conceptual overview of underlying ideas, rather than a technical discussion, which can be found in the references herein.
翻訳日:2022-03-22 16:01:16 公開日:2022-03-20
# DEIM:文マッチングのための効果的なディープエンコーディングとインタラクションモデル

DEIM: An effective deep encoding and interaction model for sentence matching ( http://arxiv.org/abs/2203.10482v1 )

ライセンス: Link先を確認
Kexin Jiang, Yahui Zhao, Rongyi Cui, and Zhenguo Zhang(参考訳) 自然言語文マッチングは,2つの文を比較し,それらの関係を識別するタスクであり,理解,質問,回答システムなどの自然言語処理タスクに幅広く応用されている。 主なアプローチは、テキスト表現と文ペア間の相互作用を注意機構を通じて計算し、文ペア間の意味情報をうまく抽出することである。 しかし,このような手法は,複雑な意味的特徴を扱う場合,十分な結果を得ることができない。 そこで本研究では,ディープエンコーディングとインタラクションに基づく文マッチング手法を提案し,深い意味情報を抽出する。 エンコーダ層では、1つの文を符号化する過程で他の文の情報を参照し、後にヒューリスティックアルゴリズムを用いて情報を融合する。 インタラクション層では,双方向注意機構と自己注意機構を用いて深い意味情報を取得し,最後にプール操作を行い,mlpに入力して分類を行う。 本研究は,テキストの包含認識,パラフレーズ認識,回答選択の3つの課題について評価した。 本研究では,SNLIデータセットとSciTailデータセットの認識タスク,パラフレーズ認識タスクのQuoraデータセット,回答選択タスクのWikiQAデータセットについて実験を行った。 実験の結果,提案手法は文マッチングタスクにおけるアルゴリズムの有効性を検証する深い意味的特徴を効果的に抽出できることがわかった。

Natural language sentence matching is the task of comparing two sentences and identifying the relationship between them.It has a wide range of applications in natural language processing tasks such as reading comprehension, question and answer systems. The main approach is to compute the interaction between text representations and sentence pairs through an attention mechanism, which can extract the semantic information between sentence pairs well. However,this kind of method can not gain satisfactory results when dealing with complex semantic features. To solve this problem, we propose a sentence matching method based on deep encoding and interaction to extract deep semantic information. In the encoder layer,we refer to the information of another sentence in the process of encoding a single sentence, and later use a heuristic algorithm to fuse the information. In the interaction layer, we use a bidirectional attention mechanism and a self-attention mechanism to obtain deep semantic information.Finally, we perform a pooling operation and input it to the MLP for classification. we evaluate our model on three tasks: recognizing textual entailment, paraphrase recognition, and answer selection. We conducted experiments on the SNLI and SciTail datasets for the recognizing textual entailment task, the Quora dataset for the paraphrase recognition task, and the WikiQA dataset for the answer selection task. The experimental results show that the proposed algorithm can effectively extract deep semantic features that verify the effectiveness of the algorithm on sentence matching tasks.
翻訳日:2022-03-22 15:58:33 公開日:2022-03-20
# パラフレーズ生成を意識した連関関係

Entailment Relation Aware Paraphrase Generation ( http://arxiv.org/abs/2203.10483v1 )

ライセンス: Link先を確認
Abhilasha Sancheti, Balaji Vasan Srinivasan, Rachel Rudinger(参考訳) 本稿では、与えられた入力に対して、与えられた含意関係(例えば、等価、前方含意、または逆含意)に対応するパラフレーズを生成することを目的とした、含意関係認識パラフレーズ生成の新しいタスクを提案する。 本稿では,既存のパラフレーズと自然言語推論(NLI)コーパスを明示的なタスク固有コーパスなしでトレーニングできる強化学習に基づく弱教師付きパラフレーズシステムERAPを提案する。 自動評価と人的評価の組み合わせにより,ERAPは特定の包含関係に適合するパラフレーズを生成し,ベースラインや制御不能なパラフレーズシステムと比較して良好な品質を示す。 erapを下流のテキスト対応タスクのトレーニングデータの強化に使用すると、非制御のパラフレージングシステムよりもパフォーマンスが向上し、パラフレージング時の明示的なコントロールのメリットを示すトレーニングアーティファクトも少なくなる。

We introduce a new task of entailment relation aware paraphrase generation which aims at generating a paraphrase conforming to a given entailment relation (e.g. equivalent, forward entailing, or reverse entailing) with respect to a given input. We propose a reinforcement learning-based weakly-supervised paraphrasing system, ERAP, that can be trained using existing paraphrase and natural language inference (NLI) corpora without an explicit task-specific corpus. A combination of automated and human evaluations show that ERAP generates paraphrases conforming to the specified entailment relation and are of good quality as compared to the baselines and uncontrolled paraphrasing systems. Using ERAP for augmenting training data for downstream textual entailment task improves performance over an uncontrolled paraphrasing system, and introduces fewer training artifacts, indicating the benefit of explicit control during paraphrasing.
翻訳日:2022-03-22 15:58:09 公開日:2022-03-20
# 名前付きエンティティ認識のための並列インスタンスクエリネットワーク

Parallel Instance Query Network for Named Entity Recognition ( http://arxiv.org/abs/2203.10545v1 )

ライセンス: Link先を確認
Yongliang Shen, Xiaobin Wang, Zeqi Tan, Guangwei Xu, Pengjun Xie, Fei Huang, Weiming Lu, Yueting Zhuang(参考訳) 名前付きエンティティ認識(NER)は自然言語処理の基本課題である。 最近の研究は、名前付きエンティティ認識を読み取り理解タスクとして扱い、エンティティを抽出するためにタイプ固有のクエリを手動で構築している。 このパラダイムは3つの問題に苦しむ。 まず、型固有のクエリは推論毎に1つのタイプのエンティティしか抽出できない。 第二に、異なるタイプのエンティティの抽出は分離され、それらの間の依存関係を無視します。 第三に、クエリ構築は外部の知識に依存しており、数百のエンティティタイプを持つ現実的なシナリオに適用することは困難である。 そこで本研究では,並列的に文からエンティティを抽出するために,グローバルで学習可能なインスタンスクエリを設定する並列インスタンスクエリネットワーク(piqn)を提案する。 各インスタンスクエリは1つのエンティティを予測し、すべてのインスタンスクエリを同時に送ることで、すべてのエンティティを並列にクエリすることができる。 外部の知識から構築される代わりに、インスタンスクエリはトレーニング中に異なるクエリセマンティクスを学ぶことができる。 モデルのトレーニングでは,ラベル割り当てを1対多の線形割り当て問題(LAP)として扱い,最小の割り当てコストでゴールドエンティティをインスタンスクエリに動的に割り当てる。 ネストしたNERデータセットとフラットなNERデータセットの両方の実験により、提案手法が従来の最先端モデルより優れていることが示された。

Named entity recognition (NER) is a fundamental task in natural language processing. Recent works treat named entity recognition as a reading comprehension task, constructing type-specific queries manually to extract entities. This paradigm suffers from three issues. First, type-specific queries can only extract one type of entities per inference, which is inefficient. Second, the extraction for different types of entities is isolated, ignoring the dependencies between them. Third, query construction relies on external knowledge and is difficult to apply to realistic scenarios with hundreds of entity types. To deal with them, we propose Parallel Instance Query Network (PIQN), which sets up global and learnable instance queries to extract entities from a sentence in a parallel manner. Each instance query predicts one entity, and by feeding all instance queries simultaneously, we can query all entities in parallel. Instead of being constructed from external knowledge, instance queries can learn their different query semantics during training. For training the model, we treat label assignment as a one-to-many Linear Assignment Problem (LAP) and dynamically assign gold entities to instance queries with minimal assignment cost. Experiments on both nested and flat NER datasets demonstrate that our proposed method outperforms previous state-of-the-art models.
翻訳日:2022-03-22 15:57:51 公開日:2022-03-20
# 環境音表現における摂動のロバスト性に関する研究

A Study on Robustness to Perturbations for Representations of Environmental Sound ( http://arxiv.org/abs/2203.10425v1 )

ライセンス: Link先を確認
Sangeeta Srivastava, Ho-Hsiang Wu, Joao Rulff, Magdalena Fuentes, Mark Cartwright, Claudio Silva, Anish Arora, Juan Pablo Bello(参考訳) 環境音響分析などの多くのオーディオアプリケーションは、伝達学習に汎用的な音声表現をますます利用している。 このような表現のロバスト性は、様々なドメインやアプリケーションで評価することで決定されている。 しかし、マイクロホンの範囲と音響条件(一般に「textit{ channel effect」と呼ばれる)による実世界の展開への影響を予測するために、アプリケーション固有の評価をどのように利用できるかは、不明である。 本稿では,様々な距離指標の結果を下流のパフォーマンスと統合し,音声チャネルの効果に対する表現や埋め込みの堅牢性について,よりインフォームドな予測を行う。 これを実現するために、YAMNetとOpenL$^3$の2つの埋め込みと、チャネル効果を模倣する音声信号に摂動を注入する際の埋め込みの変化を定量化するために、3つの距離メトリクスを使用する。 モノフォニック (urbansound8k) とポリフォニック (sonyc ust) のデータでは、2つの距離、fr\'echet audio distance (fad) と cophenetic correlation distance (cpcd) の組み合わせが摂動の影響とよく相関していることを示す。 さらに、各距離測定の限界について論じる。

Many audio applications, such as environmental sound analysis, are increasingly using general-purpose audio representations for transfer learning. The robustness of such representations has been determined by evaluating them across a variety of domains and applications. However, it is unclear how the application-specific evaluation can be utilized to predict the impact of variability in real-world deployments caused by myriad microphones' range and acoustic conditions, commonly known as \textit{channel effects}. In this paper, we integrate the results of various distance metrics with downstream performance to make a more informed prediction of how robust the representations or embeddings are to the audio channel effects. To accomplish this, we use two embeddings, YAMNet and OpenL$^3$, and three distance metrics to quantify the change in the embeddings when injecting perturbations to the audio signal that imitate channel effects. In monophonic (UrbanSound8K) and polyphonic (SONYC UST) data, we show a combination of two distances, Fr\'echet Audio Distance (FAD) and Cophenetic Correlation Distance (CPCD), correlates well with the effects of perturbations. We further discuss the limitations of each distance measure.
翻訳日:2022-03-22 15:17:09 公開日:2022-03-20
# 必要十分説明の計算について

On the Computation of Necessary and Sufficient Explanations ( http://arxiv.org/abs/2203.10451v1 )

ライセンス: Link先を確認
Adnan Darwiche and Chunxi Ji(参考訳) 決定の背後にある完全な理由は、決定が行われた理由を特徴づけるブール公式である。 最近導入されたこの概念には、説明の生成、決定バイアスの検出、反事実クエリの評価など、多くのアプリケーションがある。 完全な理由の素因は決定の十分な理由として知られており、PIの説明や帰納的説明として知られるものに対応する。 本稿では、決定に必要な理由として、完全な理由の素因を言及する。 この用語を意味論的に正当化し、必要な理由が対照的な説明として知られるものに対応することを示す。 また,効率良くクローズドな完全理由を導出する,名目的および数値的特徴を持つ多クラス決定木とグラフの完全理由の計算についても検討した。 我々はさらに,導出された閉形式とsdds (sential decision diagram) の完全理由を含む,幅広い完全理由のクラスに対する最短で十分な理由の計算をさらに検討する。 出力多項式時間において最も短い理由を列挙できるアルゴリズムを提供する。 このクラスの完全な理由の最も短い理由を列挙することは、単一の理由でさえ難しい。 この問題に対して,経験的に示すように,非常に効率的なアルゴリズムを提供する。

The complete reason behind a decision is a Boolean formula that characterizes why the decision was made. This recently introduced notion has a number of applications, which include generating explanations, detecting decision bias and evaluating counterfactual queries. Prime implicants of the complete reason are known as sufficient reasons for the decision and they correspond to what is known as PI explanations and abductive explanations. In this paper, we refer to the prime implicates of a complete reason as necessary reasons for the decision. We justify this terminology semantically and show that necessary reasons correspond to what is known as contrastive explanations. We also study the computation of complete reasons for multi-class decision trees and graphs with nominal and numeric features for which we derive efficient, closed-form complete reasons. We further investigate the computation of shortest necessary and sufficient reasons for a broad class of complete reasons, which include the derived closed forms and the complete reasons for Sentential Decision Diagrams (SDDs). We provide an algorithm which can enumerate their shortest necessary reasons in output polynomial time. Enumerating shortest sufficient reasons for this class of complete reasons is hard even for a single reason. For this problem, we provide an algorithm that appears to be quite efficient as we show empirically.
翻訳日:2022-03-22 15:16:46 公開日:2022-03-20
# 勧告におけるマルチビューマルチビヘイビアコントラスト学習

Multi-view Multi-behavior Contrastive Learning in Recommendation ( http://arxiv.org/abs/2203.10576v1 )

ライセンス: Link先を確認
Yiqing Wu, Ruobing Xie, Yongchun Zhu, Xiang Ao, Xin Chen, Xu Zhang, Fuzhen Zhuang, Leyu Lin, Qing He(参考訳) マルチビヘイビアレコメンデーション(MBR)は、目標行動のパフォーマンスを改善するために、複数の振る舞いを共同で検討することを目的としている。 MBRモデルは,(1)ユーザの異なる行動間の粗粒度の共通性をモデル化し,(2)多行動モデリングにおける個々のシーケンスビューとグローバルグラフビューの両方を考慮し,(3)ユーザの複数の行動間の微粒度の相違を捉える。 本稿では、上記の課題を解決するための3つの新しいclタスクを含む、新しいマルチビューコントラスト学習レコメンデーション(mmclr)フレームワークを提案する。 マルチビヘイビアclは、各ビューにおける同一ユーザの異なるユーザシングルビヘイビア表現を類似させることを目的としている。 マルチビューclは、ユーザのシーケンスビューとグラフビュー表現の間のギャップを橋渡ししようとする。 行動区別CLは、異なる行動のきめ細かい相違をモデル化することに焦点を当てている。 実験では,MMCLRと各種CLタスクの2つの実世界のデータセット上での有効性を検証し,既存のベースライン上でSOTA性能を実現する。 私たちのコードは \url{https://github.com/w yqing20/MMCLR} で利用可能です。

Multi-behavior recommendation (MBR) aims to jointly consider multiple behaviors to improve the target behavior's performance. We argue that MBR models should: (1) model the coarse-grained commonalities between different behaviors of a user, (2) consider both individual sequence view and global graph view in multi-behavior modeling, and (3) capture the fine-grained differences between multiple behaviors of a user. In this work, we propose a novel Multi-behavior Multi-view Contrastive Learning Recommendation (MMCLR) framework, including three new CL tasks to solve the above challenges, respectively. The multi-behavior CL aims to make different user single-behavior representations of the same user in each view to be similar. The multi-view CL attempts to bridge the gap between a user's sequence-view and graph-view representations. The behavior distinction CL focuses on modeling fine-grained differences of different behaviors. In experiments, we conduct extensive evaluations and ablation tests to verify the effectiveness of MMCLR and various CL tasks on two real-world datasets, achieving SOTA performance over existing baselines. Our code will be available on \url{https://github.com/w yqing20/MMCLR}
翻訳日:2022-03-22 15:16:26 公開日:2022-03-20
# 完全畳み込み分断スケーリング

Fully Convolutional Fractional Scaling ( http://arxiv.org/abs/2203.10670v1 )

ライセンス: Link先を確認
Michael Soloveitchik and Michael Werman(参考訳) 完全畳み込み分数スケーリングコンポーネントであるfcfsを導入する。 完全な畳み込みネットワークは任意のサイズ入力に適用でき、以前は非整数スケーリングをサポートしていなかった。 私たちのアーキテクチャは、効率的な単層実装でシンプルです。 3つの一般的なスケーリングメソッドの例とコード実装が公開されている。

We introduce a fully convolutional fractional scaling component, FCFS. Fully convolutional networks can be applied to any size input and previously did not support non-integer scaling. Our architecture is simple with an efficient single layer implementation. Examples and code implementations of three common scaling methods are published.
翻訳日:2022-03-22 15:16:03 公開日:2022-03-20
# CLIP on Wheels: オブジェクトのローカライゼーションと探索としてのゼロショットオブジェクトナビゲーション

CLIP on Wheels: Zero-Shot Object Navigation as Object Localization and Exploration ( http://arxiv.org/abs/2203.10421v1 )

ライセンス: Link先を確認
Samir Yitzhak Gadre, Mitchell Wortsman, Gabriel Ilharco, Ludwig Schmidt, Shuran Song(参考訳) 世界中の家庭には、メイトグルドやコーヒーマグカップからシタールやギターまで、任意のオブジェクトが含まれています。 この多様性を考慮すると、ロボットの知覚は、家庭に広く適用するために追加の微調整をすることなく、様々な意味オブジェクトを扱う必要がある。 近年、ゼロショットモデルは任意のオブジェクトのイメージ分類において印象的な性能を示している(例えば、トレーニング中に明示的に見えないカテゴリで推論された画像の分類)。 本稿では、ゼロショットビジョンモデル(例えばCLIP)の成功を、オブジェクトナビゲーションの一般的な具体的AIタスクに翻訳する。 私たちの設定では、エージェントは、異なるデータセットから来る見えない環境で、テキストで指定された任意のゴールオブジェクトを見つけなければなりません。 私たちの重要な洞察は、タスクをゼロショットオブジェクトのローカライゼーションと探索にモジュール化することです。 この哲学を応用して、タスクのためのCLIP on Wheels(CoW)ベースラインを設計し、HabitatとRoboTHORシミュレータで各ゼロショットモデルを評価する。 私たちは、CLIPベースのオブジェクトローカライゼーションと古典的な探索、追加のトレーニングのない単純なCoWが、データセットの分散シフトの成功、効率、堅牢性という点で、学習可能なアプローチよりも優れています。 このCoWは、すべてのカテゴリでゼロショットをテストすると、Habitatで6.3%のSPL、RoboTHORで10.0%のSPLを達成する。 先行研究で考慮された4つのロボホールカテゴリのサブセットにおいて、同じ牛は学習可能な最先端のベースラインよりも16.1ポイント向上している。

Households across the world contain arbitrary objects: from mate gourds and coffee mugs to sitars and guitars. Considering this diversity, robot perception must handle a large variety of semantic objects without additional fine-tuning to be broadly applicable in homes. Recently, zero-shot models have demonstrated impressive performance in image classification of arbitrary objects (i.e., classifying images at inference with categories not explicitly seen during training). In this paper, we translate the success of zero-shot vision models (e.g., CLIP) to the popular embodied AI task of object navigation. In our setting, an agent must find an arbitrary goal object, specified via text, in unseen environments coming from different datasets. Our key insight is to modularize the task into zero-shot object localization and exploration. Employing this philosophy, we design CLIP on Wheels (CoW) baselines for the task and evaluate each zero-shot model in both Habitat and RoboTHOR simulators. We find that a straightforward CoW, with CLIP-based object localization plus classical exploration, and no additional training, often outperforms learnable approaches in terms of success, efficiency, and robustness to dataset distribution shift. This CoW achieves 6.3% SPL in Habitat and 10.0% SPL in RoboTHOR, when tested zero-shot on all categories. On a subset of four RoboTHOR categories considered in prior work, the same CoW shows a 16.1 percentage point improvement in Success over the learnable state-of-the-art baseline.
翻訳日:2022-03-22 15:13:20 公開日:2022-03-20
# 臨床実践に向けて:胸部X線画像からのCOVID-19症例検出のための畳み込みニューラルネットワークを用いた補助診断システムの設計と実装

Towards Clinical Practice: Design and Implementation of Convolutional Neural Network-Based Assistive Diagnosis System for COVID-19 Case Detection from Chest X-Ray Images ( http://arxiv.org/abs/2203.10596v1 )

ライセンス: Link先を確認
Daniel Kvak, Marian Bendik, Anna Chromcova(参考訳) 早期発見と肺疾患の発生率の評価のための重要なツールの1つは胸部x線撮影である。 本研究では,convolutional neural network(cnn)ベースのcarebot covid appを用いて,胸部x線(cxr)画像から新型コロナウイルスを検出する。 提案するモデルは,単純で直感的なアプリケーションである。 使用されるCNNは、DICOMビューアに直接実装するためのSTOW-RS予測エンドポイントとしてデプロイすることができる。 本研究では,DenseNetとResNetアーキテクチャに基づくディープラーニングモデルを用いて,精度0.981のCXR画像からSARS-CoV-2を検出し,0.962と0.993のAPをリコールする。

One of the critical tools for early detection and subsequent evaluation of the incidence of lung diseases is chest radiography. This study presents a real-world implementation of a convolutional neural network (CNN) based Carebot Covid app to detect COVID-19 from chest X-ray (CXR) images. Our proposed model takes the form of a simple and intuitive application. Used CNN can be deployed as a STOW-RS prediction endpoint for direct implementation into DICOM viewers. The results of this study show that the deep learning model based on DenseNet and ResNet architecture can detect SARS-CoV-2 from CXR images with precision of 0.981, recall of 0.962 and AP of 0.993.
翻訳日:2022-03-22 15:12:54 公開日:2022-03-20
# 大規模実世界データ構築に向けて:患者レベルスーパービジョンによる臨床テキストから重要なオンコロジー情報を抽出するためのディープラーニング

Towards Structuring Real-World Data at Scale: Deep Learning for Extracting Key Oncology Information from Clinical Text with Patient-Level Supervision ( http://arxiv.org/abs/2203.10442v1 )

ライセンス: Link先を確認
Sam Preston, Mu Wei, Rajesh Rao, Robert Tinn, Naoto Usuyama, Michael Lucas, Roshanthi Weerasinghe, Soohee Lee, Brian Piening, Paul Tittel, Naveen Valluri, Tristan Naumann, Carlo Bifulco, Hoifung Poon(参考訳) 目的: 実世界データ (RWD) における詳細な患者情報の大部分は, フリーテキスト臨床文書でのみ利用可能である。 手動のキュレーションは高価で時間がかかります。 したがって、RWDを構造化するための自然言語処理(NLP)手法の開発は、実世界のエビデンス生成のスケーリングに不可欠である。 材料と方法: 従来のルールベースのシステムは、臨床テキストにおける一般的な言語的バリエーションや曖昧さに弱い。 一般のrwd応用のために, 容易に入手でき, 重要な患者情報を収集できる医療機関からの患者レベルの監督を活用することを提案する。 文レベルのアノテーションやレポートレベルのアノテーションの欠如に対処するため,ドメイン固有の事前学習,リカレントニューラルネットワーク,階層的注意を組み合わせ,高度なディープラーニング手法を検討する。 結果:米国西部5つの医療システムからなる大規模統合配送ネットワーク (idn) のがん登録簿から135,107例について広範な調査を行った。 われわれはAUROCを94-99%の有意な腫瘍特性で試験し,個別の健康システムと状態から得られた保持データと比較した。 議論と結論: アブレーションの結果は、これらの先進的なディープラーニング手法が従来の手法よりも明らかに優れていることを示す。 誤り解析により,我々のNLPシステムは時々レジストラーラベルの誤りを訂正する。 また,この医療ネットワークにおいて,120万人以上のがん患者を対象に,登録キュレーションと一般RWD構造化の促進に関する予備的研究を行った。

Objective: The majority of detailed patient information in real-world data (RWD) is only consistently available in free-text clinical documents. Manual curation is expensive and time-consuming. Developing natural language processing (NLP) methods for structuring RWD is thus essential for scaling real-world evidence generation. Materials and Methods: Traditional rule-based systems are vulnerable to the prevalent linguistic variations and ambiguities in clinical text, and prior applications of machine-learning methods typically require sentence-level or report-level labeled examples that are hard to produce at scale. We propose leveraging patient-level supervision from medical registries, which are often readily available and capture key patient information, for general RWD applications. To combat the lack of sentence-level or report-level annotations, we explore advanced deep-learning methods by combining domain-specific pretraining, recurrent neural networks, and hierarchical attention. Results: We conduct an extensive study on 135,107 patients from the cancer registry of a large integrated delivery network (IDN) comprising healthcare systems in five western US states. Our deep learning methods attain test AUROC of 94-99% for key tumor attributes and comparable performance on held-out data from separate health systems and states. Discussion and Conclusion: Ablation results demonstrate clear superiority of these advanced deep-learning methods over prior approaches. Error analysis shows that our NLP system sometimes even corrects errors in registrar labels. We also conduct a preliminary investigation in accelerating registry curation and general RWD structuring via assisted curation for over 1.2 million cancer patients in this healthcare network.
翻訳日:2022-03-22 15:10:30 公開日:2022-03-20
# Cluster & Tune: テキスト分類におけるコールドスタートのパフォーマンス向上

Cluster & Tune: Boost Cold Start Performance in Text Classification ( http://arxiv.org/abs/2203.10581v1 )

ライセンス: Link先を確認
Eyal Shnarch, Ariel Gera, Alon Halfon, Lena Dankin, Leshem Choshen, Ranit Aharonov, Noam Slonim(参考訳) 現実世界のシナリオでは、ラベル付きデータが不足する場合、テキスト分類タスクはコールドスタートで始まることが多い。 このような場合、目標分類タスクに対するBERTのような微調整事前学習モデルの一般的な実践は、性能が劣る傾向にある。 本稿では,事前学習段階と微調整段階の間に,中間教師なし分類タスクを追加することにより,モデルの性能を向上させる手法を提案する。 このような中間タスクとして,クラスタラベルの予測に事前学習したモデルをクラスタリングし,トレーニングする。 この仮説を様々なデータセットで検証し、この追加の分類フェーズが、主にトピック分類タスクにおいて、数十から数百というラベル付きインスタンス数がわずか数である場合に、パフォーマンスを大幅に改善できることを示した。

In real-world scenarios, a text classification task often begins with a cold start, when labeled data is scarce. In such cases, the common practice of fine-tuning pre-trained models, such as BERT, for a target classification task, is prone to produce poor performance. We suggest a method to boost the performance of such models by adding an intermediate unsupervised classification task, between the pre-training and fine-tuning phases. As such an intermediate task, we perform clustering and train the pre-trained model on predicting the cluster labels. We test this hypothesis on various data sets, and show that this additional classification phase can significantly improve performance, mainly for topical classification tasks, when the number of labeled instances available for fine-tuning is only a couple of dozen to a few hundred.
翻訳日:2022-03-22 15:10:04 公開日:2022-03-20
# 医療概念による教師なしユーザ埋め込みの充実

Enriching Unsupervised User Embedding via Medical Concepts ( http://arxiv.org/abs/2203.10627v1 )

ライセンス: Link先を確認
Xiaolei Huang, Franck Dernoncourt, Mark Dredze(参考訳) 電子健康記録 (ehr) には、疾患診断のための推論表現型と、コホート選択のための患者特性に関する詳細な文書が記載されている。 unsupervised user embeddedは、患者を人間の監督なしに固定長ベクトルにエンコードすることを目的としている。 臨床ノートから抽出された医療概念は患者とその臨床分類との間に豊富な関連を含んでいる。 しかし、既存の臨床ノートからのユーザ埋め込みの教師なしアプローチは、医学的概念を明示的に取り入れていない。 そこで本研究では,MIMIC-IIIとDiabetesの2つの臨床コーパスからテキスト文書と医療概念を共同で活用する,非教師型ユーザ埋め込みを提案する。 表現型分類, 病院内死亡予測, 患者の検索, 患者関連性など, 外部および本質的タスクにおけるユーザ埋め込みを評価する。 2つの臨床コーパスを用いた実験により,本手法は教師なしのベースラインを上回っており,医療概念を取り入れることでベースライン性能が著しく向上する可能性が示唆された。

Clinical notes in Electronic Health Records (EHR) present rich documented information of patients to inference phenotype for disease diagnosis and study patient characteristics for cohort selection. Unsupervised user embedding aims to encode patients into fixed-length vectors without human supervisions. Medical concepts extracted from the clinical notes contain rich connections between patients and their clinical categories. However, existing unsupervised approaches of user embeddings from clinical notes do not explicitly incorporate medical concepts. In this study, we propose a concept-aware unsupervised user embedding that jointly leverages text documents and medical concepts from two clinical corpora, MIMIC-III and Diabetes. We evaluate user embeddings on both extrinsic and intrinsic tasks, including phenotype classification, in-hospital mortality prediction, patient retrieval, and patient relatedness. Experiments on the two clinical corpora show our approach exceeds unsupervised baselines, and incorporating medical concepts can significantly improve the baseline performance.
翻訳日:2022-03-22 15:09:49 公開日:2022-03-20
# PipeGCN: パイプライン型特徴通信を用いたグラフ畳み込みネットワークの効率的なフルグラフトレーニング

PipeGCN: Efficient Full-Graph Training of Graph Convolutional Networks with Pipelined Feature Communication ( http://arxiv.org/abs/2203.10428v1 )

ライセンス: Link先を確認
Cheng Wan, Youjie Li, Cameron R. Wolfe, Anastasios Kyrillidis, Nam Sung Kim, Yingyan Lin(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフ構造化データを学習するための最先端の手法であり、大規模GCNの訓練には、各アクセラレータが分割されたサブグラフを保持することができるように、複数のアクセラレータ間で分散トレーニングが必要である。 しかしながら、分散GCNトレーニングは、各トレーニングイテレーション中に各GCNレイヤのパーティション間のノード機能と機能勾配の通信オーバーヘッドを禁止し、達成可能なトレーニング効率とモデルのスケーラビリティを制限します。 そこで本研究では,分割間通信と分割間通信をパイプライン化することで通信オーバーヘッドを隠蔽する,シンプルで効果的なPipeGCNを提案する。 効率的なgcnトレーニングにはパイプラインが非自明であり、通信されたノードの機能/勾配が停滞し、パイプラインのメリットを損なう可能性がある。 特に,GCNトレーニングにおける静的特徴勾配と静的特徴勾配の収束率についてはほとんど分かっていない。 この研究は理論的収束解析を提供するだけでなく、パイプgcnの収束速度がバニラ分散gcnトレーニングのそれに近いことが判明した。 さらに,pipegcnの収束をさらに改善するための平滑化手法を開発した。 大規模な実験により、PipeGCNはトレーニングのスループット(1.7x~28.5x)を大幅に向上させつつ、バニラと既存のフルグラフのトレーニング手法と同じ精度を達成できることが示されている。 コードはhttps://github.com/R ICE-EIC/PipeGCNで公開されている。

Graph Convolutional Networks (GCNs) is the state-of-the-art method for learning graph-structured data, and training large-scale GCNs requires distributed training across multiple accelerators such that each accelerator is able to hold a partitioned subgraph. However, distributed GCN training incurs prohibitive overhead of communicating node features and feature gradients among partitions for every GCN layer during each training iteration, limiting the achievable training efficiency and model scalability. To this end, we propose PipeGCN, a simple yet effective scheme that hides the communication overhead by pipelining inter-partition communication with intra-partition computation. It is non-trivial to pipeline for efficient GCN training, as communicated node features/gradients will become stale and thus can harm the convergence, negating the pipeline benefit. Notably, little is known regarding the convergence rate of GCN training with both stale features and stale feature gradients. This work not only provides a theoretical convergence analysis but also finds the convergence rate of PipeGCN to be close to that of the vanilla distributed GCN training without any staleness. Furthermore, we develop a smoothing method to further improve PipeGCN's convergence. Extensive experiments show that PipeGCN can largely boost the training throughput (1.7x~28.5x) while achieving the same accuracy as its vanilla counterpart and existing full-graph training methods. The code is available at https://github.com/R ICE-EIC/PipeGCN.
翻訳日:2022-03-22 15:07:09 公開日:2022-03-20
# 多変量時系列予測のための非定常時間行列分解

Nonstationary Temporal Matrix Factorization for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2203.10651v1 )

ライセンス: Link先を確認
Xinyu Chen, Chengyuan Zhang, Xi-Le Zhao, Nicolas Saunier, and Lijun Sun(参考訳) 現代の時系列データセットは、しばしば高次元、不完全/スパース、非定常である。 これらの特性は、時系列予測と分析のためのスケーラブルで効率的なソリューションの開発を妨げる。 これらの課題に対処するために,時系列行列全体の再構成に行列分解を用いた非定常時間行列分解(notmf)モデルを提案し,時間因子行列の適切に異なるコピーにベクトル自己回帰(var)過程を課す。 このアプローチはデータの低ランク性を保持するだけでなく、一貫した時間的ダイナミクスも提供する。 NoTMFの学習過程には、2つの係数行列とVAR係数行列の集合の最適化が含まれる。 最適化問題を効率的に解くために,共役勾配と最小二乗法を用いて部分問題を解く交互最小化フレームワークを導出する。 特に、共役勾配法を用いることは効率的なルーチンを提供し、大規模問題に notmf を適用することができる。 Uberの移動速度データセットに関する広範な実験を通じて、他のベースラインモデルよりもNoTMFの精度と有効性を示す。 また,時空間流速などの実世界の時系列データの非定常性に対処することの重要性も確認した。

Modern time series datasets are often high-dimensional, incomplete/sparse, and nonstationary. These properties hinder the development of scalable and efficient solutions for time series forecasting and analysis. To address these challenges, we propose a Nonstationary Temporal Matrix Factorization (NoTMF) model, in which matrix factorization is used to reconstruct the whole time series matrix and vector autoregressive (VAR) process is imposed on a properly differenced copy of the temporal factor matrix. This approach not only preserves the low-rank property of the data but also offers consistent temporal dynamics. The learning process of NoTMF involves the optimization of two factor matrices and a collection of VAR coefficient matrices. To efficiently solve the optimization problem, we derive an alternating minimization framework, in which subproblems are solved using conjugate gradient and least squares methods. In particular, the use of conjugate gradient method offers an efficient routine and allows us to apply NoTMF on large-scale problems. Through extensive experiments on Uber movement speed dataset, we demonstrate the superior accuracy and effectiveness of NoTMF over other baseline models. Our results also confirm the importance of addressing the nonstationarity of real-world time series data such as spatiotemporal traffic flow/speed.
翻訳日:2022-03-22 15:03:52 公開日:2022-03-20
# アノテーションフリー深層学習による急性骨髄性白血病の血液膜および骨髄呼吸における自動検出

Automated Detection of Acute Promyelocytic Leukemia in Blood Films and Bone Marrow Aspirates with Annotation-free Deep Learning ( http://arxiv.org/abs/2203.10626v1 )

ライセンス: Link先を確認
Petru Manescu, Priya Narayanan, Christopher Bendkowski, Muna Elmi, Remy Claveau, Vijay Pawar, Biobele J. Brown, Mike Shaw, Anupama Rao, and Delmiro Fernandez-Reyes(参考訳) 血液学者による血液膜および骨髄吸引物の光学顕微鏡検査は、急性白血病の診断を確立するための重要なステップであり、特に他の診断モダリティが得られない低リソース環境では重要なステップである。 特に急性前骨髄球性白血病(APL)は緊急治療を必要とする。 自動計算血液病理学を臨床ワークフローに統合することで、これらのサービスのスループットを改善し、認知的ヒューマンエラーを減らすことができる。 しかし、そのようなシステムをデプロイする際の大きなボトルネックは、ディープラーニングモデルを訓練するのに十分な細胞形態的オブジェクトラベルアノテーションがないことである。 患者診断ラベルを利用して、さまざまな種類の急性白血病を検出する弱教師付きモデルを訓練する。 深層学習アプローチであるMILLIE(Multiple Instance Learning for Leukocyte Identification)を導入し、最小限の監督で血液膜の自動的信頼性解析を行う。 個々の細胞を分類する訓練を受けずに、ミリーは急性リンパ芽球性白血病と骨髄芽球性白血病を血液膜で区別する。 さらに重要なのは、MILLIEが血液膜(AUC 0.94+/-0.04)および骨髄吸引物(AUC 0.99+/-0.01)中のAPLを検出することである。 MILLIEは、血液顕微鏡検査を必要とする臨床経路のスループットを高めるための有効なソリューションである。

While optical microscopy inspection of blood films and bone marrow aspirates by a hematologist is a crucial step in establishing diagnosis of acute leukemia, especially in low-resource settings where other diagnostic modalities might not be available, the task remains time-consuming and prone to human inconsistencies. This has an impact especially in cases of Acute Promyelocytic Leukemia (APL) that require urgent treatment. Integration of automated computational hematopathology into clinical workflows can improve the throughput of these services and reduce cognitive human error. However, a major bottleneck in deploying such systems is a lack of sufficient cell morphological object-labels annotations to train deep learning models. We overcome this by leveraging patient diagnostic labels to train weakly-supervised models that detect different types of acute leukemia. We introduce a deep learning approach, Multiple Instance Learning for Leukocyte Identification (MILLIE), able to perform automated reliable analysis of blood films with minimal supervision. Without being trained to classify individual cells, MILLIE differentiates between acute lymphoblastic and myeloblastic leukemia in blood films. More importantly, MILLIE detects APL in blood films (AUC 0.94+/-0.04) and in bone marrow aspirates (AUC 0.99+/-0.01). MILLIE is a viable solution to augment the throughput of clinical pathways that require assessment of blood film microscopy.
翻訳日:2022-03-22 15:02:32 公開日:2022-03-20
# RGBDビデオからのArticulated Rigid Body Dynamicsの推定

Inferring Articulated Rigid Body Dynamics from RGBD Video ( http://arxiv.org/abs/2203.10488v1 )

ライセンス: Link先を確認
Eric Heiden, Ziang Liu, Vibhav Vineet, Erwin Coumans, Gaurav S. Sukhatme(参考訳) 光相互作用から接触力学まで、物理現象を再現できるシミュレータは、現実世界の相互作用やラベル付きデータを得るのが難しいアプリケーション領域において、ますます有用になりつつある。 近年の進歩にもかかわらず、現実の振る舞いを正確に再現するためにシミュレータを構成するには人的努力が必要である。 逆レンダリングと微分可能なシミュレーションを組み合わせるパイプラインを導入し、奥行きやRGBビデオから実世界の調音機構のデジタル双対を生成する。 本手法はジョイントタイプを自動的に発見し,その運動パラメータを推定するが,機構全体の動的特性は物理的に正確なシミュレーションを実現するために調整される。 シミュレーションで最適化した制御ポリシーは,シミュレーションシステムで実証したように,元のシステムに戻ることに成功している。 さらに,ロボットが操作する調音機構のキネマティックツリーを高精度に再構築し,実世界の結合振子機構の高非線形ダイナミクスについて述べる。 ウェブサイト:https://eric-heiden .github.io/video2sim

Being able to reproduce physical phenomena ranging from light interaction to contact mechanics, simulators are becoming increasingly useful in more and more application domains where real-world interaction or labeled data are difficult to obtain. Despite recent progress, significant human effort is needed to configure simulators to accurately reproduce real-world behavior. We introduce a pipeline that combines inverse rendering with differentiable simulation to create digital twins of real-world articulated mechanisms from depth or RGB videos. Our approach automatically discovers joint types and estimates their kinematic parameters, while the dynamic properties of the overall mechanism are tuned to attain physically accurate simulations. Control policies optimized in our derived simulation transfer successfully back to the original system, as we demonstrate on a simulated system. Further, our approach accurately reconstructs the kinematic tree of an articulated mechanism being manipulated by a robot, and highly nonlinear dynamics of a real-world coupled pendulum mechanism. Website: https://eric-heiden. github.io/video2sim
翻訳日:2022-03-22 14:59:42 公開日:2022-03-20
# ニューラルフェーシビリティチェックによる統合タスクと運動計画の高速化

Accelerating Integrated Task and Motion Planning with Neural Feasibility Checking ( http://arxiv.org/abs/2203.10568v1 )

ライセンス: Link先を確認
Lei Xu, Tianyu Ren, Georgia Chalvatzaki, Jan Peters(参考訳) ロボットは産業においてますます重要な役割を担っているため、日々の生活タスクへの彼らの応用に対する期待は高まっている。 ロボットは、達成すべきいくつかのサブタスクからなる長い水平タスクを実行する必要がある。 タスク・アンド・モーション・プランニング(tamp)は、可能なアクション・シーケンスを生成するシンボリック・タスク・プランナーと、幾何学的世界のキネマティックな実現可能性をチェックするモーション・プランナーをインターリーブすることで、操作タスクのシーケンシャルな性質を処理する階層的フレームワークを提供する。 したがって、タスクプランの幾何学的接地に関する推論は、モーションプランナーによって引き継がれる。 しかし、動作計画は計算的に強烈であり、現実のシナリオには適用できないTAMPメソッドをキャストするため、使用性が高い。 本稿では,提案する動作の実現可能性分類のための単純かつ効果的な視覚ヒューリスティックであるneural feasibility classifier (nfc)を提案する。 すなわち、NFCはコストのかかるモーションプランニングを必要とせず、タスクプランナが実行不可能なアクションを特定することで、マルチステップ操作タスクの計画時間を短縮する。 NFCは、畳み込みニューラルネットワーク(CNN)のおかげで、ロボットのワークスペースの画像を特徴マップにエンコードする。 我々は、TAMP問題のシミュレーションデータを用いてNFCをトレーニングし、IKの実現可能性チェックに基づいてインスタンスをラベル付けする。 シミュレーション操作タスクの違いによる実験結果から,NFCはロボットの作業空間全体に一般化し,複数の障害物のあるシーンにおいても高い予測精度を有することがわかった。 最先端の統合TAMPと組み合わせることで、NFCは計画時間を短縮しながら性能を向上させる。

As robots play an increasingly important role in the industrial, the expectations about their applications for everyday living tasks are getting higher. Robots need to perform long-horizon tasks that consist of several sub-tasks that need to be accomplished. Task and Motion Planning (TAMP) provides a hierarchical framework to handle the sequential nature of manipulation tasks by interleaving a symbolic task planner that generates a possible action sequence, with a motion planner that checks the kinematic feasibility in the geometric world, generating robot trajectories if several constraints are satisfied, e.g., a collision-free trajectory from one state to another. Hence, the reasoning about the task plan's geometric grounding is taken over by the motion planner. However, motion planning is computationally intense and is usability as feasibility checker casts TAMP methods inapplicable to real-world scenarios. In this paper, we introduce neural feasibility classifier (NFC), a simple yet effective visual heuristic for classifying the feasibility of proposed actions in TAMP. Namely, NFC will identify infeasible actions of the task planner without the need for costly motion planning, hence reducing planning time in multi-step manipulation tasks. NFC encodes the image of the robot's workspace into a feature map thanks to convolutional neural network (CNN). We train NFC using simulated data from TAMP problems and label the instances based on IK feasibility checking. Our empirical results in different simulated manipulation tasks show that our NFC generalizes to the entire robot workspace and has high prediction accuracy even in scenes with multiple obstructions. When combined with state-of-the-art integrated TAMP, our NFC enhances its performance while reducing its planning time.
翻訳日:2022-03-22 14:59:25 公開日:2022-03-20
# コントラスト学習における画像表現の分割

Partitioning Image Representation in Contrastive Learning ( http://arxiv.org/abs/2203.10454v1 )

ライセンス: Link先を確認
Hyunsub Lee and Heeyoul Choi(参考訳) 画像領域における対照的な学習では、アンカーと正のサンプルは可能な限り近い表現を強制される。 しかし、データ拡張技術によって2つのサンプルが異なるため、2つのサンプルを同じ表現に強制することは誤解を招く可能性がある。 本稿では,コントラスト学習において,アンカーと正のサンプルの共通的特徴と独特な特徴の両方を学習できる,新たな表現分割表現を提案する。 分割表現は、コンテンツ部分とスタイル部分の2つの部分からなる。 内容部は、クラスの共通の特徴を表し、スタイル部は、各サンプルの独自の特徴を表し、データ拡張メソッドの表現につながる可能性がある。 この分割表現は、コントラスト学習の損失関数を2つの別々の表現の2つの項に分解するだけで実現できる。 この表現を2つの部分で評価するために、変分オートエンコーダ(VAE)とBootstrapYour Own Latent(BYOL)の2つのフレームワークモデルを用いて、コンテンツとスタイルの分離性を示し、それぞれに分類における一般化能力を確認する。 実験結果から,本手法はVAEフレームワーク内の2種類の情報を分離し,従来のBYOLを線形分離性で上回り,数ショットの学習タスクを下流タスクとして実現できることが示唆された。

In contrastive learning in the image domain, the anchor and positive samples are forced to have as close representations as possible. However, forcing the two samples to have the same representation could be misleading because the data augmentation techniques make the two samples different. In this paper, we introduce a new representation, partitioned representation, which can learn both common and unique features of the anchor and positive samples in contrastive learning. The partitioned representation consists of two parts: the content part and the style part. The content part represents common features of the class, and the style part represents the own features of each sample, which can lead to the representation of the data augmentation method. We can achieve the partitioned representation simply by decomposing a loss function of contrastive learning into two terms on the two separate representations, respectively. To evaluate our representation with two parts, we take two framework models: Variational AutoEncoder (VAE) and BootstrapYour Own Latent(BYOL) to show the separability of content and style, and to confirm the generalization ability in classification, respectively. Based on the experiments, we show that our approach can separate two types of information in the VAE framework and outperforms the conventional BYOL in linear separability and a few-shot learning task as downstream tasks.
翻訳日:2022-03-22 14:28:16 公開日:2022-03-20
# 3次元カメラ投影によるオーバーラップカバーのカメラ配置最適化

Optimizing Camera Placements for Overlapped Coverage with 3D Camera Projections ( http://arxiv.org/abs/2203.10479v1 )

ライセンス: Link先を確認
Akshay Malhotra, Dhananjay Singh, Tushar Dadlani, Luis Yoichi Morales(参考訳) 本稿では,ユーザ定義のカバレッジを実現するために,カメラ6Dofのポーズを計算する手法を提案する。 カメラ配置問題は、最大数のカメラが与えられた場合に、可能なカメラポーズの大きなプールからカメラセットを選択する組合せ最適化としてモデル化される。 本研究では,要求範囲と達成範囲の2乗誤差を最小化し,非線形コスト関数を混合整数線形計画問題として定式化する。 カメラレンズモデルを用いて3次元ボクセルマップ上にカメラビューを投影し、実際の環境における最適化問題を抽出可能なカバレッジスコアを算出する。 実店舗における2つの実店舗における実験結果から,既存の手法と比較して,提案手法の有効性と三角測量の重なりが示された。

This paper proposes a method to compute camera 6Dof poses to achieve a user defined coverage. The camera placement problem is modeled as a combinatorial optimization where given the maximum number of cameras, a camera set is selected from a larger pool of possible camera poses. We propose to minimize the squared error between the desired and the achieved coverage, and formulate the non-linear cost function as a mixed integer linear programming problem. A camera lens model is utilized to project the cameras view on a 3D voxel map to compute a coverage score which makes the optimization problem in real environments tractable. Experimental results in two real retail store environments demonstrate the better performance of the proposed formulation in terms of coverage and overlap for triangulation compared to existing methods.
翻訳日:2022-03-22 14:27:53 公開日:2022-03-20
# 対話学習のための階層的帰納的伝達

Hierarchical Inductive Transfer for Continual Dialogue Learning ( http://arxiv.org/abs/2203.10484v1 )

ライセンス: Link先を確認
Shaoxiong Feng, Xuancheng Ren, Kan Li, Xu Sun(参考訳) 事前訓練されたモデルは対話作業において優れた性能を達成している。 しかし、オンラインのチャットシナリオの継続的な増加に対して、これらのモデルを新しいタスクごとに直接微調整することは、組み込みデバイス上での対話システムの能力を爆発させるだけでなく、事前訓練されたモデルを忘れることや、多様な対話タスク間の知識干渉を引き起こす。 本研究では,対話スキルを継続的にかつ効率的に習得・展開するための階層的インダクティブ・トランスファー・フレームワークを提案する。 まず,新しい対話タスクを学習するための事前学習モデルにアダプタモジュールを導入する。 学習可能な唯一のモジュールとして,組込みデバイス上での対話システムでは,追加パラメータの不要な新たな対話スキルを得ることが有用である。 そして,タスク間の知識干渉を軽減するために,タスク固有のアダプタの多様な知識に誤解されることなく,新しいタスクがベースアダプタの一般知識を利用できるようにする階層的帰納的トランスファーを設計する。 経験的評価と分析の結果から,このフレームワークは,デプロイフレンドリなモデルキャパシティで同等のパフォーマンスが得られる。

Pre-trained models have achieved excellent performance on the dialogue task. However, for the continual increase of online chit-chat scenarios, directly fine-tuning these models for each of the new tasks not only explodes the capacity of the dialogue system on the embedded devices but also causes knowledge forgetting on pre-trained models and knowledge interference among diverse dialogue tasks. In this work, we propose a hierarchical inductive transfer framework to learn and deploy the dialogue skills continually and efficiently. First, we introduce the adapter module into pre-trained models for learning new dialogue tasks. As the only trainable module, it is beneficial for the dialogue system on the embedded devices to acquire new dialogue skills with negligible additional parameters. Then, for alleviating knowledge interference between tasks yet benefiting the regularization between them, we further design hierarchical inductive transfer that enables new tasks to use general knowledge in the base adapter without being misled by diverse knowledge in task-specific adapters. Empirical evaluation and analysis indicate that our framework obtains comparable performance under deployment-friendly model capacity.
翻訳日:2022-03-22 14:09:39 公開日:2022-03-20
# 適応構成モジュールを用いた連続シーケンス生成

Continual Sequence Generation with Adaptive Compositional Modules ( http://arxiv.org/abs/2203.10652v1 )

ライセンス: Link先を確認
Yanzhe Zhang, Xuezhi Wang and Diyi Yang(参考訳) 古いタスクの知識を忘れずにモデルを新しいタスクに迅速に適用する必要がある場合、継続的学習は現実世界のデプロイメントに不可欠です。 既存の連続シーケンス生成の作業は、常に既存のパラメータを再利用して新しいタスクを学ぶか、異種タスクを忘れてしまう破滅的な問題に弱いか、あるいは新しいタスク毎に新しいパラメータを盲目的に追加する。 そこで本研究では,トランスフォーマーアーキテクチャでモジュールを適応的に追加し,新しいタスクのために古いモジュールと新しいモジュールを合成するために,適応型合成モジュールを用いた連続シーケンス生成を提案する。 また,共有モジュールにおける知識伝達を容易にするために,擬似体験リプレイも組み込んだ。 様々な生成タスクにおける実験結果から,提案フレームワークはタスクの類似性に基づいてモジュールや再利用モジュールを適応的に追加し,性能とパラメータ効率の両面で最先端のベースラインを上回ることができることがわかった。 コードをhttps://github.com/G T-SALT/Adaptive-Comp ositional-Modulesで公開しています。

Continual learning is essential for real-world deployment when there is a need to quickly adapt the model to new tasks without forgetting knowledge of old tasks. Existing work on continual sequence generation either always reuses existing parameters to learn new tasks, which is vulnerable to catastrophic forgetting on dissimilar tasks, or blindly adds new parameters for every new task, which could prevent knowledge sharing between similar tasks. To get the best of both worlds, in this work, we propose continual sequence generation with adaptive compositional modules to adaptively add modules in transformer architectures and compose both old and new modules for new tasks. We also incorporate pseudo experience replay to facilitate knowledge transfer in those shared modules. Experiment results on various sequences of generation tasks show that our framework can adaptively add modules or reuse modules based on task similarity, outperforming state-of-the-art baselines in terms of both performance and parameter efficiency. We make our code public at https://github.com/G T-SALT/Adaptive-Comp ositional-Modules.
翻訳日:2022-03-22 14:09:18 公開日:2022-03-20
# 逆学習による機械翻訳におけるジェンダーバイアスの軽減

Mitigating Gender Bias in Machine Translation through Adversarial Learning ( http://arxiv.org/abs/2203.10675v1 )

ライセンス: Link先を確認
Eve Fleisig and Christiane Fellbaum(参考訳) 機械翻訳やその他のNLPシステムはしばしば、性別や人種などのセンシティブな属性に関する重大なバイアスを伴い、システムのパフォーマンスが悪化し、有害なステレオタイプが持続する。 近年の予備研究では、データ修正を必要としないモデル非依存バイアス緩和手法の一部として、対人学習が利用可能であることが示唆されている。 しかし,この手法を機械翻訳や他の現代のNLPドメインに適用するには,(1)微調整済みの大規模言語モデルの文脈でトレーニング対象を再構築すること,(2)これらの属性をデータ自体から導出しなければならないタスクに対して,性別や他の保護された変数の尺度を開発することが必要である。 本稿では,seq2seq機械翻訳におけるジェンダーバイアスを軽減するために,これらの課題に対処する逆学習フレームワークを提案する。 提案手法は, 男性と女性との翻訳品質の差を86%, 英語とフランス語の翻訳を91%改善し, 翻訳品質への影響を最小限に抑えた。 その結果, 逆学習は, 機械翻訳におけるジェンダーバイアスを緩和する有望な手法であることが示唆された。

Machine translation and other NLP systems often contain significant biases regarding sensitive attributes, such as gender or race, that worsen system performance and perpetuate harmful stereotypes. Recent preliminary research suggests that adversarial learning can be used as part of a model-agnostic bias mitigation method that requires no data modifications. However, adapting this strategy for machine translation and other modern NLP domains requires (1) restructuring training objectives in the context of fine-tuning pretrained large language models and (2) developing measures for gender or other protected variables for tasks in which these attributes must be deduced from the data itself. We present an adversarial learning framework that addresses these challenges to mitigate gender bias in seq2seq machine translation. Our framework improves the disparity in translation quality for sentences with male vs. female entities by 86% for English-German translation and 91% for English-French translation, with minimal effect on translation quality. The results suggest that adversarial learning is a promising technique for mitigating gender bias in machine translation.
翻訳日:2022-03-22 14:08:58 公開日:2022-03-20
# (参考訳) 低出力ニューラルMTの訓練を改善する小さなバッチサイズ [全文訳有]

Small Batch Sizes Improve Training of Low-Resource Neural MT ( http://arxiv.org/abs/2203.10579v1 )

ライセンス: CC BY 4.0
\`Alex R. Atrio, Andrei Popescu-Belis(参考訳) 低リソース環境でのニューラルマシン翻訳のためのトランスフォーマーのトレーニングを統括する必要不可欠なハイパーパラメータの役割について検討する。 理論的洞察と実験的証拠を用いて、バッチサイズはGPUのメモリで許容される大きさに設定されるべきという広く信じられている信念に反対する。 低リソース環境では、バッチサイズが小さくなると、短いトレーニング時間でスコアが高くなることを示し、トレーニング中の勾配の規則化が原因であると主張する。

We study the role of an essential hyper-parameter that governs the training of Transformers for neural machine translation in a low-resource setting: the batch size. Using theoretical insights and experimental evidence, we argue against the widespread belief that batch size should be set as large as allowed by the memory of the GPUs. We show that in a low-resource setting, a smaller batch size leads to higher scores in a shorter training time, and argue that this is due to better regularization of the gradients during training.
翻訳日:2022-03-22 14:06:15 公開日:2022-03-20
# ロングストーリーに対する微分可能な推論 -ニューラルモデルにおける体系的一般化の評価

Differentiable Reasoning over Long Stories -- Assessing Systematic Generalisation in Neural Models ( http://arxiv.org/abs/2203.10620v1 )

ライセンス: Link先を確認
Wanshui Li, Pasquale Minervini(参考訳) 現代のニューラルネットワークは多くの面で一連の発展と成功を達成しているが、トレーニング分布外のデータに露出すると、正しい答えを予測できない可能性がある。 この研究では、この一般化問題を心配し、長いストーリーを体系的に、そして堅牢に、幅広いモデルを分析しました。 ClUTRRは,自然言語理解(NLU)システムの一般化を,小さなストーリグラフ上でのトレーニングと大規模システム上でのテストによって解析する,診断ベンチマークスイートである。 マルチリレーショナルストーリーグラフを扱うために,グラフ構造化データを処理し,エッジ属性を同時に考慮できるグラフベースモデルである"e-gnn"と,線形化バージョンのグラフを処理可能なシーケンスベースモデルである"l-graph"の2つのクラスを検討した。 その結果,修正再帰型ニューラルネットワークは,修正型グラフニューラルネットワークに匹敵するすべての体系的一般化タスクにおいて驚くほど正確な結果が得られ,後者の方が頑健なモデルが得られた。

Contemporary neural networks have achieved a series of developments and successes in many aspects; however, when exposed to data outside the training distribution, they may fail to predict correct answers. In this work, we were concerned about this generalisation issue and thus analysed a broad set of models systematically and robustly over long stories. Related experiments were conducted based on the CLUTRR, which is a diagnostic benchmark suite that can analyse generalisation of natural language understanding (NLU) systems by training over small story graphs and testing on larger ones. In order to handle the multi-relational story graph, we consider two classes of neural models: "E-GNN", the graph-based models that can process graph-structured data and consider the edge attributes simultaneously; and "L-Graph", the sequence-based models which can process linearized version of the graphs. We performed an extensive empirical evaluation, and we found that the modified recurrent neural network yield surprisingly accurate results across every systematic generalisation tasks which outperform the modified graph neural network, while the latter produced more robust models.
翻訳日:2022-03-22 13:40:11 公開日:2022-03-20
# 没入型テキストゲームとパーソナリティ分類

Immersive Text Game and Personality Classification ( http://arxiv.org/abs/2203.10621v1 )

ライセンス: Link先を確認
Wanshui Li, Yifan Bai, Jiaxuan Lu, Kexin Yi(参考訳) これはプレイヤーがストーリーとキャラクタを選択し、没入的な対話方法でストーリー内の他のキャラクターと対話できるゲームである。 このゲームはテキスト生成言語モデル、情報抽出モデル、常識推論モデル、心理学評価モデルなど、いくつかの最新モデルに基づいている。 過去には、類似のテキストゲームでは、プレイヤー自身が答えるのではなく、制限されたアクションからプレイヤーを選択できる。 これらのモデルと精巧なゲームメカニクスとモードを組み合わせることで、プレイヤーはストーリーラインを通じて駆動される新しい体験を見つける。

We designed and built a game called \textit{Immersive Text Game}, which allows the player to choose a story and a character, and interact with other characters in the story in an immersive manner of dialogues. The game is based on several latest models, including text generation language model, information extraction model, commonsense reasoning model, and psychology evaluation model. In the past, similar text games usually let players choose from limited actions instead of answering on their own, and not every time what characters said are determined by the player. Through the combination of these models and elaborate game mechanics and modes, the player will find some novel experiences as driven through the storyline.
翻訳日:2022-03-22 13:39:50 公開日:2022-03-20
# (参考訳) ワンショット物体検出用セマンティックアライメントフュージョントランスフォーマ

Semantic-aligned Fusion Transformer for One-shot Object Detection ( http://arxiv.org/abs/2203.09093v2 )

ライセンス: CC BY 4.0
Yizhou Zhao, Xun Guo, Yan Lu(参考訳) ワンショットオブジェクト検出は、与えられた1つのインスタンスに従って新しいオブジェクトを検出することを目的としている。 極端なデータ不足により、現在のアプローチでは、直接転送可能なメタ知識を得るために様々な特徴融合を探索している。 しかし、彼らのパフォーマンスはしばしば不満足です。 本稿では,空間構造やスケールのばらつきを見極めることで,クエリ支援の意味を誤る不適切な相関手法を提案する。 分析を行う際,注意機構を活用し,semantic-aligned fusion transformer (saft) という,単純かつ効果的なアーキテクチャを提案する。 具体的には,クロススケールなセマンティクスエンハンスメントのための垂直融合モジュール (vfm) と,クロスサンプル特徴融合のための水平融合モジュール (hfm) を備える。 合わせて、クエリから拡張された機能ピラミッド全体へのサポートから、各機能ポイントのビジョンを広げ、セマンティックな関連付けを促進する。 複数のベンチマークに関する広範囲な実験が、我々のフレームワークの優位性を示しています。 新しいクラスを微調整することなく、1段階のベースラインに大幅なパフォーマンス向上をもたらし、最先端の成果をより高いレベルに引き上げる。

One-shot object detection aims at detecting novel objects according to merely one given instance. With extreme data scarcity, current approaches explore various feature fusions to obtain directly transferable meta-knowledge. Yet, their performances are often unsatisfactory. In this paper, we attribute this to inappropriate correlation methods that misalign query-support semantics by overlooking spatial structures and scale variances. Upon analysis, we leverage the attention mechanism and propose a simple but effective architecture named Semantic-aligned Fusion Transformer (SaFT) to resolve these issues. Specifically, we equip SaFT with a vertical fusion module (VFM) for cross-scale semantic enhancement and a horizontal fusion module (HFM) for cross-sample feature fusion. Together, they broaden the vision for each feature point from the support to a whole augmented feature pyramid from the query, facilitating semantic-aligned associations. Extensive experiments on multiple benchmarks demonstrate the superiority of our framework. Without fine-tuning on novel classes, it brings significant performance gains to one-stage baselines, lifting state-of-the-art results to a higher level.
翻訳日:2022-03-22 11:26:08 公開日:2022-03-20
# ニューラルネットワーク翻訳のためのUniversal Conditional Masked Language Pre-training

Universal Conditional Masked Language Pre-training for Neural Machine Translation ( http://arxiv.org/abs/2203.09210v2 )

ライセンス: Link先を確認
Pengfei Li, Liangyou Li, Meng Zhang, Minghao Wu, Qun Liu(参考訳) 事前学習されたシーケンスからシーケンスへのモデルは、ニューラルネットワーク翻訳(nmt)を大幅に改善した。 本稿では,事前学習モデルが一方向デコーダを採用する場合と異なり,双方向デコーダを用いた場合,自己回帰型および非自己回帰型nmtにおいて有意な性能向上が得られることを示す。 具体的には,大規模バイリンガルコーパスとモノリンガルコーパスを事前学習した条件付きマスク付き言語モデルCeMATを提案する。 また,CeMATの拡張,コードスイッチングとマスキング,動的二重マスキングの2つの簡易かつ効果的な手法を導入する。 我々は、大規模な実験を行い、我々のCeMATが低リソース言語から極端に高リソース言語までの全てのシナリオで大幅な性能改善を達成できることを示し、Autoregressive NMTでは、低リソースで+14.4 BLEU、平均で+7.9 BLEUの改善を実現している。 非自己回帰nmtの場合、一貫性のあるパフォーマンス、すなわち+5.3 bleuが得られる。 我々の知る限りでは、両NMTタスクを微調整するための統一モデルを事前訓練する最初の試みである。 コード、データ、事前トレーニング済みモデルはhttps://github.com/h uawei-noah/Pretraine d-Language-Model/CeM ATで入手できる。

Pre-trained sequence-to-sequence models have significantly improved Neural Machine Translation (NMT). Different from prior works where pre-trained models usually adopt an unidirectional decoder, this paper demonstrates that pre-training a sequence-to-sequence model but with a bidirectional decoder can produce notable performance gains for both Autoregressive and Non-autoregressive NMT. Specifically, we propose CeMAT, a conditional masked language model pre-trained on large-scale bilingual and monolingual corpora in many languages. We also introduce two simple but effective methods to enhance the CeMAT, aligned code-switching & masking and dynamic dual-masking. We conduct extensive experiments and show that our CeMAT can achieve significant performance improvement for all scenarios from low- to extremely high-resource languages, i.e., up to +14.4 BLEU on low resource and +7.9 BLEU improvements on average for Autoregressive NMT. For Non-autoregressive NMT, we demonstrate it can also produce consistent performance gains, i.e., up to +5.3 BLEU. To the best of our knowledge, this is the first work to pre-train a unified model for fine-tuning on both NMT tasks. Code, data, and pre-trained models are available at https://github.com/h uawei-noah/Pretraine d-Language-Model/CeM AT
翻訳日:2022-03-22 10:35:37 公開日:2022-03-20
# FERV39k:ビデオにおける表情認識のための大規模マルチシーンデータセット

FERV39k: A Large-Scale Multi-Scene Dataset for Facial Expression Recognition in Videos ( http://arxiv.org/abs/2203.09463v2 )

ライセンス: Link先を確認
Yan Wang, Yixuan Sun, Yiwen Huang, Zhongying Liu, Shuyong Gao, Wei Zhang, Weifeng Ge and Wenqiang Zhang(参考訳) 顔表情認識(FER)の現在のベンチマークは、主に静的画像に焦点を当てているが、ビデオにはFERのデータセットが限られている。 既存のメソッドのパフォーマンスが実際のアプリケーション指向のシーンで十分であるかどうかを評価することは、まだ曖昧である。 例えば、トークショーで高輝度の"happy"表現は、公式イベントにおいて低強度の同じ表現よりも識別性が高い。 このギャップを埋めるために、ferV39kと呼ばれる大規模なマルチシーンデータセットを構築しました。 本研究では,(1)マルチシーン階層と表現クラス,(2)候補ビデオクリップの生成,(3)信頼された手動ラベリングプロセスの3つの側面から,このような新しいデータセットを構築する重要な要素を分析する。 これらのガイドラインに基づき,22シーンに分割した4つのシナリオを選択し,適切に設計されたワークフローに基づいて4kビデオから抽出した86kサンプルを自動アノテーションし,最終的に7つの古典的な表現でラベル付けされた38,935本のビデオクリップを構築する。 4種類のベースラインフレームワークの実験ベンチマークも提供され、そのパフォーマンスをさまざまな場面で分析し、今後の研究課題も提示された。 さらに, アブレーション研究によりDFERの主要成分を系統的に検討した。 ベースラインフレームワークとプロジェクトは利用可能になります。

Current benchmarks for facial expression recognition (FER) mainly focus on static images, while there are limited datasets for FER in videos. It is still ambiguous to evaluate whether performances of existing methods remain satisfactory in real-world application-oriented scenes. For example, the "Happy" expression with high intensity in Talk-Show is more discriminating than the same expression with low intensity in Official-Event. To fill this gap, we build a large-scale multi-scene dataset, coined as FERV39k. We analyze the important ingredients of constructing such a novel dataset in three aspects: (1) multi-scene hierarchy and expression class, (2) generation of candidate video clips, (3) trusted manual labelling process. Based on these guidelines, we select 4 scenarios subdivided into 22 scenes, annotate 86k samples automatically obtained from 4k videos based on the well-designed workflow, and finally build 38,935 video clips labeled with 7 classic expressions. Experiment benchmarks on four kinds of baseline frameworks were also provided and further analysis on their performance across different scenes and some challenges for future research were given. Besides, we systematically investigate key components of DFER by ablation studies. The baseline framework and our project will be available.
翻訳日:2022-03-22 10:34:47 公開日:2022-03-20