このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20220417)

# 配車需要予測のための時空間動的グラフ注意ネットワーク

Spatial-Temporal Dynamic Graph Attention Networks for Ride-hailing Demand Prediction ( http://arxiv.org/abs/2006.05905v4 )

ライセンス: Link先を確認
Weiguo Pian, Yingbo Wu, Xiangmou Qu, Junpeng Cai, Ziyi Kou(参考訳) 配車需要予測は時空間データマイニングにおいて重要な課題である。 正確な配車需要予測は、リソースの事前配分、車両の利用率の向上、ユーザエクスペリエンス向上に役立つ。 グラフ畳み込みネットワーク(GCN)は、複雑な非ユークリッド空間相関をモデル化するために一般的に用いられる。 しかし, 既存のGCNベースの配車需要予測手法は, 隣接する地域ごとにのみ同じ重要性を割り当て, 不規則な非ユークリッド空間相関を抽出する際に, 時間軸を通して静的な空間関係を持つ固定グラフ構造を維持する。 本稿では,新しい配車需要予測手法である空間時間動的グラフ注意ネットワーク(STDGAT)を提案する。 GATの注意機構に基づいて、STDGATは異なるペアワイズ相関を抽出し、異なる隣接領域に対する適応的な重要性割り当てを実現する。 さらに,sdgatでは,時系列を通して動的時間特異的な空間関係を捉える動的グラフ構造を構築するために,新しい時間特異的通勤型グラフアテンションモードを設計する。 実世界の配車需要データセットを用いて大規模な実験を行い, 実験結果から, RMSE, MAPE, MAEの3つの評価指標において, 最先端のベースラインよりも大幅に改善されたことを示す。

Ride-hailing demand prediction is an essential task in spatial-temporal data mining. Accurate Ride-hailing demand prediction can help to pre-allocate resources, improve vehicle utilization and user experiences. Graph Convolutional Networks (GCN) is commonly used to model the complicated irregular non-Euclidean spatial correlations. However, existing GCN-based ride-hailing demand prediction methods only assign the same importance to different neighbor regions, and maintain a fixed graph structure with static spatial relationships throughout the timeline when extracting the irregular non-Euclidean spatial correlations. In this paper, we propose the Spatial-Temporal Dynamic Graph Attention Network (STDGAT), a novel ride-hailing demand prediction method. Based on the attention mechanism of GAT, STDGAT extracts different pair-wise correlations to achieve the adaptive importance allocation for different neighbor regions. Moreover, in STDGAT, we design a novel time-specific commuting-based graph attention mode to construct a dynamic graph structure for capturing the dynamic time-specific spatial relationships throughout the timeline. Extensive experiments are conducted on a real-world ride-hailing demand dataset, and the experimental results demonstrate the significant improvement of our method on three evaluation metrics RMSE, MAPE and MAE over state-of-the-art baselines.
翻訳日:2022-11-24 07:30:47 公開日:2022-04-17
# サファー道路インフラに向けた道路側物体検出システムのためのデータ処理パイプラインの事前検討

A Pre-study on Data Processing Pipelines for Roadside Object Detection Systems Towards Safer Road Infrastructure ( http://arxiv.org/abs/2205.01783v1 )

ライセンス: Link先を確認
Yinan Yu, Samuel Scheidegger, John-Fredrik Gr\"onvall, Magnus Palm, Erik Svanberg, Johan Amoruso Wennerby, J\"org Bakker(参考訳) 単車事故はスウェーデンで最も一般的な事故であり、自動車が道路を走り、危険な道路沿いの物体にぶつかる事故である。 クラッシュクッションやガードレールなどの保護対象の適切な設置とメンテナンスは、そのような事故の機会と重大さを減少させる可能性がある。 また、道路の安全性向上には、危険物の検出や管理の効率化が重要な役割を担っている。 現状とシステム要件をよりよく理解するために、この事前研究では、ロードサイドオブジェクト検出のためのデータ処理パイプラインの実現可能性、実装、制限、スケールアップについて検討する。 特に,関心の対象,選択センサ,アルゴリズム設計の3つの部分に分けられる。 本研究で検討するデータソースには,2つの共通設定がある。 1)道路測量艦隊-トラフィクヴェルケト(スウェーデン運輸局)による年次調査、及び 2)chalmers (revere) の車両研究資源研究所から研究車両を用いて収集した消費者車両データ。 本報告の目的は,安全な道路インフラとスウェーデンのvision zeroに向けたスケーラブルな路面物体検出システムの実装方法を検討することである。

Single-vehicle accidents are the most common type of fatal accidents in Sweden, where a car drives off the road and runs into hazardous roadside objects. Proper installation and maintenance of protective objects, such as crash cushions and guard rails, may reduce the chance and severity of such accidents. Moreover, efficient detection and management of hazardous roadside objects also plays an important role in improving road safety. To better understand the state-of-the-art and system requirements, in this pre-study, we investigate the feasibility, implementation, limitations and scaling up of data processing pipelines for roadside object detection. In particular, we divide our investigation into three parts: the target of interest, the sensors of choice and the algorithm design. The data sources we consider in this study cover two common setups: 1) road surveying fleet - annual scans conducted by Trafikverket, the Swedish Transport Administration, and 2) consumer vehicle - data collected using a research vehicle from the laboratory of Resource for vehicle research at Chalmers (REVERE). The goal of this report is to investigate how to implement a scalable roadside object detection system towards safe road infrastructure and Sweden's Vision Zero.
翻訳日:2022-05-09 00:12:45 公開日:2022-04-17
# ParkPredict+:CNNとトランスフォーマーを用いた駐車場における車両のマルチモーダルインテントと動作予測

ParkPredict+: Multimodal Intent and Motion Prediction for Vehicles in Parking Lots with CNN and Transformer ( http://arxiv.org/abs/2204.10777v1 )

ライセンス: Link先を確認
Xu Shen, Matthew Lacayo, Nidhir Guggilla, Francesco Borrelli(参考訳) 本稿では,駐車場における車両の多目的意図と軌道予測の問題に対処する。 CNNとTransformerネットワークで設計したモデルを用いて、軌跡履歴と局所鳥眼ビュー(BEV)意味画像から時間空間情報と文脈情報を抽出し、意図分布と将来の軌跡シーケンスに関する予測を生成する。 提案手法は,任意の数のモードを許容し,複雑なマルチエージェントシナリオをエンコードし,異なるパーキングマップに適応しながら,既存のモデルの精度を上回っている。 また,この分野では,高分解能・高トラフィックシナリオを持つ駐車場において,初の公共運転データセットを提示する。

The problem of multimodal intent and trajectory prediction for human-driven vehicles in parking lots is addressed in this paper. Using models designed with CNN and Transformer networks, we extract temporal-spatial and contextual information from trajectory history and local bird's eye view (BEV) semantic images, and generate predictions about intent distribution and future trajectory sequences. Our methods outperforms existing models in accuracy, while allowing an arbitrary number of modes, encoding complex multi-agent scenarios, and adapting to different parking maps. In addition, we present the first public human driving dataset in parking lot with high resolution and rich traffic scenarios for relevant research in this field.
翻訳日:2022-05-01 09:27:20 公開日:2022-04-17
# チーム規模で役割割り当てを伝達する学習

Learning to Transfer Role Assignment Across Team Sizes ( http://arxiv.org/abs/2204.12937v1 )

ライセンス: Link先を確認
Dung Nguyen, Phuoc Nguyen, Svetha Venkatesh, Truyen Tran(参考訳) マルチエージェント強化学習は、学習エージェントの協調を必要とする複雑なタスクを解決する鍵を握る。 しかし、強い協調は、しばしば指数関数的に大きな状態-作用空間に対する高価な探索につながる。 強力なアプローチは、チームの作業を役割に分解することです。 トレーニングエージェントはチーム内の新たな役割を適応的に選択し、プレーすることで、チームは複雑なタスクにスケールし、変化する環境に迅速に適応することができます。 しかしながら、これらの約束は、事前に定義された役割構造か固定されたチームサイズのいずれかを前提として、現在のロールベースのマルチエージェント強化学習手法によって完全には実現されていない。 チーム規模で役割の割り当てと移動を学ぶためのフレームワークを提案する。 特に,小規模チームを対象としたロール割り当てネットワークを実演し,大規模チームにネットワークを移し,環境とのインタラクションを通じて学習を続ける。 ロールベースのクレジット割り当て構造を再利用することで、より大きな強化学習チームの学習プロセスが促進され、異なる役割を必要とするタスクが達成できることを示す。 提案手法は,ロール強化型Prey-PredatorゲームやStarCraft II Micro-Managementベンチマークの新たなシナリオにおいて,競合技術よりも優れている。

Multi-agent reinforcement learning holds the key for solving complex tasks that demand the coordination of learning agents. However, strong coordination often leads to expensive exploration over the exponentially large state-action space. A powerful approach is to decompose team works into roles, which are ideally assigned to agents with the relevant skills. Training agents to adaptively choose and play emerging roles in a team thus allows the team to scale to complex tasks and quickly adapt to changing environments. These promises, however, have not been fully realised by current role-based multi-agent reinforcement learning methods as they assume either a pre-defined role structure or a fixed team size. We propose a framework to learn role assignment and transfer across team sizes. In particular, we train a role assignment network for small teams by demonstration and transfer the network to larger teams, which continue to learn through interaction with the environment. We demonstrate that re-using the role-based credit assignment structure can foster the learning process of larger reinforcement learning teams to achieve tasks requiring different roles. Our proposal outperforms competing techniques in enriched role-enforcing Prey-Predator games and in new scenarios in the StarCraft II Micro-Management benchmark.
翻訳日:2022-05-01 09:27:07 公開日:2022-04-17
# 自己監督型コード検索における漏洩への対処

Addressing Leakage in Self-Supervised Contextualized Code Retrieval ( http://arxiv.org/abs/2204.11594v1 )

ライセンス: Link先を確認
Johannes Villmow, Viola Campos, Adrian Ulges, Ulrich Schwanecke(参考訳) 部分的な入力プログラムのギャップを埋めるのに役立つコードスニペットの検索である、文脈化されたコード検索に対処する。 提案手法は,ソースコードをランダムにコンテキストとターゲットに分割することで,大規模な自己指導型コントラストトレーニングを促進する。 両者間のリークに対処するため,相互識別マスキング,デデント,構文に整合したターゲットの選択に基づく新しいアプローチを提案する。 第2のコントリビューションは、手作業によるコードクローンのサブパスのデータセットに基づいて、コンテキスト化されたコード検索を直接評価するための新しいデータセットです。 実験により,提案手法が検索を大幅に改善し,コードクローンと欠陥検出のための新たな最先端結果が得られることを示した。

We address contextualized code retrieval, the search for code snippets helpful to fill gaps in a partial input program. Our approach facilitates a large-scale self-supervised contrastive training by splitting source code randomly into contexts and targets. To combat leakage between the two, we suggest a novel approach based on mutual identifier masking, dedentation, and the selection of syntax-aligned targets. Our second contribution is a new dataset for direct evaluation of contextualized code retrieval, based on a dataset of manually aligned subpassages of code clones. Our experiments demonstrate that our approach improves retrieval substantially, and yields new state-of-the-art results for code clone and defect detection.
翻訳日:2022-05-01 09:26:37 公開日:2022-04-17
# (参考訳) 残余に基づく自然言語逆攻撃検出

Residue-Based Natural Language Adversarial Attack Detection ( http://arxiv.org/abs/2204.10192v1 )

ライセンス: CC BY 4.0
Vyas Raina and Mark Gales(参考訳) ディープラーニングベースのシステムは、入力における小さな、知覚不能な変化がモデル予測を変化させる、敵攻撃の影響を受けやすい。 しかし、これまでこれらの攻撃を検出する手法の大部分は画像処理システム用に設計されてきた。 多くの一般的な画像逆検出手法は、埋め込み特徴空間から敵の例を識別することができるが、NLP領域の既存の技術検出手法では、モデル埋め込み空間を考慮せずに入力テキスト特徴のみに焦点をあてている。 この研究は、これらのイメージ設計戦略を自然言語処理(nlp)タスクに移植すると、どのような違いが生じるかを調べます。 NLPシステムは、画像の連続的および固定的なサイズ入力ではなく、本質的に離散的でシーケンシャルな入力形式を持つため、これは期待できる。 等価なモデルに焦点をあてたnlp検出手法として,簡単な文埋め込み型"residue"ベースの検出器を提案する。 多くのタスクにおいて、移植された画像ドメイン検出器と、最先端のNLP特定検出器の状態を上回ります。

Deep learning based systems are susceptible to adversarial attacks, where a small, imperceptible change at the input alters the model prediction. However, to date the majority of the approaches to detect these attacks have been designed for image processing systems. Many popular image adversarial detection approaches are able to identify adversarial examples from embedding feature spaces, whilst in the NLP domain existing state of the art detection approaches solely focus on input text features, without consideration of model embedding spaces. This work examines what differences result when porting these image designed strategies to Natural Language Processing (NLP) tasks - these detectors are found to not port over well. This is expected as NLP systems have a very different form of input: discrete and sequential in nature, rather than the continuous and fixed size inputs for images. As an equivalent model-focused NLP detection approach, this work proposes a simple sentence-embedding "residue" based detector to identify adversarial examples. On many tasks, it out-performs ported image domain detectors and recent state of the art NLP specific detectors.
翻訳日:2022-04-23 10:10:48 公開日:2022-04-17
# SDGCCA:マルチオミクス統合のための深い一般化正準相関解析

SDGCCA: Supervised Deep Generalized Canonical Correlation Analysis for Multi-omics Integration ( http://arxiv.org/abs/2204.09045v1 )

ライセンス: Link先を確認
Jeongyoung Hwang (1), Sehwan Moon (2), Hyunju Lee (1 and 2) ((1) Artificial Intelligence Graduate School of Gwangju Institute of Science and Technology, (2) School of Electrical Engineering and Computer Science of Gwangju Institute of Science and Technology)(参考訳) マルチオミクスデータの統合は、特定の表現型に関連する生物学的メカニズムを明らかにする機会を提供する。 本論文では,非線形多面多様体間の相関構造をモデル化するためのsupervised deep generalized canonical correlation analysis (sdgcca) と呼ばれる多面的統合手法を提案する。 SDGCCAは他の標準相関解析(CCA)に基づくモデル(ディープCCA、ディープ一般化CCA)の制約に対処し、複素/非線形のクロスデータ相関を考慮し、表現型を識別する。 表現型を識別するための非線形CCA投影法はいくつか存在するが、2つの観点しか考慮していない。 一方,SDGCCAは識別のための非線形多視点CCA投影法である。 アルツハイマー病(AD)の予測と早期・後期癌の鑑別にSDGCCAを適用したところ、他のCCA法および他の指導方法よりも優れていた。 さらに,SDGCCAを特徴選択に利用して,重要なマルチオミクスバイオマーカーを同定できることを実証した。 ADデータへの応用において、SDGCCAはADに関連することがよく知られているマルチオミクスデータ中の遺伝子のクラスターを同定した。

Integration of multi-omics data provides opportunities for revealing biological mechanisms related to certain phenotypes. We propose a novel method of multi-omics integration called supervised deep generalized canonical correlation analysis (SDGCCA) for modeling correlation structures between nonlinear multi-omics manifolds, aiming for improving classification of phenotypes and revealing biomarkers related to phenotypes. SDGCCA addresses the limitations of other canonical correlation analysis (CCA)-based models (e.g., deep CCA, deep generalized CCA) by considering complex/nonlinear cross-data correlations and discriminating phenotype groups. Although there are a few methods for nonlinear CCA projections for discriminant purposes of phenotypes, they only consider two views. On the other hand, SDGCCA is the nonlinear multiview CCA projection method for discrimination. When we applied SDGCCA to prediction of patients of Alzheimer's disease (AD) and discrimination of early- and late-stage cancers, it outperformed other CCA-based methods and other supervised methods. In addition, we demonstrate that SDGCCA can be used for feature selection to identify important multi-omics biomarkers. In the application on AD data, SDGCCA identified clusters of genes in multi-omics data, which are well known to be associated with AD.
翻訳日:2022-04-21 13:43:47 公開日:2022-04-17
# 動的トラスト属性による心の理論の学習

Learning Theory of Mind via Dynamic Traits Attribution ( http://arxiv.org/abs/2204.09047v1 )

ライセンス: Link先を確認
Dung Nguyen, Phuoc Nguyen, Hung Le, Kien Do, Svetha Venkatesh, Truyen Tran(参考訳) 心の理論の機械学習(ToM)は、人間や他のエージェントと共生する社会エージェントを構築するために不可欠である。 この能力は、ひとたび獲得すれば、観察された文脈的行動軌跡から他者の精神状態を推測し、将来の目標、意図、行動、後継表現の予測を可能にする。 しかし、そのような予測の根底にあるメカニズムは不明である。 人間が他人の性格的特徴をしばしば推測して行動を説明するという観察にインスパイアされた我々は,過去の軌跡からアクターの潜在特性ベクトルを生成することを学習するニューラルなToMアーキテクチャを提案する。 この特性ベクトルは、予測ニューラルネットワークの'fast weights'スキームを介して予測機構を乗法的に変調し、現在のコンテキストを読み込んで振る舞いを予測する。 エージェントの性格特性をモデル化する上で,高速な重み付けが適切な帰納的バイアスをもたらし,マインドリード能力を向上させることを実証的に示す。 疑わしい理解の間接的評価では、新しいToMモデルはより効率的な行動支援を可能にする。

Machine learning of Theory of Mind (ToM) is essential to build social agents that co-live with humans and other agents. This capacity, once acquired, will help machines infer the mental states of others from observed contextual action trajectories, enabling future prediction of goals, intention, actions and successor representations. The underlying mechanism for such a prediction remains unclear, however. Inspired by the observation that humans often infer the character traits of others, then use it to explain behaviour, we propose a new neural ToM architecture that learns to generate a latent trait vector of an actor from the past trajectories. This trait vector then multiplicatively modulates the prediction mechanism via a `fast weights' scheme in the prediction neural network, which reads the current context and predicts the behaviour. We empirically show that the fast weights provide a good inductive bias to model the character traits of agents and hence improves mindreading ability. On the indirect assessment of false-belief understanding, the new ToM model enables more efficient helping behaviours.
翻訳日:2022-04-21 13:27:27 公開日:2022-04-17
# 医用画像セグメンテーションのためのU-Netとその変種 : 簡単なレビュー

U-Net and its variants for Medical Image Segmentation : A short review ( http://arxiv.org/abs/2204.08470v1 )

ライセンス: Link先を確認
Vinay Ummadi(参考訳) 本論文は,U-Netとその変種を用いた医用画像分割の簡単なレビューである。 医学的な画像を見ることは、放射線医や病理医にとって簡単な仕事ではない。 医療画像の解析は、非侵襲的な診断を行う唯一の方法である。 関心領域の分割は、医療画像において重要な意味を持ち、診断の鍵となる。 この論文は、医用画像のセグメンテーションがいかに進化したかを示す鳥の眼図も提供する。 また、ディープニューラルネットワークアーキテクチャの挑戦と成功についても論じている。 異なるハイブリッドアーキテクチャは、視覚認識タスクの強力な技術に基づいて構築されている。 最終的に、医療画像セグメンテーション(MIS)の現在の課題と今後の方向性を見出す。

The paper is a short review of medical image segmentation using U-Net and its variants. As we understand going through a medical images is not an easy job for any clinician either radiologist or pathologist. Analysing medical images is the only way to perform non-invasive diagnosis. Segmenting out the regions of interest has significant importance in medical images and is key for diagnosis. This paper also gives a bird eye view of how medical image segmentation has evolved. Also discusses challenge's and success of the deep neural architectures. Following how different hybrid architectures have built upon strong techniques from visual recognition tasks. In the end we will see current challenges and future directions for medical image segmentation(MIS).
翻訳日:2022-04-20 13:29:47 公開日:2022-04-17
# (参考訳) ビデオアクション検出:限界と課題の分析

Video Action Detection: Analysing Limitations and Challenges ( http://arxiv.org/abs/2204.07892v1 )

ライセンス: CC BY 4.0
Rajat Modi, Aayush Jung Rana, Akash Kumar, Praveen Tirupattur, Shruti Vyas, Yogesh Singh Rawat, Mubarak Shah(参考訳) データ空腹マシン(例えば、トランスフォーマー)を供給できる十分なサイズを持つだけでなく、データセットの品質を計測する属性は何だろうか? そのような属性の定義が存在すると仮定すると、それらの相対的存在をどうやって定量化するのか? 本研究は,映像行動検出のための課題を探究するものである。 このタスクは、アクターを時空間でローカライズし、関連するアクションクラスを割り当てることを目的としている。 まず,映像アクション検出に関する既存のデータセットを分析し,その限界について考察する。 次に,これらの制約を克服し,より現実のアプリケーションに適したデータセットであるマルチアクタマルチアクション(mama)を提案する。 さらに,静的画像から映像を識別する重要な特性である時間的側面を解析するバイアスネススタディを実施している。 これにより、これらのデータセット内のアクションが本当にアクタの動作情報を必要とするのか、あるいは1つのフレームを見てもアクションの発生を予測するのかが分かる。 最後に, 時間的順序付けの重要性について, 時間的順序付けはこれらの行動を検出する上で重要であるか検討する。 このような極端な実験は、注意深いモデリングの欠如により既存の方法に忍び込んだバイアスの存在を示している。

Beyond possessing large enough size to feed data hungry machines (eg, transformers), what attributes measure the quality of a dataset? Assuming that the definitions of such attributes do exist, how do we quantify among their relative existences? Our work attempts to explore these questions for video action detection. The task aims to spatio-temporally localize an actor and assign a relevant action class. We first analyze the existing datasets on video action detection and discuss their limitations. Next, we propose a new dataset, Multi Actor Multi Action (MAMA) which overcomes these limitations and is more suitable for real world applications. In addition, we perform a biasness study which analyzes a key property differentiating videos from static images: the temporal aspect. This reveals if the actions in these datasets really need the motion information of an actor, or whether they predict the occurrence of an action even by looking at a single frame. Finally, we investigate the widely held assumptions on the importance of temporal ordering: is temporal ordering important for detecting these actions? Such extreme experiments show existence of biases which have managed to creep into existing methods inspite of careful modeling.
翻訳日:2022-04-20 04:51:34 公開日:2022-04-17
# (参考訳) サブスペーストラッカーの防御:ビジュアルトラッカーの直交埋め込み

In Defense of Subspace Tracker: Orthogonal Embedding for Visual Tracking ( http://arxiv.org/abs/2204.07927v1 )

ライセンス: CC BY 4.0
Yao Sui, Guanghui Wang, Li Zhang(参考訳) 従来の追跡モデルである部分空間学習(subspace learning)に焦点をあて、一連のフレームの目標が、その外観の類似性から低次元部分空間や多様体に存在すると考えられることに着目する。 近年、いくつかのサブスペーストラッカーが提案され、印象的な結果が得られた。 この研究は,近年の局所的対象とその周辺背景から学習した識別能力を持つサブスペースによって追跡性能が向上する,という最近の結果にインスパイアされ,これらのターゲットと背景サンプルを正確に識別するために,頑健な低次元部分空間を学習する方法という課題を解決しようとしている。 これにより、目標と周囲の背景とを確実に分離した判別アプローチを、共同学習によりサブスペース学習に注入し、優れた識別能力を有する次元適応サブスペースを実現する。 提案手法は,4つの一般的な追跡ベンチマークにおける最先端トラッカーと比較して,広範囲に評価されている。 実験により,提案したトラッカーは,そのトラッカーと競合する性能を示した。 特に、最先端のサブスペーストラッカと比較して、9%以上のパフォーマンス向上を達成している。

The paper focuses on a classical tracking model, subspace learning, grounded on the fact that the targets in successive frames are considered to reside in a low-dimensional subspace or manifold due to the similarity in their appearances. In recent years, a number of subspace trackers have been proposed and obtained impressive results. Inspired by the most recent results that the tracking performance is boosted by the subspace with discrimination capability learned over the recently localized targets and their immediately surrounding background, this work aims at solving such a problem: how to learn a robust low-dimensional subspace to accurately and discriminatively represent these target and background samples. To this end, a discriminative approach, which reliably separates the target from its surrounding background, is injected into the subspace learning by means of joint learning, achieving a dimension-adaptive subspace with superior discrimination capability. The proposed approach is extensively evaluated and compared with the state-of-the-art trackers on four popular tracking benchmarks. The experimental results demonstrate that the proposed tracker performs competitively against its counterparts. In particular, it achieves more than 9% performance increase compared with the state-of-the-art subspace trackers.
翻訳日:2022-04-20 04:38:19 公開日:2022-04-17
# (参考訳) 協調型マルチエージェント強化学習のロバスト性に関する総合的研究

Towards Comprehensive Testing on the Robustness of Cooperative Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2204.07932v1 )

ライセンス: CC BY 4.0
Jun Guo, Yonghong Chen, Yihang Hao, Zixin Yin, Yin Yu, Simin Li(参考訳) ディープニューラルネットワーク(DNN)は協調型マルチエージェント強化学習(c-MARL)の性能を高める一方で、エージェントポリシーは敵の例によって容易に妨害される。 交通管理,電力管理,無人航空機制御など,c-MARLの安全上の重要な応用を考えると,c-MARLアルゴリズムが実際に展開される前に頑健性をテストすることが重要である。 MARLの既存の敵攻撃はテストに使用できるが、1つの堅牢性(報酬、状態、行動など)に制限され、c-MARLモデルはあらゆる側面から攻撃できる。 この課題を克服するために,我々は,c-MARLアルゴリズムの最初の堅牢性テストフレームワークであるMARLSafeを提案する。 まず、Markov Decision Process (MDP)によって動機付けられたMARLSafeは、c-MARLアルゴリズムの堅牢性を3つの側面から包括的に検討している。 任意のc-MARLアルゴリズムは、これらの堅牢性を同時に満たさなければならない。 第2に、c-MARL攻撃の少ないため、複数の側面からの堅牢性試験アルゴリズムとしてc-MARL攻撃を提案する。 textit{SMAC}環境の実験により、多くの最先端のc-MARLアルゴリズムは全ての面において低ロバスト性であり、c-MARLアルゴリズムのロバスト性をテストする必要が緊急に必要であることを指摘した。

While deep neural networks (DNNs) have strengthened the performance of cooperative multi-agent reinforcement learning (c-MARL), the agent policy can be easily perturbed by adversarial examples. Considering the safety critical applications of c-MARL, such as traffic management, power management and unmanned aerial vehicle control, it is crucial to test the robustness of c-MARL algorithm before it was deployed in reality. Existing adversarial attacks for MARL could be used for testing, but is limited to one robustness aspects (e.g., reward, state, action), while c-MARL model could be attacked from any aspect. To overcome the challenge, we propose MARLSafe, the first robustness testing framework for c-MARL algorithms. First, motivated by Markov Decision Process (MDP), MARLSafe consider the robustness of c-MARL algorithms comprehensively from three aspects, namely state robustness, action robustness and reward robustness. Any c-MARL algorithm must simultaneously satisfy these robustness aspects to be considered secure. Second, due to the scarceness of c-MARL attack, we propose c-MARL attacks as robustness testing algorithms from multiple aspects. Experiments on \textit{SMAC} environment reveals that many state-of-the-art c-MARL algorithms are of low robustness in all aspect, pointing out the urgent need to test and enhance robustness of c-MARL algorithms.
翻訳日:2022-04-20 04:16:06 公開日:2022-04-17
# (参考訳) Retrieval Augmentationによる教師なしクロスタスク一般化

Unsupervised Cross-Task Generalization via Retrieval Augmentation ( http://arxiv.org/abs/2204.07937v1 )

ライセンス: CC BY 4.0
Bill Yuchen Lin, Kangmin Tan, Chris Miller, Beiwen Tian, Xiang Ren(参考訳) 人間は、以前に獲得した関連スキルをリコールして、たとえ監督がなくても、対象タスクに一般化することで、目に見えないタスクを実行することができる。 本稿では,t0 (sanh et al., 2021) のような大規模マルチタスク言語モデルの教師なし設定によるクロスタスク一般化能力の向上を目指す。 本稿では,ReCross という名前の検索拡張手法を提案する。これを用いて,上流データの小さなサブセットを検索し,マルチタスクモデルを更新し,より一般化する。 実験結果から,提案したReCrossは非検索ベースラインを著しく上回っていることがわかった。

Humans can perform unseen tasks by recalling relevant skills that are acquired previously and then generalizing them to the target tasks, even if there is no supervision at all. In this paper, we aim to improve such cross-task generalization ability of massive multi-task language models such as T0 (Sanh et al., 2021) in an unsupervised setting. We propose a retrieval-augmentation method named ReCross that takes a few unlabelled examples as queries to retrieve a small subset of upstream data and uses them to update the multi-task model for better generalization. Our empirical results show that the proposed ReCross consistently outperforms non-retrieval baselines by a significant margin.
翻訳日:2022-04-20 04:14:53 公開日:2022-04-17
# (参考訳) 例から一般化し、夢で最適化するリカレントニューラルネットワーク

Recurrent neural networks that generalize from examples and optimize by dreaming ( http://arxiv.org/abs/2204.07954v1 )

ライセンス: CC BY 4.0
Miriam Aquaro, Francesco Alemanno, Ido Kanter, Fabrizio Durante, Elena Agliari, Adriano Barra(参考訳) 人工ニューラルネットワークのトレーニングに必要な膨大なデータと、その生物学的データに必要な比較的少ないデータとの間のギャップは、機械学習の中心的なパズルである。 ここでは,生物情報処理に触発されて,ヘブのオンライン学習処方に従ってニューロン間のペアワイズ結合を構築し,オフライン睡眠機構(適度にスタイリッシュな)を実現する,一般化されたホップフィールドネットワークを提案する。 さらに、学習フレームワークを維持するために、ここではパターンは利用できないと仮定し、代わりに、各パターンに対するノイズの多いサンプルのサンプルからなるデータセットのみをネットワーク体験に委ねる。 我々は,統計力学ツールを用いてモデルを解析し,制御パラメータの機能としてその能力の定量的な図式を得た。 驚くべきことに、スリープ機構は常に、正しい一般化に必要なデータセットサイズを著しく削減し(約90\%$)、さらに、(提供された例のサイズや品質に関わらず)ヘビーネットワークに制限されるメモリ負荷があるが、現在の"rested"ニューラルネットワークでは容易に処理できる。

The gap between the huge volumes of data needed to train artificial neural networks and the relatively small amount of data needed by their biological counterparts is a central puzzle in machine learning. Here, inspired by biological information-processing, we introduce a generalized Hopfield network where pairwise couplings between neurons are built according to Hebb's prescription for on-line learning and allow also for (suitably stylized) off-line sleeping mechanisms. Moreover, in order to retain a learning framework, here the patterns are not assumed to be available, instead, we let the network experience solely a dataset made of a sample of noisy examples for each pattern. We analyze the model by statistical-mechanics tools and we obtain a quantitative picture of its capabilities as functions of its control parameters: the resulting network is an associative memory for pattern recognition that learns from examples on-line, generalizes and optimizes its storage capacity by off-line sleeping. Remarkably, the sleeping mechanisms always significantly reduce (up to $\approx 90\%$) the dataset size required to correctly generalize, further, there are memory loads that are prohibitive to Hebbian networks without sleeping (no matter the size and quality of the provided examples), but that are easily handled by the present "rested" neural networks.
翻訳日:2022-04-20 04:01:29 公開日:2022-04-17
# (参考訳) 継続事前学習における知識の効果的な学習について

On Effectively Learning of Knowledge in Continual Pre-training ( http://arxiv.org/abs/2204.07994v1 )

ライセンス: CC BY 4.0
Cunxiang Wang, Fuli Luo, Yanyang Li, Runxin Xu, Fei Huang and Yue Zhang(参考訳) BERTのような事前訓練された言語モデル(PLM)は、様々な下流のNLPタスクで大きく進歩している。 しかしながら、モデルにクローゼスタイルのテストを求めることで、最近の研究では、PLMは構造化されていないテキストから知識を得るのに不足していることがわかった。 知識検索におけるplmの内部挙動を理解するために,まず,構造化されていないテキストに対する知識バーリング(k-b)トークンと知識フリー(k-f)トークンを定義し,専門家にサンプルのラベル付けを依頼する。 そして, PLM は K-B トークンに対して誤った予測をし, 自己保持モジュール内のトークンへの注意を少なくする傾向にある。 これらの観測に基づいて、モデルが構造化されていないテキストからより知識を学習するのに役立つ2つのソリューションを開発する。 知識集約型タスク実験は,提案手法の有効性を示す。 最高の知識を得るためには、私たちは継続的事前学習において知識の完全な自己監督学習を探求する最初の人です。

Pre-trained language models (PLMs) like BERT have made significant progress in various downstream NLP tasks. However, by asking models to do cloze-style tests, recent work finds that PLMs are short in acquiring knowledge from unstructured text. To understand the internal behaviour of PLMs in retrieving knowledge, we first define knowledge-baring (K-B) tokens and knowledge-free (K-F) tokens for unstructured text and ask professional annotators to label some samples manually. Then, we find that PLMs are more likely to give wrong predictions on K-B tokens and attend less attention to those tokens inside the self-attention module. Based on these observations, we develop two solutions to help the model learn more knowledge from unstructured text in a fully self-supervised manner. Experiments on knowledge-intensive tasks show the effectiveness of the proposed methods. To our best knowledge, we are the first to explore fully self-supervised learning of knowledge in continual pre-training.
翻訳日:2022-04-20 03:22:07 公開日:2022-04-17
# (参考訳) 立体構造解析としてのNested Named Entity Recognition

Nested Named Entity Recognition as Holistic Structure Parsing ( http://arxiv.org/abs/2204.08006v1 )

ライセンス: CC BY 4.0
Yifei Yang, Zuchao Li, Hai Zhao(参考訳) 基本自然言語処理タスクとコア知識抽出技術の1つとして、エンティティ認識(NER)が下流タスクのためのテキストから情報を抽出するために広く利用されている。 Nested NERは、ネストされたエンティティ(NE)がネストされるNERのブランチである。 しかしながら、ネストされたNERに関する以前の研究の多くは、通常、階層構造で実際に許容されるネストされたNEをモデル化するために線形構造を適用している。 そこで本研究では,このミスマッチに対処するため,文中の全ネストNEを全体構造としてモデル化し,全体構造解析アルゴリズムを提案する。 また、現在、nerにコーパスレベルの情報を適用する研究はない。 文レベルからコーパスレベルまでの包括的モデリングによりさらに優れた性能を実現するため,コーパス認識統計からポイントワイズ相互情報(pmi)やその他の周波数特徴を導入する。 実験により,我々のモデルが,最先端にアプローチしたり,達成したりする,広く使用されているベンチマークに有望な結果をもたらすことが示された。 さらに実験により,提案するコーパス認識機能はner領域適応を著しく改善できることが示され,提案するコーパスレベルの全体構造モデリングの驚くべき利点を示す。

As a fundamental natural language processing task and one of core knowledge extraction techniques, named entity recognition (NER) is widely used to extract information from texts for downstream tasks. Nested NER is a branch of NER in which the named entities (NEs) are nested with each other. However, most of the previous studies on nested NER usually apply linear structure to model the nested NEs which are actually accommodated in a hierarchical structure. Thus in order to address this mismatch, this work models the full nested NEs in a sentence as a holistic structure, then we propose a holistic structure parsing algorithm to disclose the entire NEs once for all. Besides, there is no research on applying corpus-level information to NER currently. To make up for the loss of this information, we introduce Point-wise Mutual Information (PMI) and other frequency features from corpus-aware statistics for even better performance by holistic modeling from sentence-level to corpus-level. Experiments show that our model yields promising results on widely-used benchmarks which approach or even achieve state-of-the-art. Further empirical studies show that our proposed corpus-aware features can substantially improve NER domain adaptation, which demonstrates the surprising advantage of our proposed corpus-level holistic structure modeling.
翻訳日:2022-04-20 03:07:52 公開日:2022-04-17
# (参考訳) wikiomnia: generative qa corpus on the whole russian wikipedia (英語)

WikiOmnia: generative QA corpus on the whole Russian Wikipedia ( http://arxiv.org/abs/2204.08009v1 )

ライセンス: CC BY 4.0
Dina Pisarevskaya, Tatiana Shavrina(参考訳) 一般QA分野は、スタンフォード質問応答データセット(SQuAD)を重要なベンチマークとして参照する方法論を開発している。 しかし、実際の質問のコンパイルには時間と労力のかかるアノテーションが伴い、トレーニングデータの潜在的なサイズが制限される。 WikiOmniaデータセットは、新しい公開QAペアとそれに対応するロシアのウィキペディア記事要約セクションであり、完全に自動化された生成パイプラインで構成されている。 データセットには、ロシア語に関するウィキペディアの記事がすべて含まれている。 WikiOmniaパイプラインはオープンソースであり、ニューステキスト、フィクション、ソーシャルメディアなど他のドメインでSQuAD形式のQAを作成するためにテストされている。 結果として得られたデータセットには、ロシアのウィキペディア全体の生データ(7,930,873 QA対、ruGPT-3 XL段落7,991,040 QA対、ruT5-large段落7,991,040 QA対)と、厳密な自動検証(ruGPT-3 XL段落16000 QA対、ruT5-large段落3,400,000 QA対)が含まれる。

The General QA field has been developing the methodology referencing the Stanford Question answering dataset (SQuAD) as the significant benchmark. However, compiling factual questions is accompanied by time- and labour-consuming annotation, limiting the training data's potential size. We present the WikiOmnia dataset, a new publicly available set of QA-pairs and corresponding Russian Wikipedia article summary sections, composed with a fully automated generative pipeline. The dataset includes every available article from Wikipedia for the Russian language. The WikiOmnia pipeline is available open-source and is also tested for creating SQuAD-formatted QA on other domains, like news texts, fiction, and social media. The resulting dataset includes two parts: raw data on the whole Russian Wikipedia (7,930,873 QA pairs with paragraphs for ruGPT-3 XL and 7,991,040 QA pairs with paragraphs for ruT5-large) and cleaned data with strict automatic verification (over 160,000 QA pairs with paragraphs for ruGPT-3 XL and over 3,400,000 QA pairs with paragraphs for ruT5-large).
翻訳日:2022-04-20 02:54:19 公開日:2022-04-17
# (参考訳) 注意メカニズムに基づく認知レベルシーン理解

Attention Mechanism based Cognition-level Scene Understanding ( http://arxiv.org/abs/2204.08027v1 )

ライセンス: CC0 1.0
Xuejiao Tang, Tai Le Quy, Eirini Ntoutsi, Kea Turner, Vasile Palade, Israat Haque, Peng Xu, Chris Brown and Wenbin Zhang(参考訳) 質問画像入力が与えられると、visual commonsense reasoning (vcr) モデルは、実世界からの推論能力を必要とする対応する合理性で答えを予測できる。 VCRタスクは、マルチソース情報を活用し、異なるレベルの理解と広範な常識知識を学ぶことを要求するもので、認知レベルのシーン理解タスクである。 VCRタスクは、視覚的質問応答、自動車両システム、臨床決定支援など幅広い応用のために、研究者の関心を喚起している。 VCRタスクを解くための従来のアプローチは、一般的に、長い依存性関係の符号化されたモデルによるメモリの事前トレーニングや利用に頼っている。 しかし、これらのアプローチは一般化可能性の欠如と長いシーケンスで情報を失うことに苦しむ。 本稿では,視覚とテキストの情報を効率的に融合し,意味情報を並列にエンコードし,モデルが認知レベルの推論のためにリッチな情報をキャプチャできるようにする並列注意型認知vcrネットワークpavcrを提案する。 広範な実験により、提案モデルがベンチマークvcrデータセットの既存の方法を大幅に改善できることが示されている。 さらに,提案モデルは視覚的コモンセンス推論の直感的な解釈を提供する。

Given a question-image input, the Visual Commonsense Reasoning (VCR) model can predict an answer with the corresponding rationale, which requires inference ability from the real world. The VCR task, which calls for exploiting the multi-source information as well as learning different levels of understanding and extensive commonsense knowledge, is a cognition-level scene understanding task. The VCR task has aroused researchers' interest due to its wide range of applications, including visual question answering, automated vehicle systems, and clinical decision support. Previous approaches to solving the VCR task generally rely on pre-training or exploiting memory with long dependency relationship encoded models. However, these approaches suffer from a lack of generalizability and losing information in long sequences. In this paper, we propose a parallel attention-based cognitive VCR network PAVCR, which fuses visual-textual information efficiently and encodes semantic information in parallel to enable the model to capture rich information for cognition-level inference. Extensive experiments show that the proposed model yields significant improvements over existing methods on the benchmark VCR dataset. Moreover, the proposed model provides intuitive interpretation into visual commonsense reasoning.
翻訳日:2022-04-20 02:37:54 公開日:2022-04-17
# (参考訳) SSVEP認識のための適応的タスク関連成分分析法

An Adaptive Task-Related Component Analysis Method for SSVEP recognition ( http://arxiv.org/abs/2204.08030v1 )

ライセンス: CC BY 4.0
Vangelis P. Oikonomou(参考訳) 立体状態視覚誘発電位(SSVEP)認識法は、被験者の校正データから学習し、SSVEPベースの脳-コンピュータインタフェース(BCI)において余分な高性能を実現することができるが、校正試験が不十分な場合、その性能は劇的に低下する。 本研究では,限られたキャリブレーションデータから学習する新しい手法を開発し,SSVEP検出のための適応型データ駆動空間フィルタリング手法を提案し,評価する。 各刺激から得られた空間フィルタは、対応する脳波検査の時間情報を利用する。 時系列情報を総合的な手順に導入するために,ベイズフレームワークに基づくマルチタスク学習手法が採用されている。 提案手法の性能を2つの公開ベンチマークデータセットに評価し,提案手法が競合する手法よりも有意差があることを実証した。

Steady-state visual evoked potential (SSVEP) recognition methods are equipped with learning from the subject's calibration data, and they can achieve extra high performance in the SSVEP-based brain-computer interfaces (BCIs), however their performance deteriorate drastically if the calibration trials are insufficient. This study develops a new method to learn from limited calibration data and it proposes and evaluates a novel adaptive data-driven spatial filtering approach for enhancing SSVEPs detection. The spatial filter learned from each stimulus utilizes temporal information from the corresponding EEG trials. To introduce the temporal information into the overall procedure, an multitask learning approach, based on the bayesian framework, is adopted. The performance of the proposed method was evaluated into two publicly available benchmark datasets, and the results demonstrated that our method outperform competing methods by a significant margin.
翻訳日:2022-04-20 02:17:49 公開日:2022-04-17
# (参考訳) IoTデバイスにおけるフェデレーション学習コストの格差

Federated Learning Cost Disparity for IoT Devices ( http://arxiv.org/abs/2204.08036v1 )

ライセンス: CC0 1.0
Sheeraz A. Alvi, Yi Hong, Salman Durrani(参考訳) フェデレーション学習(FL)は、エネルギー、時間、プライバシの観点からデータ収集コストを回避することにより、モノのインターネット(IoT)デバイスにおける予測モデルトレーニングを促進する。 iotデバイスが達成した学習成果を,そのユーティリティとして参加コストに対してモデル化する。 デバイスの不均一性のため、局所的なモデル学習コストとその品質は、時間的に異なるが、デバイスごとに異なる。 同一のグローバルモデルがデバイス間で共有されているため,この変動が実用上の不公平をもたらすことを示す。 デフォルトでは、マスターはデバイスのローカルモデル計算と送信コストに気付かないため、実用上の不公平な問題に対処できない。 また、このマスターの知識の欠如を利用して、その支出を意図的に減らし、実用性を高めることができる。 我々は,各ラウンドにおいて,その貢献と支出に基づいて,デバイスと共有するグローバルモデルの品質を制御することを提案する。 これは、差分プライバシを使用して、学習貢献に基づいてグローバルモデルダイオージェンスを縮小することで達成される。 さらに,有効性の不公平性を軽減するため,各デバイスに対して適応計算と伝送ポリシーを考案した。 提案手法は,機器のトレーニング損失の標準偏差が約0.103であるのに対して,ベンチマーク方式と比較して,機器のエネルギーコストの標準偏差を99%削減することを示す。

Federated learning (FL) promotes predictive model training at the Internet of things (IoT) devices by evading data collection cost in terms of energy, time, and privacy. We model the learning gain achieved by an IoT device against its participation cost as its utility. Due to the device-heterogeneity, the local model learning cost and its quality, which can be time-varying, differs from device to device. We show that this variation results in utility unfairness because the same global model is shared among the devices. By default, the master is unaware of the local model computation and transmission costs of the devices, thus it is unable to address the utility unfairness problem. Also, a device may exploit this lack of knowledge at the master to intentionally reduce its expenditure and thereby enhance its utility. We propose to control the quality of the global model shared with the devices, in each round, based on their contribution and expenditure. This is achieved by employing differential privacy to curtail global model divulgence based on the learning contribution. In addition, we devise adaptive computation and transmission policies for each device to control its expenditure in order to mitigate utility unfairness. Our results show that the proposed scheme reduces the standard deviation of the energy cost of devices by 99% in comparison to the benchmark scheme, while the standard deviation of the training loss of devices varies around 0.103.
翻訳日:2022-04-20 02:01:57 公開日:2022-04-17
# (参考訳) 変圧器を用いた連続海馬セグメンテーション

Continual Hippocampus Segmentation with Transformers ( http://arxiv.org/abs/2204.08043v1 )

ライセンス: CC BY 4.0
Amin Ranem, Camila Gonz\'alez, Anirban Mukhopadhyay(参考訳) 取得条件と患者人口が経時的に変化する臨床環境では、深層ニューラルネットワークの安全な使用を保証するための継続的な学習が鍵となる。 しかし、既存の作品の多くは畳み込みアーキテクチャと画像分類に焦点を当てている。 その代わり、放射線科医は特定の関心領域を概説するセグメンテーションモデルに取り組み、トランスフォーマーベースのアーキテクチャが注目を集めている。 トランスフォーマーの自己保持メカニズムは、破滅的な忘れを軽減し、より堅牢な医療画像セグメンテーションへの道を開く可能性がある。 本研究では,最近提案されている意味セグメンテーション用トランスフォーマー機構が逐次学習シナリオにおいてどのように振る舞うかを検討し,この設定に連続学習戦略を適応させる最善の方法を分析する。 海馬セグメンテーションの評価では,トランスフォーマー機構は,純粋に畳み込み型アーキテクチャに比べて,医療画像セグメンテーションにおける破滅的忘れを軽減し,ViTモジュールの正規化には注意が必要であることが示された。

In clinical settings, where acquisition conditions and patient populations change over time, continual learning is key for ensuring the safe use of deep neural networks. Yet most existing work focuses on convolutional architectures and image classification. Instead, radiologists prefer to work with segmentation models that outline specific regions-of-interest, for which Transformer-based architectures are gaining traction. The self-attention mechanism of Transformers could potentially mitigate catastrophic forgetting, opening the way for more robust medical image segmentation. In this work, we explore how recently-proposed Transformer mechanisms for semantic segmentation behave in sequential learning scenarios, and analyse how best to adapt continual learning strategies for this setting. Our evaluation on hippocampus segmentation shows that Transformer mechanisms mitigate catastrophic forgetting for medical image segmentation compared to purely convolutional architectures, and demonstrates that regularising ViT modules should be done with caution.
翻訳日:2022-04-20 01:49:46 公開日:2022-04-17
# (参考訳) oso:低資源アフリカ言語における対話の自然言語生成における言語間変換可能性の活用

\`It\`ak\'ur\`oso: Exploiting Cross-Lingual Transferability for Natural Language Generation of Dialogues in Low-Resource, African Languages ( http://arxiv.org/abs/2204.08083v1 )

ライセンス: CC BY 4.0
Tosin Adewumi, Mofetoluwa Adeyemi, Aremu Anuoluwapo, Bukola Peters, Happy Buzaaba, Oyerinde Samuel, Amina Mardiyyah Rufai, Benjamin Ajibade, Tajudeen Gwadabe, Mory Moussou Koulibaly Traore, Tunde Ajayi, Shamsuddeen Muhammad, Ahmed Baruwa, Paul Owoicho, Tolulope Ogunremi, Phylis Ngigi, Orevaoghene Ahia, Ruqayya Nasir, Foteini Liwicki and Marcus Liwicki(参考訳) 本研究では,最先端(SoTA)深層単言語モデル(DialoGPT)からアフリカ6言語への言語間移動の可能性について検討し,BlenderBot 90M,別のSoTA,単純なSeq2Seqと比較した。 言語はスワヒリ語、ウォロフ語、ハウサ語、ナイジェリア語、ピジン語、キニアルワンダ語、ヨルブワ語である。 対話の生成は多くの理由から難しい課題であることが知られている。 データの観点からは、低リソースのアフリカの言語では、より困難になる。 したがって、ターゲット言語毎に、英語のマルチドメインMultiWOZデータセットのごく一部を翻訳する。 本研究は,本質的な評価(パープレキシティ)に加えて,多数決とアノテータ間合意(IAA)を用いて,単回会話の人間による評価を行う。 その結果、深い単言語モデルが言語をまたがる抽象概念を学ぶという仮説が示された。 6言語中5言語で人間のような会話を観察する。 しかし、それは期待されている異なる言語で異なる程度に適用される。 最も移動可能な言語はナイジェリアのピジン英語であり、人間に似たスコアは78.1%であり、そのうち34.4%が全会一致である。 本研究の主な貢献は、アフリカ諸語の表現(高品質な対話データ提供)と対話システムにおける言語間移動可能性仮説の実証である。 また、公開アクセスのためにhughingface hubでデータセットを提供し、モデルチェックポイント/デモをホストします。

We investigate the possibility of cross-lingual transfer from a state-of-the-art (SoTA) deep monolingual model (DialoGPT) to 6 African languages and compare with 2 baselines (BlenderBot 90M, another SoTA, and a simple Seq2Seq). The languages are Swahili, Wolof, Hausa, Nigerian Pidgin English, Kinyarwanda & Yor\`ub\'a. Generation of dialogues is known to be a challenging task for many reasons. It becomes more challenging for African languages which are low-resource in terms of data. Therefore, we translate a small portion of the English multi-domain MultiWOZ dataset for each target language. Besides intrinsic evaluation (i.e. perplexity), we conduct human evaluation of single-turn conversations by using majority votes and measure inter-annotator agreement (IAA). The results show that the hypothesis that deep monolingual models learn some abstractions that generalise across languages holds. We observe human-like conversations in 5 out of the 6 languages. It, however, applies to different degrees in different languages, which is expected. The language with the most transferable properties is the Nigerian Pidgin English, with a human-likeness score of 78.1%, of which 34.4% are unanimous. The main contributions of this paper include the representation (through the provision of high-quality dialogue data) of under-represented African languages and demonstrating the cross-lingual transferability hypothesis for dialogue systems. We also provide the datasets and host the model checkpoints/demos on the HuggingFace hub for public access.
翻訳日:2022-04-20 01:48:47 公開日:2022-04-17
# (参考訳) CPFair:パーソナライズされた消費者と生産者フェアネスがリコメンダーシステムに再ランク

CPFair: Personalized Consumer and Producer Fairness Re-ranking for Recommender Systems ( http://arxiv.org/abs/2204.08085v1 )

ライセンス: CC BY 4.0
Mohammadmehdi Naghiaei, Hossein A. Rahmani, Yashar Deldjoo(参考訳) 近年、機械学習(ML)アルゴリズムが選択を自動化する際には、法的、倫理的、経済的な影響で個人を不公平に扱う/影響する可能性があるという認識が高まっている。 推薦システムは、ユーザーが高い判断を下すのを助けるようなMLシステムの顕著な例である。 前回のレコメンダシステムにおけるフェアネスに関する文献研究で一般的な傾向は、多くの作品がユーザーとアイテムのフェアネスを別々に扱い、レコメンダシステムが双方向のマーケットプレースで動作するという事実を無視していることである。 本研究では,消費者と生産者双方の公正性制約をシームレスに統合する,最適化に基づく再ランク付け手法を提案する。 提案手法は, 消費者と生産者の公正性を両立させることができ, 全体的な推奨品質を低下させることなく, データのバイアスを最小限に抑えることができることを示す。

Recently, there has been a rising awareness that when machine learning (ML) algorithms are used to automate choices, they may treat/affect individuals unfairly, with legal, ethical, or economic consequences. Recommender systems are prominent examples of such ML systems that assist users in making high-stakes judgments. A common trend in the previous literature research on fairness in recommender systems is that the majority of works treat user and item fairness concerns separately, ignoring the fact that recommender systems operate in a two-sided marketplace. In this work, we present an optimization-based re-ranking approach that seamlessly integrates fairness constraints from both the consumer and producer-side in a joint objective framework. We demonstrate through large-scale experiments on 8 datasets that our proposed method is capable of improving both consumer and producer fairness without reducing overall recommendation quality, demonstrating the role algorithms may play in minimizing data biases.
翻訳日:2022-04-20 01:30:50 公開日:2022-04-17
# (参考訳) 深層学習に基づくギター表層転写システムにおける実現可能性とペアワイズ可能性を考慮したデータ駆動手法

A Data-Driven Methodology for Considering Feasibility and Pairwise Likelihood in Deep Learning Based Guitar Tablature Transcription Systems ( http://arxiv.org/abs/2204.08094v1 )

ライセンス: CC BY 4.0
Frank Cwitkowitz, Jonathan Driedger, Zhiyao Duan(参考訳) ギターの表層転写は音楽情報検索の分野において重要な問題であるが未検討の課題である。 従来の信号処理アプローチでは、タスクのパフォーマンスは限定的であり、機械学習モデルをトレーニングするための書き起こしラベルを持つ音響データはほとんどない。 しかし、ギターの書き起こしラベルだけでは、オンラインのギタリストの間で共有されるタブーという形でより広く利用することができる。 この研究では、シンボリック・タブラチュアのコレクションを利用して、ギターの音符のペアの確率を推定する。 ベースラインタブラチュール転写モデルの出力層を再構成し、ありそうにない音対の共活性化を阻害するために抑制損失を組み込むことができる。 これは自然にギターの演奏性制約を強制し、ペアの確率を推定するために使用されるシンボリックデータとより整合したタブラを与える。 本手法では, 音響データが少ない場合でも, 記号的表計算を用いて, 表計算モデルの予測の分布を形作ることができることを示す。

Guitar tablature transcription is an important but understudied problem within the field of music information retrieval. Traditional signal processing approaches offer only limited performance on the task, and there is little acoustic data with transcription labels for training machine learning models. However, guitar transcription labels alone are more widely available in the form of tablature, which is commonly shared among guitarists online. In this work, a collection of symbolic tablature is leveraged to estimate the pairwise likelihood of notes on the guitar. The output layer of a baseline tablature transcription model is reformulated, such that an inhibition loss can be incorporated to discourage the co-activation of unlikely note pairs. This naturally enforces playability constraints for guitar, and yields tablature which is more consistent with the symbolic data used to estimate pairwise likelihoods. With this methodology, we show that symbolic tablature can be used to shape the distribution of a tablature transcription model's predictions, even when little acoustic data is available.
翻訳日:2022-04-20 01:12:18 公開日:2022-04-17
# (参考訳) ドライバの様々な視線領域と気晴らし行動を分析するデータセット

Dataset for Analyzing Various Gaze Zones and Distracted Behaviors of a Driver ( http://arxiv.org/abs/2204.08096v1 )

ライセンス: CC BY 4.0
Mohammed Shaiqur Rahman, Archana Venkatachalapathy, Anuj Sharma, Jiyang Wang, Senem Velipasalar Gursoy, David Anastasiu, Shuo Wang(参考訳) 本稿では,運転者の気を散らす行動や視線ゾーンを検出・解析する機械学習モデルのための合成データセットを提案する。 3台の車載カメラをダッシュボード、リアビューミラー付近、右上ウィンドウコーナーの3箇所に配置し、静止車内でデータを収集した。 データセットは2つのアクティビティタイプを含む: 中断されたアクティビティと、各参加者の視線ゾーンと、各アクティビティタイプは、外観ブロックなしで、帽子やサングラスをかけたような外観ブロックを備えた2つのセットを持つ。 各参加者に対する各アクティビティの順序と持続時間はランダムである。 さらにデータセットには、各アクティビティに対する手動アノテーションが含まれており、開始時と終了時をアノテートしている。 研究者はこのデータセットを使って、ドライバーの様々な注意をそらすアクティビティと視線ゾーンを分類するための機械学習アルゴリズムのパフォーマンスを評価することができた。

This article presents a synthetic dataset for machine learning models to detect and analyze drivers' various distracted behavior and different gaze zones. We collected the data in a stationary vehicle using three in-vehicle cameras positioned at locations: on the dashboard, near the rearview mirror, and on the top right-side window corner. The dataset contains two activity types: distracted activities, and gaze zones for each participant and each activity type has two sets: without appearance blocks and with appearance blocks such as wearing a hat or sunglasses. The order and duration of each activity for each participant are random. In addition, the dataset contains manual annotations for each activity, having its start and end time annotated. Researchers could use this dataset to evaluate the performance of machine learning algorithms for the classification of various distracting activities and gaze zones of drivers.
翻訳日:2022-04-20 00:59:19 公開日:2022-04-17
# (参考訳) 自然言語におけるストレス解釈のためのモンテカルロ木探索

Monte Carlo Tree Search for Interpreting Stress in Natural Language ( http://arxiv.org/abs/2204.08105v1 )

ライセンス: CC BY 4.0
Kyle Swanson, Joy Hsu, Mirac Suzgun(参考訳) 自然言語処理は、書いたテキストから人の精神状態の分析を容易にする。 従来の研究では、ソーシャルメディア投稿からメンタルヘルス状態を高い精度で予測できるモデルが開発されている。 しかし、これらのモデルでは、人が特定の精神状態を経験している理由を説明できない。 本研究では,モンテカルロ木探索(mcts)を用いて,テキストから人の精神状態を説明する新しい方法を提案する。 mctsアルゴリズムは、訓練された分類モデルを用いて、著者の精神状態を説明する重要なフレーズを簡潔で解釈可能な方法で探索する。 さらに、本アルゴリズムは、テキストの特定のコンテキストに依存する説明(例えば、最近のブレークアップ)と文脈に依存しない説明の両方を見つけることができる。 ストレスを示すReddit投稿のデータセットを用いて、MCTSアルゴリズムが、文脈依存と文脈非依存の両方で、人のストレス感に対する解釈可能な説明を識別する能力を示す。

Natural language processing can facilitate the analysis of a person's mental state from text they have written. Previous studies have developed models that can predict whether a person is experiencing a mental health condition from social media posts with high accuracy. Yet, these models cannot explain why the person is experiencing a particular mental state. In this work, we present a new method for explaining a person's mental state from text using Monte Carlo tree search (MCTS). Our MCTS algorithm employs trained classification models to guide the search for key phrases that explain the writer's mental state in a concise, interpretable manner. Furthermore, our algorithm can find both explanations that depend on the particular context of the text (e.g., a recent breakup) and those that are context-independent. Using a dataset of Reddit posts that exhibit stress, we demonstrate the ability of our MCTS algorithm to identify interpretable explanations for a person's feeling of stress in both a context-dependent and context-independent manner.
翻訳日:2022-04-20 00:55:09 公開日:2022-04-17
# (参考訳) ArcaneQA:知識ベース質問応答のための動的プログラム誘導と文脈符号化

ArcaneQA: Dynamic Program Induction and Contextualized Encoding for Knowledge Base Question Answering ( http://arxiv.org/abs/2204.08109v1 )

ライセンス: CC BY 4.0
Yu Gu and Yu Su(参考訳) 知識ベースに対する質問応答 (KBQA) は、大きな検索空間とスキーマリンクの曖昧さの2つの要因により、意味解析研究にユニークな課題をもたらす。 ランキングベースのKBQAモデルは、検索スペースを減らし、柔軟性に苦慮し、オンラインランニングタイムを非現実的に持つために、候補列挙ステップに依存している。 本稿では,大規模な検索空間とスキーマリンクを相互に促進する2つの要素により統一されたフレームワークで扱う,新たな世代ベースモデルであるarcaneqaを提案する。 複数のKBQAデータセットの実験結果は、ArcaneQAの有効性と効率の両面で高い競争性能を示す。

Question answering on knowledge bases (KBQA) poses a unique challenge for semantic parsing research due to two intertwined factors: large search space and ambiguities in schema linking. The predominant ranking-based KBQA models, which rely on a candidate enumeration step to reduce the search space, struggle with flexibility and have impractical online running time. In this paper, we present ArcaneQA, a novel generation-based model that addresses both the large search space and schema linking in a unified framework with two mutually boosting ingredients: we use dynamic program induction to tackle the large search space and dynamic contextualized encoding to enhance schema linking. Experiment results on multiple popular KBQA datasets demonstrate the highly competitive performance of ArcaneQA in both effectiveness and efficiency.
翻訳日:2022-04-20 00:41:39 公開日:2022-04-17
# (参考訳) 英語事前学習モデルの言語横断能力を説明する言語汚染

Language Contamination Explains the Cross-lingual Capabilities of English Pretrained Models ( http://arxiv.org/abs/2204.08110v1 )

ライセンス: CC BY 4.0
Terra Blevins and Luke Zettlemoyer(参考訳) 多くの現代のNLPシステムのバックボーンを構成する英語事前学習言語モデルは、膨大な量の未ラベルのトレーニングデータを必要とする。 これらのモデルは通常、英語のテキストでしか訓練されていないが、他の言語に驚くほどよく移行していることが判明している。 1%未満のデータが英語ではない場合でも(強力な言語分類器のエラー率内でも)、大規模なデータセットで数十億の外国語トークンに繋がる。 そして、これらの少数の非英語データでさえ、事前学習中に見られる言語内データの量とターゲット言語のパフォーマンスが強く相関していることを示します。 これらの結果を踏まえて, 言語間伝達を評価する際に考慮すべき, 大規模に訓練された場合, 真に単言語であるモデルは存在しない, と主張する。

English pretrained language models, which make up the backbone of many modern NLP systems, require huge amounts of unlabeled training data. These models are generally presented as being trained only on English text but have been found to transfer surprisingly well to other languages. We investigate this phenomenon and find that common English pretraining corpora actually contain significant amounts of non-English text: even when less than 1% of data is not English (well within the error rate of strong language classifiers), this leads to hundreds of millions of foreign language tokens in large-scale datasets. We then demonstrate that even these small percentages of non-English data facilitate cross-lingual transfer for models trained on them, with target language performance strongly correlated to the amount of in-language data seen during pretraining. In light of these findings, we argue that no model is truly monolingual when pretrained at scale, which should be considered when evaluating cross-lingual transfer.
翻訳日:2022-04-20 00:22:47 公開日:2022-04-17
# 共変量シフトと欠落保護属性に基づく公正分類 -関連特徴を用いた検討-

Fair Classification under Covariate Shift and Missing Protected Attribute -- an Investigation using Related Features ( http://arxiv.org/abs/2204.07987v1 )

ライセンス: Link先を確認
Manan Singh(参考訳) 本研究は,共変量シフトと保護属性の欠如に対する公平な分類の問題を,共変量シフトを扱うための重要度重みの使用と,保護属性の欠如を扱うためのarxiv:2104.14537に関連する特徴に基づく単純なアプローチを用いて検討した。

This study investigated the problem of fair classification under Covariate Shift and missing protected attribute using a simple approach based on the use of importance-weights to handle covariate-shift and, Related Features arXiv:2104.14537 to handle missing protected attribute.
翻訳日:2022-04-19 17:07:35 公開日:2022-04-17
# SymForce: ロボットのための記号計算とコード生成

SymForce: Symbolic Computation and Code Generation for Robotics ( http://arxiv.org/abs/2204.07889v1 )

ライセンス: Link先を確認
Hayk Martiros, Aaron Miller, Nathan Bucki, Bradley Solliday, Ryan Kennedy, Jack Zhu, Tung Dang, Dominic Pattison, Harrison Zheng, Teo Tomic, Peter Henry, Gareth Cross, Josiah VanderMey, Alvin Sun, Samuel Wang, Kristen Holtz(参考訳) コンピュータビジョン,状態推定,動作計画,制御などのロボティクスアプリケーションのための,高速な記号計算およびコード生成ライブラリであるSymForceを紹介する。 symforceはシンボリック数学の開発速度と柔軟性を、c++や他のターゲットランタイム言語で自動生成、高度に最適化されたコードのパフォーマンスと組み合わせている。 SymForceは、SymPy上に構築された、幾何学とカメラのタイプ、Lieグループ操作、Pythonの複雑なシンボル式の生成と解析のためのブランチレス特異性処理を提供する。 生成した関数は,実時間生産に高度に最適化された,接空間非線形最適化器の要素として組み込むことができる。 本稿では,手書き手書き手書きの導関数を不要にしながら,接空間ヤコビアンを自動的に計算する新しい手法を提案する。 このワークフローにより、ランタイムコードの高速化、開発時間の短縮、手書きコードと最先端のコード行の削減が可能になる。 我々の実験は、ロボット工学のコアとなる計算タスクにおいて、我々のアプローチが桁違いにスピードアップできることを示した。 コードはhttps://github.com/symforce-org/symforce で入手できる。

We present SymForce, a fast symbolic computation and code generation library for robotics applications like computer vision, state estimation, motion planning, and controls. SymForce combines the development speed and flexibility of symbolic mathematics with the performance of autogenerated, highly optimized code in C++ or any target runtime language. SymForce provides geometry and camera types, Lie group operations, and branchless singularity handling for creating and analyzing complex symbolic expressions in Python, built on top of SymPy. Generated functions can be integrated as factors into our tangent space nonlinear optimizer, which is highly optimized for real-time production use. We introduce novel methods to automatically compute tangent space Jacobians, eliminating the need for bug-prone handwritten derivatives. This workflow enables faster runtime code, faster development time, and fewer lines of handwritten code versus the state-of-the-art. Our experiments demonstrate that our approach can yield order of magnitude speedups on computational tasks core to robotics. Code is available at https://github.com/symforce-org/symforce .
翻訳日:2022-04-19 17:06:24 公開日:2022-04-17
# 曲率エネルギー最小化のための高速マルチグリッド法

Fast Multi-grid Methods for Minimizing Curvature Energy ( http://arxiv.org/abs/2204.07921v1 )

ライセンス: Link先を確認
Zhenwei Zhang and Ke Chen and Yuping Duan(参考訳) 平均曲率やガウス曲率などの幾何学的高次正則化法は、画像エッジ、角、画像コントラストといった幾何学的性質の保存能力のために、過去数十年間、集中的に研究されてきた。 しかし、復元品質と計算効率のジレンマは、高次手法にとって重要な障害である。 本稿では,効率を犠牲にすることなく,平均曲率とガウス曲率エネルギー汎関数の両方を最小化する高速マルチグリッドアルゴリズムを提案する。 演算子分割と拡張ラグランジアン法(ALM)に基づく既存手法とは異なり,提案アルゴリズムの堅牢性を保証する人工パラメータは導入されていない。 一方,並列計算を促進するために領域分解法を採用し,収束を加速するために細粒度構造を用いる。 画像復調とCT再構成の両問題に対して,画像テクスチャの回復能力と提案手法の効率性を示す数値実験を行った。

The geometric high-order regularization methods such as mean curvature and Gaussian curvature, have been intensively studied during the last decades due to their abilities in preserving geometric properties including image edges, corners, and image contrast. However, the dilemma between restoration quality and computational efficiency is an essential roadblock for high-order methods. In this paper, we propose fast multi-grid algorithms for minimizing both mean curvature and Gaussian curvature energy functionals without sacrificing the accuracy for efficiency. Unlike the existing approaches based on operator splitting and the Augmented Lagrangian method (ALM), no artificial parameters are introduced in our formulation, which guarantees the robustness of the proposed algorithm. Meanwhile, we adopt the domain decomposition method to promote parallel computing and use the fine-to-coarse structure to accelerate the convergence. Numerical experiments are presented on both image denoising and CT reconstruction problem to demonstrate the ability to recover image texture and the efficiency of the proposed method.
翻訳日:2022-04-19 17:05:23 公開日:2022-04-17
# チャタジーのランク相関の極限定理

Limit theorems of Chatterjee's rank correlation ( http://arxiv.org/abs/2204.08031v1 )

ライセンス: Link先を確認
Zhexiao Lin and Fang Han(参考訳) 一般的な、おそらく非独立な一対の確率変数に対するchatterjeeのランク相関の制限分布を確立することは、多くの人に待ち望まれている。 この論文は、 (a)チャタジーのランク相関は、一方の変数が他方の可測関数でない限り漸近的に正常である。 (b)対応する漸近分散は一様に36に有界である。 Azadkia-Chatterjee のグラフに基づく相関係数は、Chatterjee の元々の提案の多変量類似である。 この証明は h\'ajek representation と chatterjee's near-neighbor clt に訴えることで与えられる。

Establishing limiting distributions of Chatterjee's rank correlation for a general, possibly non-independent, pair of random variables has been eagerly awaited to many. This paper shows that (a) Chatterjee's rank correlation is asymptotically normal as long as one variable is not a measurable function of the other, and (b) the corresponding asymptotic variance is uniformly bounded by 36. Similar results also hold for Azadkia-Chatterjee's graph-based correlation coefficient, a multivariate analogue of Chatterjee's original proposal. The proof is given by appealing to H\'ajek representation and Chatterjee's nearest-neighbor CLT.
翻訳日:2022-04-19 17:03:27 公開日:2022-04-17
# 重み付き2元ニューロンを標準細胞としたASIC設計フロー

A Novel ASIC Design Flow using Weight-Tunable Binary Neurons as Standard Cells ( http://arxiv.org/abs/2204.08070v1 )

ライセンス: Link先を確認
Ankit Wagle, Gian Singh, Sunil Khatri, Sarma Vrudhula(参考訳) 本稿では、二元ニューロン(パーセプトロン、しきい値論理ゲート)のための混合信号回路の設計と、そのようなセルをASICに自動的に埋め込む方法について述べる。 FTL(フラッシュしきい値論理)と呼ばれる二項ニューロンは、閾値電圧がニューロンの重みのプロキシとなるフローティングゲートまたはフラッシュトランジスタを使用する。 重みをフラッシュトランジスタしきい値電圧にマッピングするアルゴリズムを示す。 閾値電圧は、セルのロバスト性とその速度の両方を最大化するために決定される。 単一のftlセルの性能、電力および面積は、従来のcmos論理のそれに比べて大幅に小さく(79.4%)、消費電力が低く(61.6%)、動作速度が40.3%速くなっている。 また、FTLのフラッシュデバイスをプログラムするアーキテクチャやアルゴリズムも含まれている。 FTL細胞は標準細胞として実装されており、市販の合成とP&RツールがASICの合成に自動的に使用できるように設計されている。 FTLセルの自動埋込みによるいくつかのASICベンチマークにおいて, 性能を犠牲にすることなく, 面積と電力の実質的低減を実証した。 また、FTL細胞が製造後のタイミング誤差の修正にどのように使えるかを示す。

In this paper, we describe a design of a mixed signal circuit for a binary neuron (a.k.a perceptron, threshold logic gate) and a methodology for automatically embedding such cells in ASICs. The binary neuron, referred to as an FTL (flash threshold logic) uses floating gate or flash transistors whose threshold voltages serve as a proxy for the weights of the neuron. Algorithms for mapping the weights to the flash transistor threshold voltages are presented. The threshold voltages are determined to maximize both the robustness of the cell and its speed. The performance, power, and area of a single FTL cell are shown to be significantly smaller (79.4%), consume less power (61.6%), and operate faster (40.3%) compared to conventional CMOS logic equivalents. Also included are the architecture and the algorithms to program the flash devices of an FTL. The FTL cells are implemented as standard cells, and are designed to allow commercial synthesis and P&R tools to automatically use them in synthesis of ASICs. Substantial reductions in area and power without sacrificing performance are demonstrated on several ASIC benchmarks by the automatic embedding of FTL cells. The paper also demonstrates how FTL cells can be used for fixing timing errors after fabrication.
翻訳日:2022-04-19 17:03:16 公開日:2022-04-17
# BitChuteの心理言語学的分析

A Psycho-linguistic Analysis of BitChute ( http://arxiv.org/abs/2204.08078v1 )

ライセンス: Link先を確認
Benjamin D. Horne(参考訳) 研究者,ジャーナリスト,実践者がMeLa-BitChuteデータセットを探索および調査報告に使用することを支援するため,LIWC22を用いて,データセット内のビデオ,コメント,チャネルに対して,新たな心理言語メタデータを提供する。 本稿ではメタデータを用いてデータをフィルタリングするメタデータと手法について述べる。 さらに,BitChute上の言語を他のソーシャルメディアプラットフォームと比較する基礎的な分析と比較を行う。 この論文で説明されているMeLa-BitChuteデータセットとLIWCメタデータは以下のとおりである。 persistenceid=doi:10.7910/dvn/krd1vs。

In order to better support researchers, journalist, and practitioners in their use of the MeLa-BitChute dataset for exploration and investigative reporting, we provide new psycho-linguistic metadata for the videos, comments, and channels in the dataset using LIWC22. This paper describes that metadata and methods to filter the data using the metadata. In addition, we provide basic analysis and comparison of the language on BitChute to other social media platforms. The MeLa-BitChute dataset and LIWC metadata described in this paper can be found at: https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/KRD1VS.
翻訳日:2022-04-19 16:40:49 公開日:2022-04-17
# afsc:適応フーリエ空間圧縮による異常検出

AFSC: Adaptive Fourier Space Compression for Anomaly Detection ( http://arxiv.org/abs/2204.07963v1 )

ライセンス: Link先を確認
Haote Xu and Yunlong Zhang and Liyan Sun and Chenxin Li and Yue Huang and Xinghao Ding(参考訳) 医学画像上の異常検出(AD)により、モデルが病変特異的な教師あり学習をせずに任意の種類の異常パターンを認識できる。 データ拡張に基づく手法は、実際の健康な画像に偽の病変を"パッチング"することで擬似健康画像を構築し、ネットワークは、監督された方法で健康な画像を予測するために訓練される。 病変は、不健康入力と疑似健康出力の差により発見できる。 しかし、手動で設計した偽の病変のみを使用することは、不規則な実際の病変に近似できないため、モデルの一般化が制限される。 画像内の本質的データ特性を探索することにより,従来発見されていなかった病変と健康な領域を不健全な画像で区別することができる。 本研究では,adのための健全な特徴を蒸留するための適応フーリエ空間圧縮(afsc)モジュールを提案する。 周波数領域における大きさと位相の圧縮は、病変の超強度と多彩な位置に対処する。 BraTSおよびMS-SEGデータセットの実験結果は、AFSCベースラインが有望な検出結果を生成できることを示し、AFSCモジュールを既存のADメソッドに効果的に組み込むことができることを示している。

Anomaly Detection (AD) on medical images enables a model to recognize any type of anomaly pattern without lesion-specific supervised learning. Data augmentation based methods construct pseudo-healthy images by "pasting" fake lesions on real healthy ones, and a network is trained to predict healthy images in a supervised manner. The lesion can be found by difference between the unhealthy input and pseudo-healthy output. However, using only manually designed fake lesions fail to approximate to irregular real lesions, hence limiting the model generalization. We assume by exploring the intrinsic data property within images, we can distinguish previously unseen lesions from healthy regions in an unhealthy image. In this study, we propose an Adaptive Fourier Space Compression (AFSC) module to distill healthy feature for AD. The compression of both magnitude and phase in frequency domain addresses the hyper intensity and diverse position of lesions. Experimental results on the BraTS and MS-SEG datasets demonstrate an AFSC baseline is able to produce promising detection results, and an AFSC module can be effectively embedded into existing AD methods.
翻訳日:2022-04-19 16:37:25 公開日:2022-04-17
# 高速R-CNNを用いた超音波脊椎画像の自動曲率計測

Automatic spinal curvature measurement on ultrasound spine images using Faster R-CNN ( http://arxiv.org/abs/2204.07988v1 )

ライセンス: Link先を確認
Zhichao Liu, Liyue Qian, Wenke Jing, Desen Zhou, Xuming He, Edmond Lou, Rui Zheng(参考訳) 超音波脊椎画像法は脊椎変形の評価に応用されている。 しかし、超音波画像の側方角の手動測定は時間がかかり、ラッカーの経験に大きく依存している。 本研究の目的は, 脊椎ラミナ検出のための高速R-CNNに基づく完全自動フレームワークの構築と, 検出したラミナ対からの脊椎の適合曲線の測定である。 フレームワークは2つの密結合モジュールで構成されていた。 1)超音波コロナ画像上の各ラミナ対を同定・同定するラミナ検出器、及び 2)検出されたラミナの連鎖に基づいてスコリオティックアングルを計算するための脊髄曲率推定器。 ais患者から得られた200個の超音波画像が同定され,提案手法の訓練および評価に用いられた。 実験の結果, テストセット上の0.76 ap, 臨床受入誤差の範囲内における自動測定と手動測定との絶対差(mad)がみられた。 一方,x線写真からの自動測定とコブ角の相関は0.79。 提案手法は, 脊椎変形に対する超音波画像の高精度で信頼性の高い自動曲率測定が可能であった。

Ultrasound spine imaging technique has been applied to the assessment of spine deformity. However, manual measurements of scoliotic angles on ultrasound images are time-consuming and heavily rely on raters experience. The objectives of this study are to construct a fully automatic framework based on Faster R-CNN for detecting vertebral lamina and to measure the fitting spinal curves from the detected lamina pairs. The framework consisted of two closely linked modules: 1) the lamina detector for identifying and locating each lamina pairs on ultrasound coronal images, and 2) the spinal curvature estimator for calculating the scoliotic angles based on the chain of detected lamina. Two hundred ultrasound images obtained from AIS patients were identified and used for the training and evaluation of the proposed method. The experimental results showed the 0.76 AP on the test set, and the Mean Absolute Difference (MAD) between automatic and manual measurement which was within the clinical acceptance error. Meanwhile the correlation between automatic measurement and Cobb angle from radiographs was 0.79. The results revealed that our proposed technique could provide accurate and reliable automatic curvature measurements on ultrasound spine images for spine deformities.
翻訳日:2022-04-19 16:37:06 公開日:2022-04-17
# PiouCrypt:視覚対称暗号のための分散格子法

PiouCrypt: Decentralized Lattice-based Method for Visual Symmetric Cryptography ( http://arxiv.org/abs/2204.08017v1 )

ライセンス: Link先を確認
Navid Abapour, Mohsen Ebadpour(参考訳) 近年,セキュアな視覚コミュニケーションを確立することが,セキュリティ技術者や研究者にとって重要な問題となっている。 しかし、画像暗号化には限られた新しい解しか提供されず、視覚暗号を限られたスキームに制限することは、特に新しい量子計算システムにおいて負の結果をもたらす可能性がある。 本稿では,セキュアなプライベートビジュアルコミュニケーションを実現するための新しいアルゴリズムを提案する。 提案手法は,複数の凝集成分を有する階層構造を持ち,その対称構造にもかかわらずnp-hard問題に対応している。 この2段階の手法は, グレースケール画像に限らず, さらに, 提案手法の格子構造を利用した場合, 後量子時代に対する最適抵抗を有し, 理論次元から比較的安全である。

In recent years, establishing secure visual communications has turned into one of the essential problems for security engineers and researchers. However, only limited novel solutions are provided for image encryption, and limiting the visual cryptography to only limited schemes can bring up negative consequences, especially with emerging quantum computational systems. This paper presents a novel algorithm for establishing secure private visual communication. The proposed method has a layered architecture with several cohesive components, and corresponded with an NP-hard problem, despite its symmetric structure. This two-step technique is not limited to gray-scale pictures, and furthermore, utilizing a lattice structure causes to proposed method has optimal resistance for the post-quantum era, and is relatively secure from the theoretical dimension.
翻訳日:2022-04-19 16:36:47 公開日:2022-04-17
# 農業用空中画像の意味セグメンテーションにおける拡張不変性と適応サンプリング

Augmentation Invariance and Adaptive Sampling in Semantic Segmentation of Agricultural Aerial Images ( http://arxiv.org/abs/2204.07969v1 )

ライセンス: Link先を確認
Antonio Tavera, Edoardo Arnaudo, Carlo Masone, Barbara Caputo(参考訳) 本稿では,農業用航空画像におけるセマンティックセグメンテーションの問題点について考察する。 この課題に使用される既存の手法は,2つの特徴を考慮せずに設計されている。 (i)トップダウン視点は、同じシーンがセンサの異なる回転で体験される可能性があるため、モデルがシーンの一定の意味構造に依存しないことを意味する。 (ii)シーンの関連する対象が極めて異なる規模(作物の畑や小型車両など)で現れる可能性があるため、意味クラスの分布に強い不均衡が生じる可能性がある。 この問題に対する解決策を2つのアイデアに基づいて提案する。 (i)トップダウンの視点に典型的な測光的および幾何学的シフト(拡張不変性)に不変な意味表現を学習するために、適切な拡張と一貫性損失のセットを併用する(Augmentation Invariance)。 (ii)授業の画素単位分布と実際のネットワーク信頼度の測定に基づいて訓練画像を選択するサンプリング手法(適応サンプリング)を用いる。 農業用ビジョンデータセット上で行った広範囲な実験により,提案手法が現状の手法の性能を向上させることを実証する。

In this paper, we investigate the problem of Semantic Segmentation for agricultural aerial imagery. We observe that the existing methods used for this task are designed without considering two characteristics of the aerial data: (i) the top-down perspective implies that the model cannot rely on a fixed semantic structure of the scene, because the same scene may be experienced with different rotations of the sensor; (ii) there can be a strong imbalance in the distribution of semantic classes because the relevant objects of the scene may appear at extremely different scales (e.g., a field of crops and a small vehicle). We propose a solution to these problems based on two ideas: (i) we use together a set of suitable augmentation and a consistency loss to guide the model to learn semantic representations that are invariant to the photometric and geometric shifts typical of the top-down perspective (Augmentation Invariance); (ii) we use a sampling method (Adaptive Sampling) that selects the training images based on a measure of pixel-wise distribution of classes and actual network confidence. With an extensive set of experiments conducted on the Agriculture-Vision dataset, we demonstrate that our proposed strategies improve the performance of the current state-of-the-art method.
翻訳日:2022-04-19 16:06:31 公開日:2022-04-17
# VDTR: トランスフォーマーによるビデオの劣化

VDTR: Video Deblurring with Transformer ( http://arxiv.org/abs/2204.08023v1 )

ライセンス: Link先を確認
Mingdeng Cao, Yanbo Fan, Yong Zhang, Jue Wang, Yujiu Yang(参考訳) ビデオのデブロアリングは、時空間モデリングの困難なプロセスのため、未解決の問題である。 既存の畳み込みニューラルネットワークベースの手法では、ビデオデブラリングの有効な空間的および時間的モデリング能力は限られている。 本稿では,ビデオデブロアにトランスフォーマーを適応させる試みを初めて行う,効果的なトランスフォーマーベースモデルであるVDTRを提案する。 vdtrは、空間的および時間的モデリングの両方においてトランスフォーマの優れた長距離および関係モデリング能力を利用する。 しかし,複雑な不均一なボケや複数フレーム間の不一致,高分解能空間モデリングの計算コストなどにより,ビデオデブラリングに適したトランスフォーマモデルの設計は困難である。 これらの問題に対処するため、vdtrは重複しないウィンドウ内で注意を向け、長距離依存関係モデリングで階層構造を活用することを提唱している。 フレームレベルの空間モデリングのために,マルチスケール機能をデブラリングに用いるエンコーダデコーダトランスを提案する。 マルチフレーム時空間モデリングでは,トランスフォーマーを用いて複数の空間特徴を効率的に融合する。 提案手法はCNNベースの手法と比較して,DVD, GOPRO, REDS, BSD など,合成および実世界のビデオデブロアリングベンチマークにおいて高い競争力を発揮する。 トランスフォーマーベースのアーキテクチャが、ビデオの劣化やその他のビデオ復元タスクの強力な代替となることを願っている。 ソースコードは \url{https://github.com/ljzycmd/VDTR} で入手できる。

Video deblurring is still an unsolved problem due to the challenging spatio-temporal modeling process. While existing convolutional neural network-based methods show a limited capacity for effective spatial and temporal modeling for video deblurring. This paper presents VDTR, an effective Transformer-based model that makes the first attempt to adapt Transformer for video deblurring. VDTR exploits the superior long-range and relation modeling capabilities of Transformer for both spatial and temporal modeling. However, it is challenging to design an appropriate Transformer-based model for video deblurring due to the complicated non-uniform blurs, misalignment across multiple frames and the high computational costs for high-resolution spatial modeling. To address these problems, VDTR advocates performing attention within non-overlapping windows and exploiting the hierarchical structure for long-range dependencies modeling. For frame-level spatial modeling, we propose an encoder-decoder Transformer that utilizes multi-scale features for deblurring. For multi-frame temporal modeling, we adapt Transformer to fuse multiple spatial features efficiently. Compared with CNN-based methods, the proposed method achieves highly competitive results on both synthetic and real-world video deblurring benchmarks, including DVD, GOPRO, REDS and BSD. We hope such a Transformer-based architecture can serve as a powerful alternative baseline for video deblurring and other video restoration tasks. The source code will be available at \url{https://github.com/ljzycmd/VDTR}.
翻訳日:2022-04-19 16:06:09 公開日:2022-04-17
# 3次元登録における局所参照フレーム構築のためのz軸, x軸, 重みおよび曖昧性評価法の検討

The Z-axis, X-axis, Weight and Disambiguation Methods for Constructing Local Reference Frame in 3D Registration: An Evaluation ( http://arxiv.org/abs/2204.08024v1 )

ライセンス: Link先を確認
Bao Zhao, Xianyong Fang, Jiahui Yue, Xiaobo Chen, Xinyi Le, Chanjuan Zhao(参考訳) 局所的な3次元表面上で生成される独立座標系である局所参照フレーム(LRF)は,局所的な特徴記述子の構築と3次元変換推定において広く用いられている。 文献では多くのRF法が提案されている。 これらの方法では、x軸とz軸は異なる方法や戦略によって一般的に生成され、z軸に基づいていくつかのx軸法が実装される。 加えて、これらのLRF法では重みと曖昧さの方法が一般的である。 既存のLRF評価では, 各LRF法は完全形式で評価される。 しかし、LRF構造におけるz軸、x軸、重みおよび曖昧さの利点とデメリットは明らかでない。 本稿では,既存のLRFにおけるz軸,x軸,重みおよび曖昧化法を包括的に解析し,z軸と8つのx軸,5つの重みと2つの曖昧化法を得る。 これらの手法の性能は、異なるアプリケーションシナリオとニュアンスを持つ6つの標準データセットで総合的に評価される。 評価結果を考慮すると、異なる重量のメリットとデメリット、曖昧さ、z軸およびx軸法を分析して要約する。 また, 実験結果から, 新設計のRF軸は, 最先端のRF軸よりも優れた性能を示した。

The local reference frame (LRF), as an independent coordinate system generated on a local 3D surface, is widely used in 3D local feature descriptor construction and 3D transformation estimation which are two key steps in the local method-based surface matching. There are numerous LRF methods have been proposed in literatures. In these methods, the x- and z-axis are commonly generated by different methods or strategies, and some x-axis methods are implemented on the basis of a z-axis being given. In addition, the weight and disambiguation methods are commonly used in these LRF methods. In existing evaluations of LRF, each LRF method is evaluated with a complete form. However, the merits and demerits of the z-axis, x-axis, weight and disambiguation methods in LRF construction are unclear. In this paper, we comprehensively analyze the z-axis, x-axis, weight and disambiguation methods in existing LRFs, and obtain six z-axis and eight x-axis, five weight and two disambiguation methods. The performance of these methods are comprehensively evaluated on six standard datasets with different application scenarios and nuisances. Considering the evaluation outcomes, the merits and demerits of different weight, disambiguation, z- and x-axis methods are analyzed and summarized. The experimental result also shows that some new designed LRF axes present superior performance compared with the state-of-the-art ones.
翻訳日:2022-04-19 16:05:47 公開日:2022-04-17
# 深層学習による二中心染色体の自動検出

Deep Learning based Automatic Detection of Dicentric Chromosome ( http://arxiv.org/abs/2204.08029v1 )

ライセンス: Link先を確認
Angad Singh Wadhwa, Nikhil Tyagi and Pinaki Roy Chowdhury(参考訳) 二心性染色体の自動検出は、放射線曝露を推定し、終端緊急生体線量測定システムの開発に不可欠なステップである。 事故時には、大量検査のために大量のデータを処理し、大衆のための医療計画を作成する必要があり、このプロセスを自動化する必要がある。 現在のアプローチでは、データに応じて人間の調整が必要であるため、システムのキャリブレーションには人間の専門家が必要である。 本稿では,現場専門家の介入を最小限にし,比較的容易な緊急対応が可能な,完全にデータ駆動型フレームワークを提案する。 我々のアプローチでは、YOLOv4が染色体を検出し、各画像の破片を除去し、続いて分析可能な染色体と解析不可能な染色体を区別する分類器が使用される。 画像はWHO-BIODOSNETのプロトコルに基づいてYOLOv4から抽出される。 分析可能な染色体は、一中心性または二中心性に分類され、解析可能な染色体数に基づく線量推定を考慮して画像が受理される。 中心性染色体と単中心性染色体の1:1分割で94.33%の精度を報告した。

Automatic detection of dicentric chromosomes is an essential step to estimate radiation exposure and development of end to end emergency bio dosimetry systems. During accidents, a large amount of data is required to be processed for extensive testing to formulate a medical treatment plan for the masses, which requires this process to be automated. Current approaches require human adjustments according to the data and therefore need a human expert to calibrate the system. This paper proposes a completely data driven framework which requires minimum intervention of field experts and can be deployed in emergency cases with relative ease. Our approach involves YOLOv4 to detect the chromosomes and remove the debris in each image, followed by a classifier that differentiates between an analysable chromosome and a non-analysable one. Images are extracted from YOLOv4 based on the protocols described by WHO-BIODOSNET. The analysable chromosome is classified as Monocentric or Dicentric and an image is accepted for consideration of dose estimation based on the analysable chromosome count. We report an accuracy in dicentric identification of 94.33% on a 1:1 split of Dicentric and Monocentric Chromosomes.
翻訳日:2022-04-19 16:05:23 公開日:2022-04-17
# 階層型フルアテンションネットワークを用いたポーズノイズ2次元画像からの3次元意味学習

Learning 3D Semantics from Pose-Noisy 2D Images with Hierarchical Full Attention Network ( http://arxiv.org/abs/2204.08084v1 )

ライセンス: Link先を確認
Yuhang He, Lin Chen, Junkun Xie, Long Chen(参考訳) ポーズエラーを含む2次元多視点画像観測から3次元ポイントクラウドの意味を学習するための新しいフレームワークを提案する。 一方で、巨大で構造化されていない3dポイントクラウドからの直接学習は、コンパクトでコンテキストに富んだ2d rgbイメージからの学習よりも計算的に、アルゴリズム的に困難である。 一方、LiDARポイントクラウドとRGBイメージはどちらも、標準的な自動化データセットでキャプチャされる。 これにより、3次元のセマンティックセグメンテーションが2次元のセマンティックキューの集約による恩恵を享受できる「タスク転送」パラダイムが実現されるが、ポーズノイズは2次元の画像観察に含まれる。 難易度の中では,2次元セマンティックセグメンテーションによるノイズと誤予測がタスク転送の主な課題である。 これらの要因の影響を緩和するために、マルチビュー画像を用いて各3dポイントを知覚し、パッチ観察を関連付ける。 さらに、隣接する3Dポイントのブロックのセマンティックラベルを同時に予測し、さらに性能を向上させるためにポイント構造を利用することができる。 階層型フルアテンションネットワーク(hifanet)は、パッチ、バッグオブフレーム、ポイント間セマンティクスキューを順次集約し、異なるレベルのセマンティクスキュー用に階層的アテンション機構を備えるように設計されている。 また、先行するアテンションブロックは、次のアテンションブロックにフィードする前に、機能サイズを大幅に削減します。 Semantic-KITTIの実験結果によると、提案フレームワークは既存の3Dポイントクラウドベースの手法よりも優れており、トレーニングデータが少なく、ノイズを訴える耐性を示す。 コードはhttps://github.com/yuhanghe01/hifanetで入手できる。

We propose a novel framework to learn 3D point cloud semantics from 2D multi-view image observations containing pose error. On the one hand, directly learning from the massive, unstructured and unordered 3D point cloud is computationally and algorithmically more difficult than learning from compactly-organized and context-rich 2D RGB images. On the other hand, both LiDAR point cloud and RGB images are captured in standard automated-driving datasets. This motivates us to conduct a "task transfer" paradigm so that 3D semantic segmentation benefits from aggregating 2D semantic cues, albeit pose noises are contained in 2D image observations. Among all difficulties, pose noise and erroneous prediction from 2D semantic segmentation approaches are the main challenges for the task transfer. To alleviate the influence of those factor, we perceive each 3D point using multi-view images and for each single image a patch observation is associated. Moreover, the semantic labels of a block of neighboring 3D points are predicted simultaneously, enabling us to exploit the point structure prior to further improve the performance. A hierarchical full attention network~(HiFANet) is designed to sequentially aggregates patch, bag-of-frames and inter-point semantic cues, with hierarchical attention mechanism tailored for different level of semantic cues. Also, each preceding attention block largely reduces the feature size before feeding to the next attention block, making our framework slim. Experiment results on Semantic-KITTI show that the proposed framework outperforms existing 3D point cloud based methods significantly, it requires much less training data and exhibits tolerance to pose noise. The code is available at https://github.com/yuhanghe01/HiFANet.
翻訳日:2022-04-19 16:05:06 公開日:2022-04-17
# ユーザシミュレーションによる混合対話型検索システムの評価

Evaluating Mixed-initiative Conversational Search Systems via User Simulation ( http://arxiv.org/abs/2204.08046v1 )

ライセンス: Link先を確認
Ivan Sekuli\'c, Mohammad Aliannejadi, Fabio Crestani(参考訳) 現代会話検索システムにおいて,質問の明確化によるユーザ情報ニーズの明確化が重要な特徴である。 しかし,質問への回答によるシステム評価には,人的努力が不可欠であり,時間と費用がかかる可能性がある。 本稿では,このような対話型検索システムの自動評価のために,usiと呼ばれる対話型ユーザシミュレータを提案する。 情報の必要性が説明されると、USiは検索セッションを通してトピックに関する明確な質問に自動的に答えることができる。 自動自然言語生成メトリクスやクラウドソーシング研究を含む一連の実験を通して、USiが生成した応答は、基礎となる情報要求と同等であり、人間による回答に匹敵するものであることを示す。 さらに,対話型検索システムがユーザニーズの明確化を目標として(シミュレーション)ユーザに対して複数の質問を行うマルチターンインタラクションへの第一歩を踏み出した。 この目的のために,クラウドソーシングに基づくマルチターンデータ取得を行うことで,クラックやクラリクといった明確化問題を研究するために,現在利用可能なデータセットを拡張する。 生成型 GPT2 ベースのモデルでは,単一ターン設定における不明瞭な質問に対して,正確かつ自然な回答が得られ,マルチターン設定におけるモデルの能力について議論できることを示す。 我々は、このトピックに関するさらなる研究に使用する、コード、データ、および事前訓練されたモデルを提供します。

Clarifying the underlying user information need by asking clarifying questions is an important feature of modern conversational search system. However, evaluation of such systems through answering prompted clarifying questions requires significant human effort, which can be time-consuming and expensive. In this paper, we propose a conversational User Simulator, called USi, for automatic evaluation of such conversational search systems. Given a description of an information need, USi is capable of automatically answering clarifying questions about the topic throughout the search session. Through a set of experiments, including automated natural language generation metrics and crowdsourcing studies, we show that responses generated by USi are both inline with the underlying information need and comparable to human-generated answers. Moreover, we make the first steps towards multi-turn interactions, where conversational search systems asks multiple questions to the (simulated) user with a goal of clarifying the user need. To this end, we expand on currently available datasets for studying clarifying questions, i.e., Qulac and ClariQ, by performing a crowdsourcing-based multi-turn data acquisition. We show that our generative, GPT2-based model, is capable of providing accurate and natural answers to unseen clarifying questions in the single-turn setting and discuss capabilities of our model in the multi-turn setting. We provide the code, data, and the pre-trained model to be used for further research on the topic.
翻訳日:2022-04-19 15:57:18 公開日:2022-04-17
# チューリングのカスケード不安定性は、心、脳、行動の協調を支援する

Turing's cascade instability supports the coordination of the mind, brain, and behavior ( http://arxiv.org/abs/2204.07904v1 )

ライセンス: Link先を確認
Damian G. Kelty-Stephen, Madhur Mangalam(参考訳) チューリングは心と脳のコンピューターメタファーを刺激し、何十年にもわたって経験的な調査を生んだが、もっと多くのことをし、行動科学と認知科学、すなわちカスケードのメタファーを提供した。 この時代はチューリングのカスケード不安定(英語版)に直面し、これは権力法則によって駆動される幾何学的枠組みを示唆し、マルチフラクタル形式とマルチスケール確率密度関数解析を用いて研究することができる。 ここでは, カスケード不安定の徴候と, 行動, 思考生物の知覚, 行動, 思考に対する影響を明らかにする科学的研究の迅速化について概説する。 我々は,実行機能(行動計画),姿勢制御(行動計画の転換を両立させる),努力的な知覚(単一モーダルの情報収集と多モーダル情報を融合する行動)に関連する作業についてレビューする。 また,脳内の神経性雪崩,特に全身カスケードの神経学的関与についても検討した。 チューリングのカスケード不安定性は、空間と時間スケールにまたがる心、脳、行動をブレンドし、支配的なコンピュータメタファーの代替となる。

Turing inspired a computer metaphor of the mind and brain that has been handy and has spawned decades of empirical investigation, but he did much more and offered behavioral and cognitive sciences another metaphor--that of the cascade. The time has come to confront Turing's cascading instability, which suggests a geometrical framework driven by power laws and can be studied using multifractal formalism and multiscale probability density function analysis. Here, we review a rapidly growing body of scientific investigations revealing signatures of cascade instability and their consequences for a perceiving, acting, and thinking organism. We review work related to executive functioning (planning to act), postural control (bodily poise for turning plans into action), and effortful perception (action to gather information in a single modality and action to blend multimodal information). We also review findings on neuronal avalanches in the brain, specifically about neural participation in body-wide cascades. Turing's cascade instability blends the mind, brain, and behavior across space and time scales and provides an alternative to the dominant computer metaphor.
翻訳日:2022-04-19 15:51:12 公開日:2022-04-17
# 脳原理プログラミングに基づく意思決定のための認知アーキテクチャ

Cognitive Architecture for Decision-Making Based on Brain Principles Programming ( http://arxiv.org/abs/2204.07919v1 )

ライセンス: Link先を確認
Anton Kolonin, Andrey Kurpatov, Artem Molchanov(参考訳) 本稿では,脳活動の5つの原理に基づいて,論理確率的推論,確率論的形式概念,機能的システム理論という3つのサブシステムに実装された認知アーキテクチャについて述べる。 アーキテクチャの構築には、応用オントロジーで表現されたタスクに対応する運用環境の用語で定式化されたタスクとして、応用アプリケーションのターゲット機能を定義するタスク駆動型アプローチの実装が含まれる。 実用的アプリケーションやそれに基づく主題領域オントロジーに対する基本的なオントロジーを提供し、提案するアーキテクチャを説明し、このアーキテクチャにおけるこれらのアプリケーションの実行例を示す。

We describe a cognitive architecture intended to solve a wide range of problems based on the five identified principles of brain activity, with their implementation in three subsystems: logical-probabilistic inference, probabilistic formal concepts, and functional systems theory. Building an architecture involves the implementation of a task-driven approach that allows defining the target functions of applied applications as tasks formulated in terms of the operating environment corresponding to the task, expressed in the applied ontology. We provide a basic ontology for a number of practical applications as well as for the subject domain ontologies based upon it, describe the proposed architecture, and give possible examples of the execution of these applications in this architecture.
翻訳日:2022-04-19 15:50:49 公開日:2022-04-17
# 弦理論景観のインテリジェントな探索

Intelligent Explorations of the String Theory Landscape ( http://arxiv.org/abs/2204.08073v1 )

ライセンス: Link先を確認
Andrei Constantin(参考訳) 粒子物理学の標準モデルとその弦理論の拡張を同定することのゴールは、弦現象学における主要な駆動力の1つである。 近年、弦理論に人工知能が組み込まれ、ある理論的な進歩が、これまでこの方向の進歩を妨げてきた数学的ハードルに対する軽々しい予期せぬ解決をもたらした。 本稿では,smooth calabi-yau 3次元にコンパクト化された$e_8\times e_8$ヘテロティック文字列の文脈におけるモデル構築の取り組みに注目し,機械学習が成功するであろういくつかの領域について考察する。

The goal of identifying the Standard Model of particle physics and its extensions within string theory has been one of the principal driving forces in string phenomenology. Recently, the incorporation of artificial intelligence in string theory and certain theoretical advancements have brought to light unexpected solutions to mathematical hurdles that have so far hindered progress in this direction. In this review we focus on model building efforts in the context of the $E_8\times E_8$ heterotic string compactified on smooth Calabi-Yau threefolds and discuss several areas in which machine learning is expected to make a difference.
翻訳日:2022-04-19 15:50:37 公開日:2022-04-17
# MST++: 効率的なスペクトル再構成のための多段階分光変換器

MST++: Multi-stage Spectral-wise Transformer for Efficient Spectral Reconstruction ( http://arxiv.org/abs/2204.07908v1 )

ライセンス: Link先を確認
Yuanhao Cai, Jing Lin, Zudi Lin, Haoqian Wang, Yulun Zhang, Hanspeter Pfister, Radu Timofte, Luc Van Gool(参考訳) 既存のスペクトル再構成(SR)では、より深いあるいはより広い畳み込みニューラルネットワーク(CNN)の設計に焦点を当て、RGBイメージからハイパースペクトルイメージ(HSI)へのエンドツーエンドマッピングを学習している。 これらのCNNベースの手法は、長い範囲の依存関係と自己相似性をキャプチャする際の制限を示しながら、印象的な復元性能を達成する。 そこで本研究では,新しい変圧器を用いたマルチステージスペクトルワイズ変圧器 (multi-stage spectral-wise transformer, mst++) を提案する。 特に,HSIの空間的疎度に基づくスペクトルワイド・マルチヘッド・セルフアテンション(S-MSA)を用いて,基本単位であるスペクトルワイド・アテンション・ブロック(SAB)を構成する。 次に、SABはU字型構造を利用してマルチ解像度のコンテキスト情報を抽出するSST(Single-stage Spectral-wise Transformer)を構築する。 最終的に、いくつかのSSTでカスケードされたMST++は、粗いものから細かいものへと、徐々に再構築品質を向上します。 総合的な実験により、我々のMST++は、他の最先端メソッドよりも大幅に優れています。 NTIRE 2022 Spectral Reconstruction Challengeでは、私たちのアプローチが優勝しました。 コードと事前訓練されたモデルはhttps://github.com/caiyuanhao1998/MST-plus-plusで公開されている。

Existing leading methods for spectral reconstruction (SR) focus on designing deeper or wider convolutional neural networks (CNNs) to learn the end-to-end mapping from the RGB image to its hyperspectral image (HSI). These CNN-based methods achieve impressive restoration performance while showing limitations in capturing the long-range dependencies and self-similarity prior. To cope with this problem, we propose a novel Transformer-based method, Multi-stage Spectral-wise Transformer (MST++), for efficient spectral reconstruction. In particular, we employ Spectral-wise Multi-head Self-attention (S-MSA) that is based on the HSI spatially sparse while spectrally self-similar nature to compose the basic unit, Spectral-wise Attention Block (SAB). Then SABs build up Single-stage Spectral-wise Transformer (SST) that exploits a U-shaped structure to extract multi-resolution contextual information. Finally, our MST++, cascaded by several SSTs, progressively improves the reconstruction quality from coarse to fine. Comprehensive experiments show that our MST++ significantly outperforms other state-of-the-art methods. In the NTIRE 2022 Spectral Reconstruction Challenge, our approach won the First place. Code and pre-trained models are publicly available at https://github.com/caiyuanhao1998/MST-plus-plus.
翻訳日:2022-04-19 15:12:10 公開日:2022-04-17
# 一段階参照表現理解におけるマルチモーダル融合を超えるもの:実証的研究

What Goes beyond Multi-modal Fusion in One-stage Referring Expression Comprehension: An Empirical Study ( http://arxiv.org/abs/2204.07913v1 )

ライセンス: Link先を確認
Gen Luo, Yiyi Zhou, Jiamu Sun, Shubin Huang, Xiaoshuai Sun, Qixiang Ye, Yongjian Wu, Rongrong Ji(参考訳) 1段階参照表現理解(REC)における既存の研究のほとんどは、主にマルチモーダル融合と推論に焦点を当てているが、このタスクにおける他の要因の影響は、深層探査に欠けている。 このギャップを埋めるため,本論文では経験的研究を行う。 具体的には、まずSimRECと呼ばれる非常に単純なRECネットワークを構築し、42の候補設計/設定を廃止し、ネットワーク設計からモデルトレーニングまでの1段階RECの全プロセスをカバーする。 その後、RECの3つのベンチマークデータセットに対して100以上の実験を行った。 広範な実験結果から, マルチモーダル融合に加えて, マルチスケール機能やデータ拡張など, rec性能に影響を与える重要な要因を示すだけでなく, 従来の理解と相反する知見も得られた。 例えば、ビジョンと言語(V&L)タスクとして、RECは以前の言語の影響を受けない。 さらに、これらの知見を適切に組み合わせることで、既存のREC法よりも優れたRefCOCO+の+27.12%という大きなマージンでSimRECの性能を向上させることができる。 しかし、最も推奨される発見は、トレーニングのオーバーヘッドとパラメータがはるかに少ない場合、SimRECは既存のV&L研究におけるRECの特別な役割を描きながら、UNITERやVILLAのような大規模な事前訓練モデルよりもパフォーマンスが良いことである。

Most of the existing work in one-stage referring expression comprehension (REC) mainly focuses on multi-modal fusion and reasoning, while the influence of other factors in this task lacks in-depth exploration. To fill this gap, we conduct an empirical study in this paper. Concretely, we first build a very simple REC network called SimREC, and ablate 42 candidate designs/settings, which covers the entire process of one-stage REC from network design to model training. Afterwards, we conduct over 100 experimental trials on three benchmark datasets of REC. The extensive experimental results not only show the key factors that affect REC performance in addition to multi-modal fusion, e.g., multi-scale features and data augmentation, but also yield some findings that run counter to conventional understanding. For example, as a vision and language (V&L) task, REC does is less impacted by language prior. In addition, with a proper combination of these findings, we can improve the performance of SimREC by a large margin, e.g., +27.12% on RefCOCO+, which outperforms all existing REC methods. But the most encouraging finding is that with much less training overhead and parameters, SimREC can still achieve better performance than a set of large-scale pre-trained models, e.g., UNITER and VILLA, portraying the special role of REC in existing V&L research.
翻訳日:2022-04-19 15:11:48 公開日:2022-04-17
# 顔面行動単位認識のための因果的介入

Causal Intervention for Subject-Deconfounded Facial Action Unit Recognition ( http://arxiv.org/abs/2204.07935v1 )

ライセンス: Link先を確認
Yingjie Chen, Diqi Chen, Tao Wang, Yizhou Wang, Yun Liang(参考訳) 被験者間のデータ分布が変化する理由から, 被写体不変な顔動作単位(au)の認識はいまだに困難である。 本稿では,主観的不変な顔行動単位認識のための因果推論フレームワークを提案する。 AU認識タスクに存在する因果効果を説明するために,顔画像,被験者,潜在AU意味関係,推定AU発生確率を構造因果モデルを用いて定式化する。 このような因果ダイアグラムを構築することにより、変数間の因果効果を明らかにし、因果ダイアグラムの共創者 \emph{Subject} を分解するプラグイン因果介入モジュール CIS を提案する。 BP4D と DISFA という2つのAUベンチマークデータセットを用いて行った大規模な実験は、我々の CIS の有効性を示し、CISNet を挿入したモデルは最先端の性能を達成した。

Subject-invariant facial action unit (AU) recognition remains challenging for the reason that the data distribution varies among subjects. In this paper, we propose a causal inference framework for subject-invariant facial action unit recognition. To illustrate the causal effect existing in AU recognition task, we formulate the causalities among facial images, subjects, latent AU semantic relations, and estimated AU occurrence probabilities via a structural causal model. By constructing such a causal diagram, we clarify the causal effect among variables and propose a plug-in causal intervention module, CIS, to deconfound the confounder \emph{Subject} in the causal diagram. Extensive experiments conducted on two commonly used AU benchmark datasets, BP4D and DISFA, show the effectiveness of our CIS, and the model with CIS inserted, CISNet, has achieved state-of-the-art performance.
翻訳日:2022-04-19 15:11:23 公開日:2022-04-17
# 車両再識別のためのグローバル教師付きコントラスト損失とビューアウェア・ポストプロセッシング

Global-Supervised Contrastive Loss and View-Aware-Based Post-Processing for Vehicle Re-Identification ( http://arxiv.org/abs/2204.07943v1 )

ライセンス: Link先を確認
Zhijun Hu and Yong Xu and Jie Wen and Xianjing Cheng and Zaijun Zhang and Lilei Sun and Yaowei Wang(参考訳) 本稿では,車両再識別分野におけるグローバル・スーパービジョン・コントラスト損失とビュー・アウェア・ベースのポストプロセッシング(VABPP)手法を提案する。 従来の教師付きコントラスト損失はバッチ内の特徴の距離を計算するため、局所的な属性を持つ。 提案されたグローバル教師付きコントラスト損失は新しい特性を持ち、優れたグローバル属性を持つが、トレーニングプロセスにおける各アンカーの正と負の特徴はトレーニングセット全体から得られる。 VABPP法は,車両再識別分野における後処理手法としてビューアウェア方式を用いた最初の手法である。 VABPPの利点は、第一に、テスト時にのみ使用され、トレーニングプロセスに影響を与えないことである。 第二に、後処理として、他のトレーニング済みのre-idモデルに簡単に統合できる。 本稿では,本論文でトレーニングしたモデルにより算出されたビューペア距離スケーリング係数行列を他のトレーニング済みのre-idモデルに直接適用し,VABPP法の性能を大幅に向上させ,VABPP法の有効性を検証した。

In this paper, we propose a Global-Supervised Contrastive loss and a view-aware-based post-processing (VABPP) method for the field of vehicle re-identification. The traditional supervised contrastive loss calculates the distances of features within the batch, so it has the local attribute. While the proposed Global-Supervised Contrastive loss has new properties and has good global attributes, the positive and negative features of each anchor in the training process come from the entire training set. The proposed VABPP method is the first time that the view-aware-based method is used as a post-processing method in the field of vehicle re-identification. The advantages of VABPP are that, first, it is only used during testing and does not affect the training process. Second, as a post-processing method, it can be easily integrated into other trained re-id models. We directly apply the view-pair distance scaling coefficient matrix calculated by the model trained in this paper to another trained re-id model, and the VABPP method greatly improves its performance, which verifies the feasibility of the VABPP method.
翻訳日:2022-04-19 15:11:06 公開日:2022-04-17
# DR-GAN:テキスト・画像生成のための分布正規化

DR-GAN: Distribution Regularization for Text-to-Image Generation ( http://arxiv.org/abs/2204.07945v1 )

ライセンス: Link先を確認
Hongchen Tan, Xiuping Liu, Baocai Yin, Xin Li(参考訳) 本稿では,分散正規化生成支援ネットワーク(DR-GAN)と呼ばれる新しいテキスト間画像生成モデルを提案し,改良された分散学習からテキスト記述から画像を生成する。 DR-GANではセマンティックディスタングルモジュール (SDM) と分布正規化モジュール (DNM) の2つの新しいモジュールを紹介する。 sdmは空間的自己照査機構と新しい意味疎結合損失(sdl)を組み合わせることで、画像生成のためのキー意味情報の抽出を支援する。 DNMは変分オートエンコーダ(VAE)を用いて画像潜伏分布の正規化と復調を行う。 また、DNMはDAL(Distributed Adversarial Loss)を採用し、ジェネレータを誘導し、潜在空間における正規化された実像分布と整合させる。 2つの公開データセットに対する大規模な実験により、我々のDR-GANはテキスト・トゥ・イメージ・タスクにおいて競合性能を達成した。

This paper presents a new Text-to-Image generation model, named Distribution Regularization Generative Adversarial Network (DR-GAN), to generate images from text descriptions from improved distribution learning. In DR-GAN, we introduce two novel modules: a Semantic Disentangling Module (SDM) and a Distribution Normalization Module (DNM). SDM combines the spatial self-attention mechanism and a new Semantic Disentangling Loss (SDL) to help the generator distill key semantic information for the image generation. DNM uses a Variational Auto-Encoder (VAE) to normalize and denoise the image latent distribution, which can help the discriminator better distinguish synthesized images from real images. DNM also adopts a Distribution Adversarial Loss (DAL) to guide the generator to align with normalized real image distributions in the latent space. Extensive experiments on two public datasets demonstrated that our DR-GAN achieved a competitive performance in the Text-to-Image task.
翻訳日:2022-04-19 15:10:46 公開日:2022-04-17
# 3次元ポーズ推定とシートベルトセグメンテーションを用いた車内総合監視システム

Integrated In-vehicle Monitoring System Using 3D Human Pose Estimation and Seat Belt Segmentation ( http://arxiv.org/abs/2204.07946v1 )

ライセンス: Link先を確認
Ginam Kim, Hyunsung Kim, Kihun Kim, Sung-Sik Cho, Yeong-Hun Park, Suk-Ju Kang(参考訳) 近年、自動運転車への関心が高まり、車内におけるドライバーと乗客の監視システムの重要性が高まっている。 本稿では,3次元ポーズ推定,シートベルト分割,シートベルト状態分類ネットワークを組み合わせた車内モニタリングシステムを提案する。 本システムは車載環境のデータ特性を正確に考慮して監視に必要な各種情報を出力する。 具体的には,提案した3次元ポーズ推定により,ドライバーと乗客のキーポイントの絶対座標を直接推定し,特徴ピラミッドに基づく構造を適用してシートベルトセグメンテーションを行う。 また,3次元ポーズ推定とシートベルトセグメンテーションを組み合わせた結果を用いて,シートベルト着用の正常状態と異常状態を区別する分類タスクを提案する。 これらのタスクは同時に学習し、リアルタイムで操作することができる。 提案手法は,新たに作成したプライベートデータセット上で評価した。 実験の結果,本手法は実車載監視システムに直接適用できる非常に高い性能を有することがわかった。

Recently, along with interest in autonomous vehicles, the importance of monitoring systems for both drivers and passengers inside vehicles has been increasing. This paper proposes a novel in-vehicle monitoring system the combines 3D pose estimation, seat-belt segmentation, and seat-belt status classification networks. Our system outputs various information necessary for monitoring by accurately considering the data characteristics of the in-vehicle environment. Specifically, the proposed 3D pose estimation directly estimates the absolute coordinates of keypoints for a driver and passengers, and the proposed seat-belt segmentation is implemented by applying a structure based on the feature pyramid. In addition, we propose a classification task to distinguish between normal and abnormal states of wearing a seat belt using results that combine 3D pose estimation with seat-belt segmentation. These tasks can be learned simultaneously and operate in real-time. Our method was evaluated on a private dataset we newly created and annotated. The experimental results show that our method has significantly high performance that can be applied directly to real in-vehicle monitoring systems.
翻訳日:2022-04-19 15:10:25 公開日:2022-04-17
# 署名による学習

Learning with Signatures ( http://arxiv.org/abs/2204.07953v1 )

ライセンス: Link先を確認
J. de Curt\`o and I. de Zarz\`a and Carlos T. Calafate and Hong Yan(参考訳) 本研究では,学習の文脈におけるSignature Transformの使用について検討する。 この仮定の下では,信用割当を必要とせず,あるいは過小評価することなく,極めて少ないラベルを使用することで,最先端の分類精度を提供する教師付きフレームワークを前進させる。 我々は,調波解析のツールをシグネチャとログシグネチャを用いて利用し,スコア関数RMSEとMAEシグネチャとログシグネチャとして利用する。 最適なスケール係数を求めるための閉形式方程式を考案する。 分類は他の方法よりもはるかに高速にCPUレベルで行われる。 AFHQデータセット、Four Shapes、MNIST、CIFAR10について、全タスクで100%の精度で結果を報告する。

In this work we investigate the use of the Signature Transform in the context of Learning. Under this assumption, we advance a supervised framework that provides state-of-the-art classification accuracy with the use of very few labels without the need of credit assignment and with minimal or no overfitting. We leverage tools from harmonic analysis by the use of the signature and log-signature and use as a score function RMSE and MAE Signature and log-signature. We develop a closed-form equation to compute probably good optimal scale factors. Classification is performed at the CPU level orders of magnitude faster than other methods. We report results on AFHQ dataset, Four Shapes, MNIST and CIFAR10 achieving 100% accuracy on all tasks.
翻訳日:2022-04-19 15:10:10 公開日:2022-04-17
# マルチソース領域適応オブジェクト検出のためのターゲット関連知識保存

Target-Relevant Knowledge Preservation for Multi-Source Domain Adaptive Object Detection ( http://arxiv.org/abs/2204.07964v1 )

ライセンス: Link先を確認
Jiaxi Wu, Jiaxin Chen, Mengzhe He, Yiru Wang, Bo Li, Bingqi Ma, Weihao Gan, Wei Wu, Yali Wang, Di Huang(参考訳) ドメイン適応オブジェクト検出(DAOD)は、新しいシーンでの検出器の性能低下を軽減するための有望な方法である。 単一ソースドメインの適応において大きな努力をしても、複数のソースドメインを持つより一般的なタスクは、その組み合わせにおける知識の低下のため、まだ十分に検討されていない。 そこで本研究では,マルチソースdaodに対する目標関連知識保存(trkp)という新しい手法を提案する。 具体的には、TRKPは教師学習フレームワークを採用し、マルチヘッドの教師ネットワークを構築して、ラベル付きソースドメインから知識を抽出し、学生ネットワークにラベルなしターゲットドメインの検出器を学習させる。 教師ネットワークはさらに、ソースドメイン固有の知識を保存し、同時にクロスドメインアライメントを行う、adversarial multi-source disentanglement (amsd)モジュールを備える。 また, ソース画像の重み付けを行うため, 総括的目標関連マイニング (htrm) 方式が開発されている。 これにより、教師ネットワークは、対象領域におけるオブジェクト検出を指導する際のドメインシフトを減少させるため、目標関連知識を捕捉するために強制される。 新しい最先端のスコアが報告された様々な広く使われているベンチマークで広範な実験が行われ、その効果を強調している。

Domain adaptive object detection (DAOD) is a promising way to alleviate performance drop of detectors in new scenes. Albeit great effort made in single source domain adaptation, a more generalized task with multiple source domains remains not being well explored, due to knowledge degradation during their combination. To address this issue, we propose a novel approach, namely target-relevant knowledge preservation (TRKP), to unsupervised multi-source DAOD. Specifically, TRKP adopts the teacher-student framework, where the multi-head teacher network is built to extract knowledge from labeled source domains and guide the student network to learn detectors in unlabeled target domain. The teacher network is further equipped with an adversarial multi-source disentanglement (AMSD) module to preserve source domain-specific knowledge and simultaneously perform cross-domain alignment. Besides, a holistic target-relevant mining (HTRM) scheme is developed to re-weight the source images according to the source-target relevance. By this means, the teacher network is enforced to capture target-relevant knowledge, thus benefiting decreasing domain shift when mentoring object detection in the target domain. Extensive experiments are conducted on various widely used benchmarks with new state-of-the-art scores reported, highlighting the effectiveness.
翻訳日:2022-04-19 15:09:57 公開日:2022-04-17
# 漸進的多様性制約を持つ物体検出のためのエントロピーに基づく能動学習

Entropy-based Active Learning for Object Detection with Progressive Diversity Constraint ( http://arxiv.org/abs/2204.07965v1 )

ライセンス: Link先を確認
Jiaxi Wu, Jiaxin Chen, Di Huang(参考訳) アクティブラーニングは、より情報のあるサンプルをラベルに意識的に選択することで、コンピュータビジョンタスクにおける高アノテーションコストの問題を軽減するための有望な代替手段である。 オブジェクト検出のためのアクティブな学習はより難しく、既存の取り組みは比較的稀である。 本稿では,インスタンスレベルの不確実性と多様性をボトムアップ方式で共同で検討する,この問題に対処する新しいハイブリッドアプローチを提案する。 計算複雑性のバランスをとるため,提案手法は二段階法として設計されている。 第一段階では、エントロピーに基づく非最大抑圧(ENMS)が提示され、特徴空間のエントロピーに応じてNMSを実行する全ての画像の不確かさを推定し、冗長な情報ゲインによる予測を除去する。 第2段階では、エントロピーベースのクラス固有プロトタイプのクラス内およびクラス間多様性に段階的に変換することで、画像間の多様性を確保するための多様なプロトタイプ(DivProto)戦略が検討されている。 広汎な実験はMS COCOとPascal VOCで行われ、提案手法は技術結果の状態を達成し、他の手法よりも優れており、その優位性を強調している。

Active learning is a promising alternative to alleviate the issue of high annotation cost in the computer vision tasks by consciously selecting more informative samples to label. Active learning for object detection is more challenging and existing efforts on it are relatively rare. In this paper, we propose a novel hybrid approach to address this problem, where the instance-level uncertainty and diversity are jointly considered in a bottom-up manner. To balance the computational complexity, the proposed approach is designed as a two-stage procedure. At the first stage, an Entropy-based Non-Maximum Suppression (ENMS) is presented to estimate the uncertainty of every image, which performs NMS according to the entropy in the feature space to remove predictions with redundant information gains. At the second stage, a diverse prototype (DivProto) strategy is explored to ensure the diversity across images by progressively converting it into the intra-class and inter-class diversities of the entropy-based class-specific prototypes. Extensive experiments are conducted on MS COCO and Pascal VOC, and the proposed approach achieves state of the art results and significantly outperforms the other counterparts, highlighting its superiority.
翻訳日:2022-04-19 15:09:33 公開日:2022-04-17
# Few-shot Fine-tuningにおける事前学習言語モデルの病理

Pathologies of Pre-trained Language Models in Few-shot Fine-tuning ( http://arxiv.org/abs/2204.08039v1 )

ライセンス: Link先を確認
Hanjie Chen, Guoqing Zheng, Ahmed Hassan Awadallah, Yangfeng Ji(参考訳) 事前訓練された言語モデルを少数の例で適用することは、テキスト分類において有望なパフォーマンスを示しているが、パフォーマンスがどこから来るかは理解できない。 本研究では,モデル予測からのポストホックな説明を用いて適応動作を解釈することで,この問題に対処することを提案する。 特徴統計をモデル化することにより,(1)微調整・事前学習モデル(BERTやRoBERTaなど)がラベル間で強い予測バイアスを示すこと,(2)微調整では予測バイアスが軽減され,予測性能が期待できるが,本分析では,非タスク関連特徴(停止語など)や浅いデータパターン(語彙重なりなど)を捉えることで,モデルの性能向上を示す。 これらの観察は、少ない例でモデル性能を追求することは、病的予測動作を損なう可能性があることを警告し、モデル予測のさらなる健全性チェックと、短時間の微調整におけるモデル評価における注意深い設計を必要とする。

Although adapting pre-trained language models with few examples has shown promising performance on text classification, there is a lack of understanding of where the performance gain comes from. In this work, we propose to answer this question by interpreting the adaptation behavior using post-hoc explanations from model predictions. By modeling feature statistics of explanations, we discover that (1) without fine-tuning, pre-trained models (e.g. BERT and RoBERTa) show strong prediction bias across labels; (2) although few-shot fine-tuning can mitigate the prediction bias and demonstrate promising prediction performance, our analysis shows models gain performance improvement by capturing non-task-related features (e.g. stop words) or shallow data patterns (e.g. lexical overlaps). These observations alert that pursuing model performance with fewer examples may incur pathological prediction behavior, which requires further sanity check on model predictions and careful design in model evaluations in few-shot fine-tuning.
翻訳日:2022-04-19 14:45:48 公開日:2022-04-17
# kpfriends at SemEval-2022 Task 2: NEAMER -- Named Entity Augmented Multi-word Expression Recognizer

kpfriends at SemEval-2022 Task 2: NEAMER -- Named Entity Augmented Multi-word Expression Recognizer ( http://arxiv.org/abs/2204.08102v1 )

ライセンス: Link先を確認
Min Sik Oh(参考訳) NEAMER - Named Entity Augmented Multi-word Expression Recognizerを提案する。 このシステムは、名前付きエンティティと慣用表現の間で共有される非合成特性にインスパイアされている。 転置学習と局所性特徴を活用し,慣用的分類タスクの強化を図る。 本稿では,SemEval Task 2: Multilingual Idiomaticity Detection and Sentence Embedding Subtask A OneShot Share Taskを提案する。 評価後の段階でF1 0.9395でSOTAを実現する。 また,トレーニング安定性の向上も観察した。 最後に,非結合性知識伝達,言語間微調整,局所性特徴を実験し,本論文で紹介する。

We present NEAMER -- Named Entity Augmented Multi-word Expression Recognizer. This system is inspired by non-compositionality characteristics shared between Named Entity and Idiomatic Expressions. We utilize transfer learning and locality features to enhance idiom classification task. This system is our submission for SemEval Task 2: Multilingual Idiomaticity Detection and Sentence Embedding Subtask A OneShot shared task. We achieve SOTA with F1 0.9395 during post-evaluation phase. We also observe improvement in training stability. Lastly, we experiment with non-compositionality knowledge transfer, cross-lingual fine-tuning and locality features, which we also introduce in this paper.
翻訳日:2022-04-19 14:45:26 公開日:2022-04-17
# 深層ニューラルネットワークを用いた創傷重症度分類

Wound Severity Classification using Deep Neural Network ( http://arxiv.org/abs/2204.07942v1 )

ライセンス: Link先を確認
D. M. Anisuzzaman, Yash Patel, Jeffrey Niezgoda, Sandeep Gopalakrishnan, Zeyun Yu(参考訳) 傷の重症度分類は、傷の診断における重要なステップである。 効果的な分類器は、傷の専門職がより迅速かつ安価に傷の症状を分類し、最良の治療法を選択するのに役立つ。 本研究では,創傷写真を用いて深層ニューラルネットワークを用いた創傷重症度分類器を構築し,緑,黄,赤の3種類に分類した。 グリーンクラスは創傷が治癒の初期段階にあることを示しており、適切な治療で回復する可能性が最も高い。 黄色のカテゴリーの傷は、緑カテゴリーのものよりも注意と治療を必要とする。 最後に、レッドクラスは注意と治療を急がなければならない最も重い傷を示す。 創傷専門家の助けを借りて、異なる種類の創傷画像を含むデータセットを設計する。 9つのディープラーニングモデルは、転送学習の概念の適用に使用される。 いくつかの積み重ねモデルもこれらの移行学習モデルを連結して開発されている。 多クラス分類における最大精度は68.49%である。 さらに,二分分類では,緑と黄色,緑と赤,黄色と赤で78.79%,81.40%,77.57%の確率を達成した。

The classification of wound severity is a critical step in wound diagnosis. An effective classifier can help wound professionals categorize wound conditions more quickly and affordably, allowing them to choose the best treatment option. This study used wound photos to construct a deep neural network-based wound severity classifier that classified them into one of three classes: green, yellow, or red. The green class denotes wounds still in the early stages of healing and are most likely to recover with adequate care. Wounds in the yellow category require more attention and treatment than those in the green category. Finally, the red class denotes the most severe wounds that require prompt attention and treatment. A dataset containing different types of wound images is designed with the help of wound specialists. Nine deep learning models are used with applying the concept of transfer learning. Several stacked models are also developed by concatenating these transfer learning models. The maximum accuracy achieved on multi-class classification is 68.49%. In addition, we achieved 78.79%, 81.40%, and 77.57% accuracies on green vs. yellow, green vs. red, and yellow vs. red classifications for binary classifications.
翻訳日:2022-04-19 14:34:36 公開日:2022-04-17
# 深部線形畳み込み変換学習によるmriの高速化

Accelerated MRI With Deep Linear Convolutional Transform Learning ( http://arxiv.org/abs/2204.07923v1 )

ライセンス: Link先を確認
Hongyi Gu, Burhaneddin Yaman, Steen Moeller, Il Yong Chun, Mehmet Ak\c{c}akaya(参考訳) 近年の研究では、深層学習(DL)に基づくMRI再構成は、並列イメージングや圧縮センシング(CS)といった従来の手法よりも複数の用途で優れていることが示されている。 通常、正規化のために事前決定された線形表現で実装されるCSとは異なり、DLは本質的に大きなデータベースから学習した非線形表現を使用する。 別の行では、データから線形表現を学習することで、この2つのアプローチのギャップを埋めるために変換学習(TL)を使用している。 本研究では,CS,TLおよびDL再構成のアイデアを組み合わせて,アルゴリズムアンロールアプローチの一環として,深い線形畳み込み変換を学習する。 提案手法は,従来のCS法とは異なり,一様アンダーサンプリングパターンをサポートしながら,DL法に匹敵するレベルのMR画像を再構成できることを示す。 提案手法は, 線形表現を用いた凸スパース画像再構成に依拠しており, 頑健性, 安定性, 一般化性を特徴付けるのに有用である。

Recent studies show that deep learning (DL) based MRI reconstruction outperforms conventional methods, such as parallel imaging and compressed sensing (CS), in multiple applications. Unlike CS that is typically implemented with pre-determined linear representations for regularization, DL inherently uses a non-linear representation learned from a large database. Another line of work uses transform learning (TL) to bridge the gap between these two approaches by learning linear representations from data. In this work, we combine ideas from CS, TL and DL reconstructions to learn deep linear convolutional transforms as part of an algorithm unrolling approach. Using end-to-end training, our results show that the proposed technique can reconstruct MR images to a level comparable to DL methods, while supporting uniform undersampling patterns unlike conventional CS methods. Our proposed method relies on convex sparse image reconstruction with linear representation at inference time, which may be beneficial for characterizing robustness, stability and generalizability.
翻訳日:2022-04-19 14:32:38 公開日:2022-04-17
# 会話モデルにおける幻覚の起源について:それはデータセットかモデルか?

On the Origin of Hallucinations in Conversational Models: Is it the Datasets or the Models? ( http://arxiv.org/abs/2204.07931v1 )

ライセンス: Link先を確認
Nouha Dziri, Sivan Milton, Mo Yu, Osmar Zaiane, Siva Reddy(参考訳) 知識に基づく会話モデルは、幻覚と呼ばれる現象である事実的に無効な言明の生成に苦しむことが知られている。 本研究では,この現象の根本原因について考察する。幻覚はトレーニングデータによるものか,モデルによるものなのか? 既存の知識基盤の会話ベンチマークといくつかの最先端モデルの両方について、包括的な人間研究を行う。 我々の研究では、標準ベンチマークが60%以上の幻覚反応から成り、幻覚だけでなく、幻覚を増幅するモデルに繋がることが明らかになった。 この結果から,既存のデータセットやモデルの品質に関する重要な疑問が浮かび上がっている。 今後の研究のためにアノテーションを公開します。

Knowledge-grounded conversational models are known to suffer from producing factually invalid statements, a phenomenon commonly called hallucination. In this work, we investigate the underlying causes of this phenomenon: is hallucination due to the training data, or to the models? We conduct a comprehensive human study on both existing knowledge-grounded conversational benchmarks and several state-of-the-art models. Our study reveals that the standard benchmarks consist of >60% hallucinated responses, leading to models that not only hallucinate but even amplify hallucinations. Our findings raise important questions on the quality of existing datasets and models trained using them. We make our annotations publicly available for future research.
翻訳日:2022-04-19 14:28:57 公開日:2022-04-17
# recommend-reviseは信頼できるアノテーションを生成するか? DocREDにおける欠落事例の分析

Does Recommend-Revise Produce Reliable Annotations? An Analysis on Missing Instances in DocRED ( http://arxiv.org/abs/2204.07980v1 )

ライセンス: Link先を確認
Quzhe Huang, Shibo Hao, Yuan Ye, Shengqi Zhu, Yansong Feng, Dongyan Zhao(参考訳) DocREDはドキュメントレベルの関係抽出に広く使われているデータセットである。 大規模なアノテーションでは、ワークロードを減らすために \textit{recommend-revise}スキームが採用されている。 このスキームでは、アノテータには遠方の監督からの候補関係インスタンスが提供され、その推奨に基づいて、手動で関係事実を補足し削除する。 しかし、scratch relabeled と docred を比較すると、このスキームはかなりの量の偽陰性のサンプルをもたらし、人気のあるエンティティや関係に対する明らかなバイアスをもたらすことが分かる。 さらに、DocREDでトレーニングされたモデルは、当社のラベル付きデータセットを低リコールし、トレーニングデータで同じバイアスを継承する。 アノテーションの振る舞いの分析を通じて、上記の問題の根本的な原因を解明する: このスキームは、実際にアノテーションがリビジョンフェーズで適切なインスタンスを補完することを妨げている。 我々は,新しいモデルとアノテーションスキームを設計する際の推奨・修正スキームの問題点を考慮し,今後の研究に目を向ける。 relabeledデータセットは \url{https://github.com/AndrewZhe/Revisit-DocRED} でリリースされ、ドキュメント REモデルのより信頼性の高いテストセットとして機能する。

DocRED is a widely used dataset for document-level relation extraction. In the large-scale annotation, a \textit{recommend-revise} scheme is adopted to reduce the workload. Within this scheme, annotators are provided with candidate relation instances from distant supervision, and they then manually supplement and remove relational facts based on the recommendations. However, when comparing DocRED with a subset relabeled from scratch, we find that this scheme results in a considerable amount of false negative samples and an obvious bias towards popular entities and relations. Furthermore, we observe that the models trained on DocRED have low recall on our relabeled dataset and inherit the same bias in the training data. Through the analysis of annotators' behaviors, we figure out the underlying reason for the problems above: the scheme actually discourages annotators from supplementing adequate instances in the revision phase. We appeal to future research to take into consideration the issues with the recommend-revise scheme when designing new models and annotation schemes. The relabeled dataset is released at \url{https://github.com/AndrewZhe/Revisit-DocRED}, to serve as a more reliable test set of document RE models.
翻訳日:2022-04-19 14:28:45 公開日:2022-04-17
# 自己認識型フェデレーション学習

Self-Aware Personalized Federated Learning ( http://arxiv.org/abs/2204.08069v1 )

ライセンス: Link先を確認
Huili Chen, Jie Ding, Eric Tramel, Shuang Wu, Anit Kumar Sahu, Salman Avestimehr, Tao Zhang(参考訳) パーソナライズド・フェデレーション・ラーニング(FL)の文脈では、個人とグローバルの目的が正確に一致していない場合、局所的なモデル改善とグローバルなモデルチューニングのバランスをとることが重要な課題である。 ベイズ階層モデルに着想を得て,各クライアントが自在の個人モデルのトレーニングと,他のクライアントのトレーニングに暗黙的に寄与するグローバルモデルのバランスを取ることができる,自己認識型パーソナライズfl手法を開発した。 このようなバランスは、クライアント間およびクライアント内不確実性定量化から導かれる。 クライアント間の変動が大きくなると、パーソナライズがさらに必要になる。 また,本手法では,従来の局所微調整法とサンプルサイズに基づく集計法の代わりに,不確実性駆動型局所訓練法と集約法を用いる。 提案手法は,合成データ,amazon alexaオーディオデータ,mnist,femnist,cifar10,send140などの公開データセットについて実験的に検討した結果,既存のデータに比べて個人化性能が大幅に向上することが示された。

In the context of personalized federated learning (FL), the critical challenge is to balance local model improvement and global model tuning when the personal and global objectives may not be exactly aligned. Inspired by Bayesian hierarchical models, we develop a self-aware personalized FL method where each client can automatically balance the training of its local personal model and the global model that implicitly contributes to other clients' training. Such a balance is derived from the inter-client and intra-client uncertainty quantification. A larger inter-client variation implies more personalization is needed. Correspondingly, our method uses uncertainty-driven local training steps and aggregation rule instead of conventional local fine-tuning and sample size-based aggregation. With experimental studies on synthetic data, Amazon Alexa audio data, and public datasets such as MNIST, FEMNIST, CIFAR10, and Sent140, we show that our proposed method can achieve significantly improved personalization performance compared with the existing counterparts.
翻訳日:2022-04-19 14:08:20 公開日:2022-04-17
# マルチモーダルアスペクトに基づく感性分析のためのビジョンランゲージ事前学習

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2204.07955v1 )

ライセンス: Link先を確認
Yan Ling, Jianfei yu, Rui Xia(参考訳) 近年,感情分析における重要な課題として,マルチモーダル・アスペクトベース感性分析(MABSA)が注目されている。 しかし 前回のアプローチは (i)クロスモーダルアライメントを無視する、別々に事前学習された視覚及びテキストモデルを使用する。 (II) 一般的な事前学習タスクで事前訓練された視覚言語モデルを用いて, 微粒な側面, 意見, 微粒なアライメントの同定に不適である。 これらの制約に対処するため,MABSA(VLPMABSA)のためのタスク固有のビジョンランゲージ事前学習フレームワークを提案する。 さらに,言語,視覚,マルチモーダルモダリティからタスク固有のプリトレーニングタスクを3種類設計した。 実験結果から,本手法は3つのMABSAサブタスクに対する最先端アプローチよりも優れていた。 さらなる分析は、各事前学習タスクの有効性を示す。 ソースコードはhttps://github.com/NUSTM/VLP-MABSAで公開されている。

As an important task in sentiment analysis, Multimodal Aspect-Based Sentiment Analysis (MABSA) has attracted increasing attention in recent years. However, previous approaches either (i) use separately pre-trained visual and textual models, which ignore the crossmodal alignment or (ii) use vision-language models pre-trained with general pre-training tasks, which are inadequate to identify finegrained aspects, opinions, and their alignments across modalities. To tackle these limitations, we propose a task-specific Vision-Language Pre-training framework for MABSA (VLPMABSA), which is a unified multimodal encoder-decoder architecture for all the pretraining and downstream tasks. We further design three types of task-specific pre-training tasks from the language, vision, and multimodal modalities, respectively. Experimental results show that our approach generally outperforms the state-of-the-art approaches on three MABSA subtasks. Further analysis demonstrates the effectiveness of each pretraining task. The source code is publicly released at https://github.com/NUSTM/VLP-MABSA.
翻訳日:2022-04-19 14:04:24 公開日:2022-04-17
# stylet2f: stylegan2を用いたテキスト記述からの人顔生成

StyleT2F: Generating Human Faces from Textual Description Using StyleGAN2 ( http://arxiv.org/abs/2204.07924v1 )

ライセンス: Link先を確認
Mohamed Shawky Sabae, Mohamed Ahmed Dardir, Remonda Talaat Eskarous, Mohamed Ramzy Ebbed(参考訳) aiによる画像生成は近年大幅に改善されている。 StyleGANと同様、GAN(Generative Adversarial Network)は高品質なリアルなデータを生成でき、出力を芸術的に制御できる。 本研究では,テキスト記述から詳細な人間の顔を生成するために,テキストを用いてStyleGAN2の出力を制御するStyleT2Fを提案する。 styleganの潜在空間を利用して、さまざまな顔特徴を操作し、入力テキストに言及されている顔特徴を埋め込んだ、必要な潜在コードを条件付きでサンプリングする。 提案手法は,必要な特徴を正しくキャプチャし,入力テキストと出力画像との整合性を示す。 さらに,人間の顔を十分に記述した幅広い顔の特徴を操作できることを保証した。

AI-driven image generation has improved significantly in recent years. Generative adversarial networks (GANs), like StyleGAN, are able to generate high-quality realistic data and have artistic control over the output, as well. In this work, we present StyleT2F, a method of controlling the output of StyleGAN2 using text, in order to be able to generate a detailed human face from textual description. We utilize StyleGAN's latent space to manipulate different facial features and conditionally sample the required latent code, which embeds the facial features mentioned in the input text. Our method proves to capture the required features correctly and shows consistency between the input text and the output images. Moreover, our method guarantees disentanglement on manipulating a wide range of facial features that sufficiently describes a human face.
翻訳日:2022-04-19 14:03:10 公開日:2022-04-17
# NICO++: ドメインの一般化のためのベンチマークの改善を目指す

NICO++: Towards Better Benchmarking for Domain Generalization ( http://arxiv.org/abs/2204.08040v1 )

ライセンス: Link先を確認
Xingxuan Zhang, Linjun Zhou, Renzhe Xu, Peng Cui, Zheyan Shen, Haoxin Liu(参考訳) 現代のディープニューラルネットワークが独立かつ同一に分散した(I.I.D.)データで達成した顕著な性能にもかかわらず、それらは分散シフトの下でクラッシュする可能性がある。 ドメイン一般化(DG)に関する現在の評価手法の多くは、限られたドメイン数に対する妥協として、Left-one-out戦略を採用している。 NICO++{\ddag} というラベル付きドメインを持つ大規模ベンチマークと、より合理的なDGアルゴリズムの評価手法を提案する。 DGデータセットを評価するために,共変量シフトと概念シフトを定量化する2つの指標を提案する。 データ構築の観点からの2つの新しい一般化境界は、限定された概念シフトと重要な共変量シフトが一般化の評価能力を好むことを示すために提案されている。 NICO++は広範な実験を通じて、現在のDGデータセットと比較して優れた評価能力を示し、モデル選択におけるオラクル知識の漏洩による不公平さを軽減することに寄与している。

Despite the remarkable performance that modern deep neural networks have achieved on independent and identically distributed (I.I.D.) data, they can crash under distribution shifts. Most current evaluation methods for domain generalization (DG) adopt the leave-one-out strategy as a compromise on the limited number of domains. We propose a large-scale benchmark with extensive labeled domains named NICO++{\ddag} along with more rational evaluation methods for comprehensively evaluating DG algorithms. To evaluate DG datasets, we propose two metrics to quantify covariate shift and concept shift, respectively. Two novel generalization bounds from the perspective of data construction are proposed to prove that limited concept shift and significant covariate shift favor the evaluation capability for generalization. Through extensive experiments, NICO++ shows its superior evaluation capability compared with current DG datasets and its contribution in alleviating unfairness caused by the leak of oracle knowledge in model selection.
翻訳日:2022-04-19 14:02:34 公開日:2022-04-17
# MUGEN:ビデオ音声によるマルチモーダル理解とジェネレーションのためのプレイグラウンド

MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and GENeration ( http://arxiv.org/abs/2204.08058v1 )

ライセンス: Link先を確認
Thomas Hayes, Songyang Zhang, Xi Yin, Guan Pang, Sasha Sheng, Harry Yang, Songwei Ge, Isabelle Hu, and Devi Parikh(参考訳) マルチモーダルなビデオオーディオテキスト理解と生成は、狭いがリッチなデータセットの恩恵を受けることができる。 この狭さは、研究コミュニティが前進できる小さな挑戦を可能にします。 豊かさは、コア課題に沿って前進することを保証する。 そこで我々は,オープンソースのプラットフォームゲームCoinRun [11]を用いて収集した大規模ビデオオーディオテキストデータセットMUGENを提案する。 音声を導入し,新たなインタラクションを実現することで,ゲームをよりリッチにするための大幅な修正を行った。 我々はRLエージェントを異なる目的で訓練し、ゲームをナビゲートし、13のオブジェクトやキャラクタと対話した。 これにより、さまざまなビデオと関連するオーディオの大規模なコレクションを自動的に抽出できます。 375Kビデオクリップ(それぞれ3.2秒)をサンプリングし、人間のアノテーションからテキスト記述を収集する。 各ビデオには、各フレームの正確なセマンティックマップやテンプレート化されたテキスト記述など、ゲームエンジンから自動的に抽出されるアノテーションが追加されている。 総じて、mugenはマルチモーダル理解と生成における多くのタスクの進捗研究に役立つ。 我々は,映像音声の検索と生成に関わるタスクに対する代表的アプローチをベンチマークする。 私たちのデータセットとコードは、https://mugen-org.github.io/でリリースされます。

Multimodal video-audio-text understanding and generation can benefit from datasets that are narrow but rich. The narrowness allows bite-sized challenges that the research community can make progress on. The richness ensures we are making progress along the core challenges. To this end, we present a large-scale video-audio-text dataset MUGEN, collected using the open-sourced platform game CoinRun [11]. We made substantial modifications to make the game richer by introducing audio and enabling new interactions. We trained RL agents with different objectives to navigate the game and interact with 13 objects and characters. This allows us to automatically extract a large collection of diverse videos and associated audio. We sample 375K video clips (3.2s each) and collect text descriptions from human annotators. Each video has additional annotations that are extracted automatically from the game engine, such as accurate semantic maps for each frame and templated textual descriptions. Altogether, MUGEN can help progress research in many tasks in multimodal understanding and generation. We benchmark representative approaches on tasks involving video-audio-text retrieval and generation. Our dataset and code are released at: https://mugen-org.github.io/.
翻訳日:2022-04-19 13:29:55 公開日:2022-04-17
# 拡張可能・効率的・効果的なトランス型オブジェクト検出器

An Extendable, Efficient and Effective Transformer-based Object Detector ( http://arxiv.org/abs/2204.07962v1 )

ライセンス: Link先を確認
Hwanjun Song, Deqing Sun, Sanghyuk Chun, Varun Jampani, Dongyoon Han, Byeongho Heo, Wonjae Kim, Ming-Hsuan Yang(参考訳) トランスフォーマーは多くの視覚問題、特に視覚認識や検出に広く用いられている。 検出トランスフォーマーは物体検出のための最初のエンドツーエンド学習システムであり、視覚トランスフォーマーは画像分類のための最初の完全トランスフォーマーベースのアーキテクチャである。 本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。 vidtは再構成されたアテンションモジュールを導入して、最近のswainトランスをスタンドアロンオブジェクト検出器に拡張し、さらにマルチスケール機能や補助技術を活用した計算効率の高いトランスフォーマデコーダを導入し、計算負荷を大きく増加させることなく検出性能を向上させる。 さらに、オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。 具体的には,効率的なマルチスケール機能融合層を付加し,さらに2つの補助訓練損失,iouアウェア損失とトークンラベリング損失を利用する。 Microsoft COCOベンチマークデータセットの大規模な評価結果は、ViDTが既存の完全トランスフォーマーベースのオブジェクト検出器の中で最高のAPとレイテンシのトレードオフを得ることを示した。 ソースコードとトレーニングされたモデルはhttps://github.com/naver-ai/vidt.comで入手できる。

Transformers have been widely used in numerous vision problems especially for visual recognition and detection. Detection transformers are the first fully end-to-end learning systems for object detection, while vision transformers are the first fully transformer-based architecture for image classification. In this paper, we integrate Vision and Detection Transformers (ViDT) to construct an effective and efficient object detector. ViDT introduces a reconfigured attention module to extend the recent Swin Transformer to be a standalone object detector, followed by a computationally efficient transformer decoder that exploits multi-scale features and auxiliary techniques essential to boost the detection performance without much increase in computational load. In addition, we extend it to ViDT+ to support joint-task learning for object detection and instance segmentation. Specifically, we attach an efficient multi-scale feature fusion layer and utilize two more auxiliary training losses, IoU-aware loss and token labeling loss. Extensive evaluation results on the Microsoft COCO benchmark dataset demonstrate that ViDT obtains the best AP and latency trade-off among existing fully transformer-based object detectors, and its extended ViDT+ achieves 53.2AP owing to its high scalability for large models. The source code and trained models are available at https://github.com/naver-ai/vidt.
翻訳日:2022-04-19 13:03:03 公開日:2022-04-17
# 効果的な低ショット一般化のための学習構成表現

Learning Compositional Representations for Effective Low-Shot Generalization ( http://arxiv.org/abs/2204.08090v1 )

ライセンス: Link先を確認
Samarth Mishra, Pengkai Zhu, Venkatesh Saligrama(参考訳) 本稿では,人間の認識に触発された画像符号化手法である認識 as part composition (rpc)を提案する。 これは、人間が複雑な物体を構成要素で認識し、各インスタンスを表現するための小さなコンパクトな概念語彙を構築するという認知理論に基づいている。 RPCは、画像をまずそれらを正常な部分に分解し、次に各部分を少数のプロトタイプの混合体としてエンコードし、それぞれが特定の概念を表す。 人間の認知にインスパイアされたこの種の学習は、ゼロショット学習、少数ショット学習、教師なしドメイン適応のような低ショットの一般化タスクにおいて、深層畳み込みネットワークが直面するハードルを克服することができる。 さらに, RPCイメージエンコーダを用いた分類器は, 敵攻撃に対してかなり頑健であり, ディープニューラルネットワークが困難であることが知られている。 画像エンコーディングの原理が人間の認知に基づいていることを考えれば、そのエンコーディングは人間によって解釈されることが期待できる。 最後に,新しいデータセット上でのゼロショット学習法を評価するために,合成属性アノテーションの生成という形で,これらの解釈可能なエンコーディングの応用を提案する。

We propose Recognition as Part Composition (RPC), an image encoding approach inspired by human cognition. It is based on the cognitive theory that humans recognize complex objects by components, and that they build a small compact vocabulary of concepts to represent each instance with. RPC encodes images by first decomposing them into salient parts, and then encoding each part as a mixture of a small number of prototypes, each representing a certain concept. We find that this type of learning inspired by human cognition can overcome hurdles faced by deep convolutional networks in low-shot generalization tasks, like zero-shot learning, few-shot learning and unsupervised domain adaptation. Furthermore, we find a classifier using an RPC image encoder is fairly robust to adversarial attacks, that deep neural networks are known to be prone to. Given that our image encoding principle is based on human cognition, one would expect the encodings to be interpretable by humans, which we find to be the case via crowd-sourcing experiments. Finally, we propose an application of these interpretable encodings in the form of generating synthetic attribute annotations for evaluating zero-shot learning methods on new datasets.
翻訳日:2022-04-19 13:02:33 公開日:2022-04-17
# インタラクションによる新しいオブジェクトクラス検出のための爆発的身体シミュレーション

Exploiting Embodied Simulation to Detect Novel Object Classes Through Interaction ( http://arxiv.org/abs/2204.08107v1 )

ライセンス: Link先を確認
Nikhil Krishnaswamy, Sadaf Ghaffari(参考訳) 本稿では,相互作用中に遭遇する新しい物体を検出するためのナイーブエージェントの新規な手法を提案する。 我々は、既知のオブジェクトタイプが与えられた積み重ねタスクに対して強化学習ポリシーを訓練し、同じ訓練されたポリシーに基づいて様々なオブジェクトを積み重ねようとするエージェントの結果を観察します。 上記の積み重ね遊びの結果から訓練された畳み込みニューラルネットワークから埋め込みベクトルを抽出することにより、与えられたオブジェクトの既知のオブジェクトタイプとの類似性を判断し、与えられたオブジェクトが既知の型と十分に似ていないかどうかを判断し、新しいタイプのオブジェクトと見なすことができる。 本手法は,2つの異なるポリシーを用いて収集された2つのデータセットに対して,エージェントが環境からどのような情報を取り出す必要があるかを示す。

In this paper we present a novel method for a naive agent to detect novel objects it encounters in an interaction. We train a reinforcement learning policy on a stacking task given a known object type, and then observe the results of the agent attempting to stack various other objects based on the same trained policy. By extracting embedding vectors from a convolutional neural net trained over the results of the aforementioned stacking play, we can determine the similarity of a given object to known object types, and determine if the given object is likely dissimilar enough to the known types to be considered a novel class of object. We present the results of this method on two datasets gathered using two different policies and demonstrate what information the agent needs to extract from its environment to make these novelty judgments.
翻訳日:2022-04-19 13:02:14 公開日:2022-04-17