論文の概要: DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial
Training
- arxiv url: http://arxiv.org/abs/2311.06855v1
- Date: Sun, 12 Nov 2023 14:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 16:27:56.241086
- Title: DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial
Training
- Title(参考訳): DialMAT:モーメントベース対向訓練による対話型変換器
- Authors: Kanta Kaneda, Ryosuke Korekata, Yuiga Wada, Shunya Nagashima, Motonari
Kambara, Yui Iioka, Haruka Matsuo, Yuto Imai, Takayuki Nishimura, Komei
Sugiura
- Abstract要約: 本稿では、エージェントがタスクについて積極的に質問できる設定において、後続の命令を具体化するタスクであるDialFREDタスクに焦点を当てる。
本稿では,言語,画像,行動の潜在空間に対向的摂動を組み込んだDialMATを提案する。
このモデルは、CVPR 2023 Embodied AIワークショップで行われたDialFRED Challengeでトップの地位を確保した。
- 参考スコア(独自算出の注目度): 1.5478632117921842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on the DialFRED task, which is the task of embodied
instruction following in a setting where an agent can actively ask questions
about the task. To address this task, we propose DialMAT. DialMAT introduces
Moment-based Adversarial Training, which incorporates adversarial perturbations
into the latent space of language, image, and action. Additionally, it
introduces a crossmodal parallel feature extraction mechanism that applies
foundation models to both language and image. We evaluated our model using a
dataset constructed from the DialFRED dataset and demonstrated superior
performance compared to the baseline method in terms of success rate and path
weighted success rate. The model secured the top position in the DialFRED
Challenge, which took place at the CVPR 2023 Embodied AI workshop.
- Abstract(参考訳): 本稿では,エージェントがそのタスクについて積極的に質問できる設定において,その指示に従うタスクであるダイヤルフレードタスクに注目した。
この課題に対処するため,DialMATを提案する。
dialmatは、言語、画像、アクションの潜在空間に敵の摂動を組み込んだモーメントベースの敵意トレーニングを導入する。
さらに、言語と画像の両方に基礎モデルを適用するクロスモーダル並列特徴抽出機構も導入している。
dialfredデータセットから構築したデータセットを用いて評価を行い、成功率とパス重み付け成功率の点で、ベースライン法と比較して優れた性能を示した。
このモデルは、CVPR 2023 Embodied AIワークショップで行われたDialFRED Challengeでトップの地位を確保した。
関連論文リスト
- TA&AT: Enhancing Task-Oriented Dialog with Turn-Level Auxiliary Tasks
and Action-Tree Based Scheduled Sampling [16.77137239284608]
タスク指向対話システムは,対話型事前学習技術によって大きく進歩している。
エンコーダのターンレベルマルチタスク目的を提案する。
デコーダに対しては,アクションツリーに基づくスケジュールサンプリング手法を導入する。
論文 参考訳(メタデータ) (2024-01-28T11:02:23Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Learning-To-Rank Approach for Identifying Everyday Objects Using a
Physical-World Search Engine [0.8749675983608172]
我々は,オープン語彙のユーザ命令から対象オブジェクトをループで検索する作業に焦点をあてる。
本稿では,学習からランクの物理オブジェクトタスクのための新しいアプローチであるMultiRankItを提案する。
論文 参考訳(メタデータ) (2023-12-26T01:40:31Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Multitask Multimodal Prompted Training for Interactive Embodied Task
Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。
すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文 参考訳(メタデータ) (2023-11-07T15:27:52Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - OCHADAI at SemEval-2022 Task 2: Adversarial Training for Multilingual
Idiomaticity Detection [4.111899441919165]
文が慣用的表現を含むか否かを判定する多言語逆行訓練モデルを提案する。
我々のモデルは、異なる多言語変換言語モデルからの事前学習された文脈表現に依存している。
論文 参考訳(メタデータ) (2022-06-07T05:52:43Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文 参考訳(メタデータ) (2022-01-18T01:13:19Z) - Severing the Edge Between Before and After: Neural Architectures for
Temporal Ordering of Events [41.35277143634441]
本稿では,時間的関係を予測してイベントを順序付けするためのニューラルネットワークと一連のトレーニング手法を提案する。
このタスクにおける重要な課題は、アノテーション付きデータの不足であることを考えると、当社のモデルは事前訓練された表現や転送、マルチタスク学習のいずれかに依存しています。
英語文書のMATRESデータセットの実験は、このタスクに新たな最先端技術を確立する。
論文 参考訳(メタデータ) (2020-04-08T23:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。