論文の概要: DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial
Training
- arxiv url: http://arxiv.org/abs/2311.06855v1
- Date: Sun, 12 Nov 2023 14:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 16:27:56.241086
- Title: DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial
Training
- Title(参考訳): DialMAT:モーメントベース対向訓練による対話型変換器
- Authors: Kanta Kaneda, Ryosuke Korekata, Yuiga Wada, Shunya Nagashima, Motonari
Kambara, Yui Iioka, Haruka Matsuo, Yuto Imai, Takayuki Nishimura, Komei
Sugiura
- Abstract要約: 本稿では、エージェントがタスクについて積極的に質問できる設定において、後続の命令を具体化するタスクであるDialFREDタスクに焦点を当てる。
本稿では,言語,画像,行動の潜在空間に対向的摂動を組み込んだDialMATを提案する。
このモデルは、CVPR 2023 Embodied AIワークショップで行われたDialFRED Challengeでトップの地位を確保した。
- 参考スコア(独自算出の注目度): 1.5478632117921842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on the DialFRED task, which is the task of embodied
instruction following in a setting where an agent can actively ask questions
about the task. To address this task, we propose DialMAT. DialMAT introduces
Moment-based Adversarial Training, which incorporates adversarial perturbations
into the latent space of language, image, and action. Additionally, it
introduces a crossmodal parallel feature extraction mechanism that applies
foundation models to both language and image. We evaluated our model using a
dataset constructed from the DialFRED dataset and demonstrated superior
performance compared to the baseline method in terms of success rate and path
weighted success rate. The model secured the top position in the DialFRED
Challenge, which took place at the CVPR 2023 Embodied AI workshop.
- Abstract(参考訳): 本稿では,エージェントがそのタスクについて積極的に質問できる設定において,その指示に従うタスクであるダイヤルフレードタスクに注目した。
この課題に対処するため,DialMATを提案する。
dialmatは、言語、画像、アクションの潜在空間に敵の摂動を組み込んだモーメントベースの敵意トレーニングを導入する。
さらに、言語と画像の両方に基礎モデルを適用するクロスモーダル並列特徴抽出機構も導入している。
dialfredデータセットから構築したデータセットを用いて評価を行い、成功率とパス重み付け成功率の点で、ベースライン法と比較して優れた性能を示した。
このモデルは、CVPR 2023 Embodied AIワークショップで行われたDialFRED Challengeでトップの地位を確保した。
関連論文リスト
- P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task [94.08478298711789]
Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。
自然言語命令は明示的なタスクプランニングを欠くことが多い。
タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
論文 参考訳(メタデータ) (2024-09-17T15:29:34Z) - Narrative Action Evaluation with Prompt-Guided Multimodal Interaction [60.281405999483]
ナラティブ・アクション・アセスメント(NAE)は、行動の実行を評価する専門家のコメントを作成することを目的としている。
NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。
本稿では,様々な情報モダリティ間のインタラクションを容易にするための,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T17:55:07Z) - Temporal and Semantic Evaluation Metrics for Foundation Models in Post-Hoc Analysis of Robotic Sub-tasks [1.8124328823188356]
本稿では,トラジェクトリデータを時間的境界と自然言語に基づく記述サブタスクに分解するフレームワークを提案する。
我々のフレームワークは、全軌道を構成する低レベルのサブタスクに対して、時間ベースの記述と言語ベースの記述の両方を提供する。
この尺度は2つのサブタスク分解の間の言語記述の時間的アライメントと意味的忠実度を測定する。
論文 参考訳(メタデータ) (2024-03-25T22:39:20Z) - Learning-To-Rank Approach for Identifying Everyday Objects Using a
Physical-World Search Engine [0.8749675983608172]
我々は,オープン語彙のユーザ命令から対象オブジェクトをループで検索する作業に焦点をあてる。
本稿では,学習からランクの物理オブジェクトタスクのための新しいアプローチであるMultiRankItを提案する。
論文 参考訳(メタデータ) (2023-12-26T01:40:31Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Multitask Multimodal Prompted Training for Interactive Embodied Task
Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。
すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文 参考訳(メタデータ) (2023-11-07T15:27:52Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文 参考訳(メタデータ) (2022-01-18T01:13:19Z) - Severing the Edge Between Before and After: Neural Architectures for
Temporal Ordering of Events [41.35277143634441]
本稿では,時間的関係を予測してイベントを順序付けするためのニューラルネットワークと一連のトレーニング手法を提案する。
このタスクにおける重要な課題は、アノテーション付きデータの不足であることを考えると、当社のモデルは事前訓練された表現や転送、マルチタスク学習のいずれかに依存しています。
英語文書のMATRESデータセットの実験は、このタスクに新たな最先端技術を確立する。
論文 参考訳(メタデータ) (2020-04-08T23:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。