Fugu-MT 論文翻訳(概要): DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial Training

論文の概要: DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial Training

arxiv url: http://arxiv.org/abs/2311.06855v1
Date: Sun, 12 Nov 2023 14:12:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 16:27:56.241086
Title: DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial Training
Title（参考訳）: DialMAT:モーメントベース対向訓練による対話型変換器
Authors: Kanta Kaneda, Ryosuke Korekata, Yuiga Wada, Shunya Nagashima, Motonari Kambara, Yui Iioka, Haruka Matsuo, Yuto Imai, Takayuki Nishimura, Komei Sugiura
Abstract要約: 本稿では、エージェントがタスクについて積極的に質問できる設定において、後続の命令を具体化するタスクであるDialFREDタスクに焦点を当てる。本稿では,言語,画像,行動の潜在空間に対向的摂動を組み込んだDialMATを提案する。このモデルは、CVPR 2023 Embodied AIワークショップで行われたDialFRED Challengeでトップの地位を確保した。
参考スコア（独自算出の注目度）: 1.5478632117921842
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper focuses on the DialFRED task, which is the task of embodied instruction following in a setting where an agent can actively ask questions about the task. To address this task, we propose DialMAT. DialMAT introduces Moment-based Adversarial Training, which incorporates adversarial perturbations into the latent space of language, image, and action. Additionally, it introduces a crossmodal parallel feature extraction mechanism that applies foundation models to both language and image. We evaluated our model using a dataset constructed from the DialFRED dataset and demonstrated superior performance compared to the baseline method in terms of success rate and path weighted success rate. The model secured the top position in the DialFRED Challenge, which took place at the CVPR 2023 Embodied AI workshop.
Abstract（参考訳）: 本稿では,エージェントがそのタスクについて積極的に質問できる設定において,その指示に従うタスクであるダイヤルフレードタスクに注目した。この課題に対処するため,DialMATを提案する。 dialmatは、言語、画像、アクションの潜在空間に敵の摂動を組み込んだモーメントベースの敵意トレーニングを導入する。さらに、言語と画像の両方に基礎モデルを適用するクロスモーダル並列特徴抽出機構も導入している。 dialfredデータセットから構築したデータセットを用いて評価を行い、成功率とパス重み付け成功率の点で、ベースライン法と比較して優れた性能を示した。このモデルは、CVPR 2023 Embodied AIワークショップで行われたDialFRED Challengeでトップの地位を確保した。

関連論文リスト

Enhancing Cross-task Transfer of Large Language Models via Activation Steering [75.41750053623298]
クロスタスク・イン・コンテキスト学習はタスク間で知識を伝達する直接的なソリューションを提供する。パラメータ更新や入力拡張を伴わずに、潜時空間ステアリングによりクロスタスク転送を実現することができるかを検討する。本稿では,モデルの内部アクティベーション状態を操作することで,効率的な転送を可能にするクロスタスク・アクティベーション・ステアリング・トランスファー・フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-17T15:47:22Z)
Exploiting Task Relationships for Continual Learning Using Transferability-Aware Task Embeddings [8.814732457885022]
連続学習(CL)は、現代のディープニューラルネットワークアプリケーションにおいて重要なトピックである。本稿では、H埋め込みと呼ばれるトランスファービリティを考慮したタスク埋め込みを提案し、そのガイダンスに基づいてハイパーネットフレームワークを構築する。
論文参考訳（メタデータ） (2025-02-17T09:52:19Z)
P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task [94.08478298711789]
Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。自然言語命令は明示的なタスクプランニングを欠くことが多い。タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
論文参考訳（メタデータ） (2024-09-17T15:29:34Z)
Narrative Action Evaluation with Prompt-Guided Multimodal Interaction [60.281405999483]
ナラティブ・アクション・アセスメント(NAE)は、行動の実行を評価する専門家のコメントを作成することを目的としている。 NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。本稿では,様々な情報モダリティ間のインタラクションを容易にするための,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-22T17:55:07Z)
Temporal and Semantic Evaluation Metrics for Foundation Models in Post-Hoc Analysis of Robotic Sub-tasks [1.8124328823188356]
本稿では,トラジェクトリデータを時間的境界と自然言語に基づく記述サブタスクに分解するフレームワークを提案する。我々のフレームワークは、全軌道を構成する低レベルのサブタスクに対して、時間ベースの記述と言語ベースの記述の両方を提供する。この尺度は2つのサブタスク分解の間の言語記述の時間的アライメントと意味的忠実度を測定する。
論文参考訳（メタデータ） (2024-03-25T22:39:20Z)
Learning-To-Rank Approach for Identifying Everyday Objects Using a Physical-World Search Engine [0.8749675983608172]
我々は,オープン語彙のユーザ命令から対象オブジェクトをループで検索する作業に焦点をあてる。本稿では,学習からランクの物理オブジェクトタスクのための新しいアプローチであるMultiRankItを提案する。
論文参考訳（メタデータ） (2023-12-26T01:40:31Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Multitask Multimodal Prompted Training for Interactive Embodied Task Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文参考訳（メタデータ） (2023-11-07T15:27:52Z)
BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文参考訳（メタデータ） (2022-07-09T07:14:44Z)
Fast Inference and Transfer of Compositional Task Structures for Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文参考訳（メタデータ） (2022-05-25T10:44:25Z)
Unpaired Referring Expression Grounding via Bidirectional Cross-Modal Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文参考訳（メタデータ） (2022-01-18T01:13:19Z)
Severing the Edge Between Before and After: Neural Architectures for Temporal Ordering of Events [41.35277143634441]
本稿では,時間的関係を予測してイベントを順序付けするためのニューラルネットワークと一連のトレーニング手法を提案する。このタスクにおける重要な課題は、アノテーション付きデータの不足であることを考えると、当社のモデルは事前訓練された表現や転送、マルチタスク学習のいずれかに依存しています。英語文書のMATRESデータセットの実験は、このタスクに新たな最先端技術を確立する。
論文参考訳（メタデータ） (2020-04-08T23:17:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。