論文の概要: BAP v2: An Enhanced Task Framework for Instruction Following in Minecraft Dialogues
- arxiv url: http://arxiv.org/abs/2501.10836v3
- Date: Tue, 23 Sep 2025 18:50:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 16:23:42.111588
- Title: BAP v2: An Enhanced Task Framework for Instruction Following in Minecraft Dialogues
- Title(参考訳): BAP v2:Minecraftダイアログで指示に従うための拡張されたタスクフレームワーク
- Authors: Prashant Jayannavar, Liliang Ren, Marisa Hudspeth, Risham Sidhu, Charlotte Lambert, Ariel Cordes, Elizabeth Kaplan, Anjali Narayan-Chen, Julia Hockenmaier,
- Abstract要約: 我々は、Minecraft Collaborative Building Task(MCBT)におけるビルダーアクション予測(BAP)サブタスクに焦点を当てる。
BAPは、限られたトレーニングデータでマルチモーダルゲームコンテキストにおけるBの動作を予測する。
評価、トレーニングデータ、モデリングにおける重要な課題に対処するために、BAP v2を導入します。
- 参考スコア(独自算出の注目度): 8.606637030092708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing interactive agents that can understand language, perceive their surroundings, and act within the physical world is a long-standing goal of AI research. The Minecraft Collaborative Building Task (MCBT) (Narayan-Chen, Jayannavar, and Hockenmaier 2019), a two-player game in which an Architect (A) instructs a Builder (B) to construct a target structure in a simulated 3D Blocks World environment, offers a rich platform to work towards this goal. In this work, we focus on the Builder Action Prediction (BAP) subtask: predicting B's actions in a multimodal game context (Jayannavar, Narayan-Chen, and Hockenmaier 2020) - a challenging testbed for grounded instruction following, with limited training data. We holistically re-examine this task and introduce BAP v2 to address key challenges in evaluation, training data, and modeling. Specifically, we define an enhanced evaluation benchmark, featuring a cleaner test set and fairer, more insightful metrics that also reveal spatial reasoning as the primary performance bottleneck. To address data scarcity and to teach models basic spatial skills, we generate different types of synthetic MCBT data. We observe that current, LLM-based SOTA models trained on the human BAP dialogues fail on these simpler, synthetic BAP ones, but show that training models on this synthetic data improves their performance across the board. We also introduce a new SOTA model, Llama-CRAFTS, which leverages richer input representations, and achieves an F1 score of 53.0 on the BAP v2 task and strong performance on the synthetic data. While this result marks a notable 6 points improvement over previous work, it also underscores the task's remaining difficulty, establishing BAP v2 as a fertile ground for future research, and providing a useful measure of the spatial capabilities of current text-only LLMs in such embodied tasks.
- Abstract(参考訳): 言語を理解し、周囲を理解し、物理的な世界の中で行動できる対話型エージェントを開発することは、AI研究の長年の目標である。
Minecraft Collaborative Building Task (MCBT) (Narayan-Chen, Jayannavar, Hockenmaier 2019)は、アーキテクト(A)がビルダー(B)にシミュレーションされた3Dブロックワールド環境でターゲット構造を構築するよう指示する2人プレイヤゲームである。
本研究では,マルチモーダルゲームコンテキスト (Jayannavar, Narayan-Chen, Hockenmaier 2020) におけるBの動作予測 (BAP) のサブタスクに着目し, 学習データに制限のある接地型指導のための挑戦的なテストベッドである。
我々は、このタスクを再検討し、評価、トレーニングデータ、モデリングにおける重要な課題に対処するために、BAP v2を導入します。
具体的には、よりクリーンなテストセットと、空間的推論を主要なパフォーマンスボトルネックとして明らかにする、より公平で洞察に富んだメトリクスを特徴とする、強化された評価ベンチマークを定義する。
データ不足に対処し、基本空間スキルをモデルに教えるために、我々は異なる種類の合成MCBTデータを生成する。
ヒトのBAP対話に基づいてトレーニングされた現在のLLMベースのSOTAモデルは、これらの単純で合成されたBAP対話では失敗するが、この合成データに基づくトレーニングモデルは、ボード全体のパフォーマンスを向上させることを示す。
また、よりリッチな入力表現を活用する新しいSOTAモデルであるLlama-CRAFTSを導入し、BAP v2タスクでF1スコアが53.0、合成データで強いパフォーマンスを実現した。
この結果は、従来の作業よりも6ポイント改善されているが、作業の難しさを強調し、将来の研究の場としてBAP v2を確立するとともに、現在のテキストのみのLLMの空間的能力の有用な指標を提供する。
関連論文リスト
- LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。
LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。
本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (2025-06-02T22:36:02Z) - MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models [34.138699712315]
本稿では、四足歩行ロボットのためのロボット専門家(MoRE)の混合であるビジョンアクション(VLA)モデルを提案する。
MoREは、複数の低ランク適応モジュールを、密集したマルチモーダルな大規模言語モデルの中で異なる専門家として統合する。
実験によると、MoREは6つの異なるスキルで全てのベースラインを上回り、アウト・オブ・ディストリビューションシナリオにおいて優れた一般化能力を示す。
論文 参考訳(メタデータ) (2025-03-11T03:13:45Z) - YuLan-Mini: An Open Data-efficient Language Model [111.02822724500552]
2.42Bパラメータを持つ高い能力を持つベースモデルであるYuLan-Miniは、同様のパラメータスケールのモデルで上位層のパフォーマンスを実現する。
注目すべきは、1.08TトークンでトレーニングされたYuLan-Miniは、はるかに多くのデータを必要とする業界主導のモデルに匹敵するパフォーマンスを達成することだ。
論文 参考訳(メタデータ) (2024-12-23T17:47:53Z) - Synthetic Vision: Training Vision-Language Models to Understand Physics [9.474337395173388]
シミュレーションデータを用いて視覚言語モデルの物理的推論能力を向上する2つの手法を提案する。
まず,物理推論タスクに関連するシミュレーションから生成した質問応答ペアを用いて,事前学習したVLMを微調整する。
第2に、物理特性とプロセスに富んだシーン記述を作成するために、物理コンテキストビルダー(PCB)を導入する。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z) - Rethinking Data Synthesis: A Teacher Model Training Recipe with Interpretation [12.736045604858738]
大規模言語モデル(LLM)訓練の最近の進歩は、多種多様な高品質な命令データの必要性を強調している。
データ生成のためのモデルを具体的に訓練する方法を検討することにより、 textbfNOMAD というパラダイムシフトを提案する。
論文 参考訳(メタデータ) (2024-10-27T07:38:39Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - A Backbone for Long-Horizon Robot Task Understanding [8.889888977376886]
Therblig-Based Backbone Framework (TBBF)は、ロボットシステムにおける解釈可能性、データ効率、一般化を強化する構造である。
TBBFは、専門家によるデモンストレーションを利用して、rbligレベルのタスク分解を可能にする。
オフライントレーニングの段階において,正確なソルビグセグメンテーションのためのMeta-RGate SynerFusionネットワークを開発した。
オンラインテストの段階では、新しいタスクのワンショットデモが収集された後、MGSFネットワークは高いレベルの知識を抽出する。
論文 参考訳(メタデータ) (2024-08-02T15:32:42Z) - From Summary to Action: Enhancing Large Language Models for Complex
Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。
このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。
ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-02-28T08:42:23Z) - EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。
本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。
実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (2023-05-24T11:04:30Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [119.70303730341938]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - Reinforcement Learning Friendly Vision-Language Model for Minecraft [31.863271032186038]
クロスモーダルなコントラスト学習フレームワークであるCLIP4MCを提案する。
オープンなタスクに対する本質的な報酬関数として機能する強化学習(RL)フレンドリな視覚言語モデル(VLM)を学習することを目的としている。
提案手法は,ベースラインよりもRLタスクの性能がよいことを示す。
論文 参考訳(メタデータ) (2023-03-19T05:20:52Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。