論文の概要: BAP v2: An Enhanced Task Framework for Instruction Following in Minecraft Dialogues
- arxiv url: http://arxiv.org/abs/2501.10836v1
- Date: Sat, 18 Jan 2025 18:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:25:54.670809
- Title: BAP v2: An Enhanced Task Framework for Instruction Following in Minecraft Dialogues
- Title(参考訳): BAP v2:Minecraftダイアログで指示に従うための拡張されたタスクフレームワーク
- Authors: Prashant Jayannavar, Liliang Ren, Marisa Hudspeth, Charlotte Lambert, Ariel Cordes, Elizabeth Kaplan, Anjali Narayan-Chen, Julia Hockenmaier,
- Abstract要約: Minecraft Collaborative Building Task (MCBT)はこの目標に向けて作業するための設定を提供する。
マルチモーダルゲームコンテキストにおける正しいアクションシーケンスの予測に挑戦するビルダーアクション予測(BAP)サブタスクに注目した。
我々は、BAPタスクの評価とデータについて詳しく検討し、主要な課題を発見し、両方の面で大幅な改善を行い、そのタスクのアップグレード版であるBAP v2を提案する。
- 参考スコア(独自算出の注目度): 7.377606500245465
- License:
- Abstract: Interactive agents capable of understanding and executing instructions in the physical world have long been a central goal in AI research. The Minecraft Collaborative Building Task (MCBT) provides one such setting to work towards this goal (Narayan-Chen, Jayannavar, and Hockenmaier 2019). It is a two-player game in which an Architect (A) instructs a Builder (B) to construct a target structure in a simulated Blocks World Environment. We focus on the challenging Builder Action Prediction (BAP) subtask of predicting correct action sequences in a given multimodal game context with limited training data (Jayannavar, Narayan-Chen, and Hockenmaier 2020). We take a closer look at evaluation and data for the BAP task, discovering key challenges and making significant improvements on both fronts to propose BAP v2, an upgraded version of the task. This will allow future work to make more efficient and meaningful progress on it. It comprises of: (1) an enhanced evaluation benchmark that includes a cleaner test set and fairer, more insightful metrics, and (2) additional synthetic training data generated from novel Minecraft dialogue and target structure simulators emulating the MCBT. We show that the synthetic data can be used to train more performant and robust neural models even with relatively simple training methods. Looking ahead, such data could also be crucial for training more sophisticated, data-hungry deep transformer models and training/fine-tuning increasingly large LLMs. Although modeling is not the primary focus of this work, we also illustrate the impact of our data and training methodologies on a simple LLM- and transformer-based model, thus validating the robustness of our approach, and setting the stage for more advanced architectures and LLMs going forward.
- Abstract(参考訳): 物理世界で命令を理解し実行できる対話型エージェントは、長い間AI研究の中心的な目標であった。
Minecraft Collaborative Building Task (MCBT)は、この目標に向けて作業するための1つの設定を提供する(Narayan-Chen、Jayannavar、Hockenmaier 2019)。
アーキテクト(A)がビルダー(B)にシミュレートされたブロックワールド環境においてターゲット構造を構築するよう指示する2人プレイのゲームである。
本研究では,限られたトレーニングデータ(Jayannavar,Narayan-Chen,Hockenmaier 2020)を用いて,与えられたマルチモーダルゲームコンテキストにおける正しいアクションシーケンスを予測する挑戦的なビルダーアクション予測(BAP)サブタスクに着目した。
我々は、BAPタスクの評価とデータについて詳しく検討し、主要な課題を発見し、両方の面で大幅な改善を行い、そのタスクのアップグレード版であるBAP v2を提案する。
これにより、将来の作業がより効率的で有意義な進捗を可能にする。
1)よりクリーンなテストセットとより公平なメトリクスを含む強化された評価ベンチマーク、(2)新しいMinecraft対話とMCBTをエミュレートするターゲット構造シミュレータから生成された追加の総合的なトレーニングデータを含む。
比較的単純な訓練方法であっても,より高性能で堅牢なニューラルモデルをトレーニングするために,合成データが使用できることを示す。
今後は、より高度でデータに精通したディープトランスフォーマーモデルのトレーニングや、ますます大型化するLLMのトレーニング/微調整にも、このようなデータが不可欠になるかもしれない。
モデリングは,本研究の主要な焦点ではないが,データおよびトレーニング手法がシンプルなLCMおよびトランスフォーマーベースモデルに与える影響も説明し,このアプローチの堅牢性を検証するとともに,より高度なアーキテクチャやLCMのステージを立案する。
関連論文リスト
- YuLan-Mini: An Open Data-efficient Language Model [111.02822724500552]
2.42Bパラメータを持つ高い能力を持つベースモデルであるYuLan-Miniは、同様のパラメータスケールのモデルで上位層のパフォーマンスを実現する。
注目すべきは、1.08TトークンでトレーニングされたYuLan-Miniは、はるかに多くのデータを必要とする業界主導のモデルに匹敵するパフォーマンスを達成することだ。
論文 参考訳(メタデータ) (2024-12-23T17:47:53Z) - Synthetic Vision: Training Vision-Language Models to Understand Physics [9.474337395173388]
シミュレーションデータを用いて視覚言語モデルの物理的推論能力を向上する2つの手法を提案する。
まず,物理推論タスクに関連するシミュレーションから生成した質問応答ペアを用いて,事前学習したVLMを微調整する。
第2に、物理特性とプロセスに富んだシーン記述を作成するために、物理コンテキストビルダー(PCB)を導入する。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z) - Rethinking Data Synthesis: A Teacher Model Training Recipe with Interpretation [12.736045604858738]
大規模言語モデル(LLM)訓練の最近の進歩は、多種多様な高品質な命令データの必要性を強調している。
データ生成のためのモデルを具体的に訓練する方法を検討することにより、 textbfNOMAD というパラダイムシフトを提案する。
論文 参考訳(メタデータ) (2024-10-27T07:38:39Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - From Summary to Action: Enhancing Large Language Models for Complex
Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。
このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。
ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-02-28T08:42:23Z) - EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。
本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。
実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (2023-05-24T11:04:30Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [117.48444197402858]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - CACTI: A Framework for Scalable Multi-Task Multi-Scene Visual Imitation
Learning [33.88636835443266]
キッチン環境におけるマルチタスク・マルチシーンロボット操作のレンズ下でのロボット学習のスケールアップのためのフレームワークを提案する。
CACTIという名前のフレームワークは,データ収集,データ拡張,視覚表現学習,模倣ポリシートレーニングの4つの段階を別々に扱う。
CACTIフレームワークでは、拡張段階の一部として、画像生成に最先端モデルを適用する利点を強調している。
論文 参考訳(メタデータ) (2022-12-12T05:30:08Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。