論文の概要: CrafText Benchmark: Advancing Instruction Following in Complex Multimodal Open-Ended World
- arxiv url: http://arxiv.org/abs/2505.11962v1
- Date: Sat, 17 May 2025 11:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.960962
- Title: CrafText Benchmark: Advancing Instruction Following in Complex Multimodal Open-Ended World
- Title(参考訳): CrafTextベンチマーク: 複雑なマルチモーダルなオープンエンドの世界におけるインストラクションの促進
- Authors: Zoya Volovikova, Gregory Gorbov, Petr Kuderov, Aleksandr I. Panov, Alexey Skrynnik,
- Abstract要約: 多様なインストラクションと動的インタラクションを備えたマルチモーダル環境における命令追従評価ベンチマークであるCrafTextを紹介する。
CrafTextには3,924の命令と3,423のユニークな単語が含まれており、ローカライゼーション、条件付きビルディング、達成タスクをカバーしている。
本稿では,エージェントが新しい命令の定式化や動的に進化するタスク構成に一般化する能力を評価するための評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 39.69790911626182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Following instructions in real-world conditions requires the ability to adapt to the world's volatility and entanglement: the environment is dynamic and unpredictable, instructions can be linguistically complex with diverse vocabulary, and the number of possible goals an agent may encounter is vast. Despite extensive research in this area, most studies are conducted in static environments with simple instructions and a limited vocabulary, making it difficult to assess agent performance in more diverse and challenging settings. To address this gap, we introduce CrafText, a benchmark for evaluating instruction following in a multimodal environment with diverse instructions and dynamic interactions. CrafText includes 3,924 instructions with 3,423 unique words, covering Localization, Conditional, Building, and Achievement tasks. Additionally, we propose an evaluation protocol that measures an agent's ability to generalize to novel instruction formulations and dynamically evolving task configurations, providing a rigorous test of both linguistic understanding and adaptive decision-making.
- Abstract(参考訳): 環境は動的で予測不可能であり、命令は言語的に様々な語彙で複雑になり、エージェントが遭遇する可能性のある目標の数は膨大である。
この分野の広範な研究にもかかわらず、ほとんどの研究は単純な指示と限られた語彙で静的な環境で行われており、エージェントのパフォーマンスをより多様で困難な環境で評価することは困難である。
このギャップに対処するために,多様な命令と動的相互作用を持つマルチモーダル環境における命令追従評価ベンチマークであるCrafTextを紹介した。
CrafTextには3,924の命令と3,423のユニークな単語が含まれており、Localization, Conditional, Building, Achievementタスクをカバーしている。
さらに、エージェントが新しい命令の定式化や動的に進化するタスク構成に一般化できる能力を測定し、言語的理解と適応的意思決定の両方の厳密なテストを提供する評価プロトコルを提案する。
関連論文リスト
- General Scene Adaptation for Vision-and-Language Navigation [19.215183093931785]
VLN(Vision-and-Language Navigation)タスクは、主に複数の環境にまたがる個々の命令のワンタイム実行に基づいてエージェントを評価する。
GSA-VLNは、エージェントが特定のシーン内でナビゲーション命令を実行し、時間とともにパフォーマンスを向上させるために同時にそれに対応することを要求する新しいタスクである。
本稿では,新しいデータセット GSA-R2R を提案し,R2R データセットに対する環境と指示の多様性と量を大幅に拡張する。
論文 参考訳(メタデータ) (2025-01-29T03:57:56Z) - SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts [54.11162991206203]
本稿では,多様なナビゲーションタスクを統一的で汎用的なフレームワークに統合する。
本稿では,エージェントによる意思決定の推論を効果的に行うことのできる,新しい状態適応型エキスパート混合モデルを提案する。
論文 参考訳(メタデータ) (2024-12-07T06:12:53Z) - Instruction Following with Goal-Conditioned Reinforcement Learning in Virtual Environments [42.06453257292203]
本稿では,大規模言語モデルの深い言語理解と強化学習エージェントの適応行動実行能力を組み合わせた階層型フレームワークを提案する。
IGLUではエージェントが構造を構築するように指示され、Crafterではエージェントがタスクを実行し、言語コマンドに従って周辺環境のオブジェクトと対話する。
論文 参考訳(メタデータ) (2024-07-12T14:19:36Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - One-shot Imitation in a Non-Stationary Environment via Multi-Modal Skill [6.294766893350108]
本稿では,ワンショット模倣とゼロショット適応が可能なスキルベース模倣学習フレームワークを提案する。
視覚言語モデルを利用して、オフラインのビデオデータセットから設定したセマンティックスキルを学習する。
拡張された多段階のメタワールドタスクに対して,様々なワンショットの模倣シナリオでフレームワークを評価した。
論文 参考訳(メタデータ) (2024-02-13T11:01:52Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - One-Shot Learning from a Demonstration with Hierarchical Latent Language [43.140223608960554]
DescribeWorldは、接地エージェントにおけるこのような一般化スキルをテストするために設計された環境である。
エージェントはMinecraftのようなグリッドワールドでひとつのタスクのデモを観察し、その後、新しいマップで同じタスクを実行するように要求される。
テキストベースの推論を行うエージェントは,タスクをランダムに分割した状態での課題に対して,より適していることがわかった。
論文 参考訳(メタデータ) (2022-03-09T15:36:43Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。