論文の概要: Mini-BEHAVIOR-Gran: Revealing U-Shaped Effects of Instruction Granularity on Language-Guided Embodied Agents
- arxiv url: http://arxiv.org/abs/2604.17019v1
- Date: Sat, 18 Apr 2026 14:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.290665
- Title: Mini-BEHAVIOR-Gran: Revealing U-Shaped Effects of Instruction Granularity on Language-Guided Embodied Agents
- Title(参考訳): Mini-Behavior-Gran: 言語誘導型炭水化物に対する指示粒度のU字化効果に関する研究
- Authors: Sukai Huang, Chenyuan Zhang, Fucai Ke, Zhixi Cai, Gholamreza Haffari, Lizhen Qu, Hamid Rezatofighi,
- Abstract要約: Mini-Behavior-Granは、組み込みAIにおける命令粒度の制御のための新しいベンチマークである。
クロスタスクの粒度定量化のための4つの候補指標を比較した。
トレーニングと評価の組織化に幅を用いると、命令の粒度と性能の非単調なU字型関係が明らかになる。
- 参考スコア(独自算出の注目度): 58.64789157580261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction granularity is an important yet poorly controlled variable in language-guided embodied AI. Existing benchmarks typically pair each task with a single static instruction, making it difficult to study how agent behavior changes when the same task is described at different levels of detail. We introduce Mini-BEHAVIOR-Gran, a new benchmark for controlled studies of instruction granularity that extends Mini-BEHAVIOR with multiple instruction variants per task, ranging from high-level goal descriptions to step-by-step guidance. Using this benchmark, we compare four candidate metrics for cross-task granularity quantification: token count, entity count, action-verb count, and planning-width, and find that width correlates most consistently with agent performance. Using width to organize training and evaluation further reveals a non-monotonic U-shaped relationship between instruction granularity and performance, with peaks at both fine and coarse extremes. Further analysis suggests that the coarse-granularity performance rebound is associated with shallow grounding, where agents learn vision-dominant policies.
- Abstract(参考訳): インストラクショングラニュリティは、言語誘導型インボディードAIにおいて重要であるが、制御が不十分な変数である。
既存のベンチマークは通常、各タスクと1つの静的命令をペアリングし、同じタスクが異なるレベルの詳細で記述された場合、エージェントの動作がどのように変化するかを研究するのが難しくなる。
命令の粒度制御のための新しいベンチマークであるMini-Behavior-Granを導入する。
このベンチマークを用いて,トークン数,エンティティ数,アクションバーブ数,プランニング幅という,クロスタスクの粒度定量化の候補となる4つの指標を比較した。
トレーニングと評価の組織化に幅を用いることで、命令の粒度とパフォーマンスの非単調なU字型関係が明らかになり、ピークは細い極端と粗い極端の両方になる。
さらに分析したところ、粗粒度性能の回復は浅い接地と結びつき、エージェントは視覚に支配的な政策を学ぶことが示唆された。
関連論文リスト
- On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。
我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。
本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文 参考訳(メタデータ) (2026-01-29T17:48:56Z) - Contextualize-then-Aggregate: Circuits for In-Context Learning in Gemma-2 2B [51.74607395697567]
In-Context Learning (ICL)は、大規模言語モデル(LLM)の興味深い能力である。
我々は5つの自然主義ICLタスクに対してGemma-2 2Bにおける情報フローを因果介入を用いて同定する。
このモデルでは,2段階戦略を用いてタスク情報を推論し,コンテキスト化-then-aggregateと呼ぶ。
論文 参考訳(メタデータ) (2025-03-31T18:33:55Z) - Layer-Aware Task Arithmetic: Disentangling Task-Specific and Instruction-Following Knowledge [12.367471198090655]
Task Arithmetic (TA)は、微調整から派生したタスクベクトルを組み合わせることで、マルチタスク学習とタスク忘れを可能にするが、一般的な指示追従行動からタスク固有の知識を分離するのに苦労する。
本稿では,命令フォローやタスク固有のコンポーネントとのアライメントに基づいて,階層固有の重みをタスクベクトルに割り当てる新しい手法であるLayer-Aware Task Arithmetic (LATA)を提案する。
論文 参考訳(メタデータ) (2025-02-27T15:22:14Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Revisiting Unsupervised Meta-Learning: Amplifying or Compensating for
the Characteristics of Few-Shot Tasks [30.893785366366078]
我々は,限られたデータを用いて視覚認識システムを構築する,少数ショット画像分類への実践的アプローチを開発した。
基本クラスセットラベルは不要であり、識別的埋め込みは教師なしの方法でメタ学習される可能性がある。
数ショットの学習ベンチマークの実験では、従来の手法よりも4~10%のパフォーマンス差で、アプローチが優れていることが確認された。
論文 参考訳(メタデータ) (2020-11-30T10:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。