論文の概要: FOSSIL: Harnessing Feedback on Suboptimal Samples for Data-Efficient Generalisation with Imitation Learning for Embodied Vision-and-Language Tasks
- arxiv url: http://arxiv.org/abs/2510.11307v1
- Date: Mon, 13 Oct 2025 11:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.349044
- Title: FOSSIL: Harnessing Feedback on Suboptimal Samples for Data-Efficient Generalisation with Imitation Learning for Embodied Vision-and-Language Tasks
- Title(参考訳): FOSSIL: 視覚・言語タスクの模倣学習によるデータ効率の良い一般化のための最適サンプルに対するハーネスングフィードバック
- Authors: Sabrina McCallum, Amit Parekh, Alessandro Suglia,
- Abstract要約: この研究は、模倣学習で訓練されたエージェントが最適と準最適の両方から堅牢な表現を学習する方法を探求する。
入力シーケンスの一部として言語フィードバックの埋め込みをTransformerベースのポリシーに組み込む。
独自のBabyAI-XGen環境における視覚・言語タスクの具体化について,本手法を検証した。
- 参考スコア(独自算出の注目度): 45.65159253753118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current approaches to embodied AI tend to learn policies from expert demonstrations. However, without a mechanism to evaluate the quality of demonstrated actions, they are limited to learning from optimal behaviour, or they risk replicating errors and inefficiencies. While reinforcement learning offers one alternative, the associated exploration typically results in sacrificing data efficiency. This work explores how agents trained with imitation learning can learn robust representations from both optimal and suboptimal demonstrations when given access to constructive language feedback as a means to contextualise different modes of behaviour. We directly provide language feedback embeddings as part of the input sequence into a Transformer-based policy, and optionally complement the traditional next action prediction objective with auxiliary self-supervised learning objectives for feedback prediction. We test our approach on a range of embodied Vision-and-Language tasks in our custom BabyAI-XGen environment and show significant improvements in agents' compositional generalisation abilities and robustness, suggesting that our data-efficient method allows models to successfully convert suboptimal behaviour into learning opportunities. Overall, our results suggest that language feedback is a competitive and intuitive alternative to intermediate scalar rewards for language-specified embodied tasks.
- Abstract(参考訳): AIを具体化する現在のアプローチは、専門家によるデモンストレーションからポリシーを学ぶ傾向がある。
しかしながら、実証された行動の質を評価するメカニズムがなければ、最適な行動から学ぶことや、エラーや非効率を複製するリスクに制限される。
強化学習は一つの代替手段を提供するが、関連する探索は典型的にデータの効率を犠牲にする。
この研究は、模倣学習で訓練されたエージェントが、異なる行動様式を文脈化するための手段として、構築言語フィードバックへのアクセスを与えられたとき、最適と準最適の両方から堅牢な表現を学習する方法を探求する。
入力シーケンスの一部としてTransformerベースのポリシーに言語フィードバックの埋め込みを直接提供し、フィードバック予測のための補助的な自己教師型学習目標を用いて、従来の次の行動予測目標を任意に補完する。
我々は,独自のBabyAI-XGen環境における視覚・言語タスクを具現化し,エージェントの構成的一般化能力とロバスト性を大幅に向上させる手法を提案する。
以上の結果から,言語固有の具体的タスクに対して,言語フィードバックは中間スカラー報酬の競合的かつ直感的な代替手段であることが示唆された。
関連論文リスト
- VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models [49.78447737655287]
VITAはゼロショット値関数学習法であり、テスト時間適応によって両方の能力を増強する。
オフライン強化学習において,VITAのゼロショット値推定が報酬形成に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-11T18:05:33Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model [13.983810804606264]
In-Context Prompt Learning (InCPL) を提案する。
InCPLは、コンテキスト情報としてラベル付き例がほとんどない新しいテストサンプルを関連付けている。
テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。
論文 参考訳(メタデータ) (2024-03-10T08:15:51Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Shattering the Agent-Environment Interface for Fine-Tuning Inclusive
Language Models [24.107358120517336]
本研究では、事前学習された言語モデルが、それ自体がポリシー、報酬関数、遷移関数である、という新しい視点を採用する。
即ち、報酬学習と言語モデルの微調整は、さらに下流のポリシー最適化を必要とせずに、共同で直接行うことができる。
論文 参考訳(メタデータ) (2023-05-19T06:21:15Z) - Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-09-30T19:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。