論文の概要: Masked IRL: LLM-Guided Reward Disambiguation from Demonstrations and Language
- arxiv url: http://arxiv.org/abs/2511.14565v1
- Date: Tue, 18 Nov 2025 15:07:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.171853
- Title: Masked IRL: LLM-Guided Reward Disambiguation from Demonstrations and Language
- Title(参考訳): Masked IRL: LLM-Guided Reward Disambiguation from Demonations and Language
- Authors: Minyoung Hwang, Alexandra Forsey-Smerek, Nathaniel Dennler, Andreea Bobu,
- Abstract要約: Masked Inverse Reinforcement Learning (Masked IRL)は、大きな言語モデル(LLM)を使用して、両方の入力型の強みを組み合わせるフレームワークである。
シミュレーションおよび実際のロボット上では、Masked IRLは、事前の言語条件のIRLメソッドを最大15%向上させる。
- 参考スコア(独自算出の注目度): 42.32510573712616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robots can adapt to user preferences by learning reward functions from demonstrations, but with limited data, reward models often overfit to spurious correlations and fail to generalize. This happens because demonstrations show robots how to do a task but not what matters for that task, causing the model to focus on irrelevant state details. Natural language can more directly specify what the robot should focus on, and, in principle, disambiguate between many reward functions consistent with the demonstrations. However, existing language-conditioned reward learning methods typically treat instructions as simple conditioning signals, without fully exploiting their potential to resolve ambiguity. Moreover, real instructions are often ambiguous themselves, so naive conditioning is unreliable. Our key insight is that these two input types carry complementary information: demonstrations show how to act, while language specifies what is important. We propose Masked Inverse Reinforcement Learning (Masked IRL), a framework that uses large language models (LLMs) to combine the strengths of both input types. Masked IRL infers state-relevance masks from language instructions and enforces invariance to irrelevant state components. When instructions are ambiguous, it uses LLM reasoning to clarify them in the context of the demonstrations. In simulation and on a real robot, Masked IRL outperforms prior language-conditioned IRL methods by up to 15% while using up to 4.7 times less data, demonstrating improved sample-efficiency, generalization, and robustness to ambiguous language. Project page: https://MIT-CLEAR-Lab.github.io/Masked-IRL and Code: https://github.com/MIT-CLEAR-Lab/Masked-IRL
- Abstract(参考訳): ロボットはデモから報酬関数を学習することでユーザの好みに適応できるが、限られたデータでは、報酬モデルは相関関係を刺激し、一般化に失敗することが多い。
これは、ロボットがタスクを行う方法を示すが、そのタスクに何が必要かを示さないためであり、モデルが無関係な状態の詳細に集中する原因となる。
自然言語はロボットが何を重視すべきかをより直接的に特定することができ、原則として、デモと整合した多くの報酬関数の間を曖昧にすることができる。
しかし、既存の言語条件付報酬学習法は、あいまいさを解決する可能性を完全に活用することなく、命令を単純な条件付け信号として扱うのが一般的である。
さらに、実際の命令は曖昧であることが多いため、素質的な条件付けは信頼できない。
私たちの重要な洞察は、これらの2つの入力タイプが相補的な情報を持っていることです。
大規模言語モデル(LLM)を用いて,両入力モデルの強みを組み合わせるフレームワークであるMasked Inverse Reinforcement Learning (Masked IRL)を提案する。
Masked IRLは言語命令から状態関連マスクを推論し、無関係な状態コンポーネントに不変性を強制する。
命令が曖昧である場合、LLM推論を使用してデモの文脈でそれらを明確にする。
シミュレーションおよび実際のロボット上では、Masked IRLは、最大4.7倍の少ないデータを使用し、サンプル効率、一般化、曖昧な言語に対する堅牢性を実証しながら、事前の言語条件のIRLメソッドを最大15%向上させる。
プロジェクトページ: https://MIT-CLEAR-Lab.github.io/Masked-IRL and Code: https://github.com/MIT-CLEAR-Lab/Masked-IRL
関連論文リスト
- LACY: A Vision-Language Model-based Language-Action Cycle for Self-Improving Robotic Manipulation [11.419077130835829]
LACY(Language-Action Cycle)は、単一の視覚言語モデル内で双方向マッピングを学習する統合フレームワークである。
LACYはタスク成功率を平均56.46%改善し、ロボット操作のための堅牢な言語アクション基盤を提供する。
論文 参考訳(メタデータ) (2025-11-04T04:02:51Z) - Video-Language Critic: Transferable Reward Functions for Language-Conditioned Robotics [29.557203948616678]
Video-Language Criticは、簡単に利用可能なクロスボディデータに基づいてトレーニングできる報酬モデルである。
我々のモデルは、スパース報酬のみよりもメタワールドタスクにおける2倍のサンプル効率のポリシートレーニングを可能にします。
論文 参考訳(メタデータ) (2024-05-30T12:18:06Z) - Preference-Conditioned Language-Guided Abstraction [24.626805570296064]
我々は、人間の振る舞いが世界を見る方法を明らかにするのを観察する。
本研究では,行動の変化が生じたという知識を前提として,言語モデル(LM)を用いてこれらの嗜好を直接クエリする手法を提案する。
本研究では,シミュレーション実験,ユーザスタディ,モバイル操作タスクを行う実際のSpotロボット上で,効果的な嗜好条件抽象化を構築するためのフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2024-02-05T15:12:15Z) - Roles of Scaling and Instruction Tuning in Language Perception: Model
vs. Human Attention [58.817405319722596]
本研究は,複数の大規模言語モデル (LLM) を異なる大きさで自己意識的に比較し,言語知覚に対するスケーリングと指導指導の効果を評価する。
その結果,スケーリングは人間の類似性を向上し,簡単なパターン依存を減らし,効果的な注意力を高める一方で,命令チューニングは行わないことがわかった。
また、現在のLLMは、注目されているネイティブスピーカーよりも、常に非ネイティブに近づき、全てのモデルの準最適言語知覚が示唆されている。
論文 参考訳(メタデータ) (2023-10-29T17:16:40Z) - Self-Evolution Learning for Discriminative Language Model Pretraining [103.57103957631067]
自己進化学習(Self-Evolution Learning、SE)は、単純で効果的なトークンマスキングと学習方法である。
SEは情報的だが未探索のトークンを学習することに集中し、新しいToken固有のラベル平滑化アプローチを導入してトレーニングを適応的に調整する。
論文 参考訳(メタデータ) (2023-05-24T16:00:54Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。