論文の概要: Robots That Know What to Ask: Recovering Misaligned Rewards through Targeted Explanations
- arxiv url: http://arxiv.org/abs/2605.22986v1
- Date: Thu, 21 May 2026 19:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.077607
- Title: Robots That Know What to Ask: Recovering Misaligned Rewards through Targeted Explanations
- Title(参考訳): 質問するべきことを知るロボット: ターゲットを絞った説明を通じて、ミスアライズされたリワードを復元する
- Authors: Helena Merker, Nick Walker, Andreea Bobu,
- Abstract要約: デモンストレーションから報酬関数を学ぶことは、デモがすべての機能に対して適切な監視を提供すると仮定する。
人間は認知的負荷や身体的困難のために、特定の特徴を過小評価することがある。
本稿では,そのような不特定特徴を検知し,対象とする修正デモを積極的に行うフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.9662978733004601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning reward functions from demonstrations assumes that demonstrations provide adequate supervision over all features -- or task-relevant aspects of behavior. In practice, demonstrations are often imperfect: humans may under-emphasize certain features due to cognitive load or physical difficulty, or the training regime may fail to sufficiently cover all relevant situations. In either case, important features may be underspecified, leading to ambiguity in the learned reward function and misaligned behavior at deployment. We propose a framework that detects such underspecified features and actively solicits targeted corrective demonstrations. Our key insight is that demonstrations implicitly reveal which features are well specified: features that are consistently optimized show little variation across demonstrations, while features that are underspecified vary widely. We leverage this statistical signal to infer which features may have been insufficiently demonstrated. The robot then explains which features it is uncertain about in natural language and queries for demonstrations that explicitly address the identified gaps. We evaluate our approach in a simulated tabletop manipulation domain and in a user study with a real Franka robot. Targeted, explanation-guided queries significantly improve reward recovery compared to random querying and passive data collection, reducing ambiguity that would otherwise persist in learning from imperfect demonstrations.
- Abstract(参考訳): デモンストレーションから報酬関数を学ぶには、デモがすべての機能 -- あるいはタスク関連行動の側面 -- に対して適切な監視を提供すると仮定する。
人間は認知的負荷や身体的困難のために特定の特徴を過小評価することがあるし、訓練体制がすべての関連する状況を十分にカバーできないこともある。
いずれの場合も、重要な機能は不明確で、学習された報酬関数の曖昧さとデプロイメント時の不整合性につながる可能性がある。
本稿では,そのような不特定特徴を検知し,対象とする修正デモを積極的に行うフレームワークを提案する。
常に最適化された機能は、デモ間でほとんど変化がなく、不特定でない機能は広範囲に分散しています。
我々は、この統計信号を利用して、どの特徴が不十分であったかを推測する。
そしてロボットは、自然言語で不確実な特徴と、特定されたギャップに明示的に対処するデモのためのクエリを説明する。
シミュレーションテーブルトップ操作領域と実際のフランカロボットを用いたユーザスタディにおけるアプローチの評価を行った。
対象とする説明誘導クエリは、ランダムクエリや受動的データ収集と比較して、報酬回復を著しく改善する。
関連論文リスト
- Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文 参考訳(メタデータ) (2025-08-03T23:48:46Z) - Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。
連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。
本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文 参考訳(メタデータ) (2024-09-12T16:51:58Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。