論文の概要: QuickLAP: Quick Language-Action Preference Learning for Autonomous Driving Agents
- arxiv url: http://arxiv.org/abs/2511.17855v1
- Date: Sat, 22 Nov 2025 00:45:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.47892
- Title: QuickLAP: Quick Language-Action Preference Learning for Autonomous Driving Agents
- Title(参考訳): QuickLAP: 自律運転エージェントのためのクイック言語-Action Preference Learning
- Authors: Jordan Abi Nader, David Lee, Nathaniel Dennler, Andreea Bobu,
- Abstract要約: QuickLAP: Quick Language-Action Preference Learningを紹介する。
物理的および言語的なフィードバックを融合させ、報酬関数をリアルタイムで推論する。
半自律運転シミュレータでは、QuickLAPは報酬学習誤差を70%以上削減する。
- 参考スコア(独自算出の注目度): 1.8810729724453374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robots must learn from both what people do and what they say, but either modality alone is often incomplete: physical corrections are grounded but ambiguous in intent, while language expresses high-level goals but lacks physical grounding. We introduce QuickLAP: Quick Language-Action Preference learning, a Bayesian framework that fuses physical and language feedback to infer reward functions in real time. Our key insight is to treat language as a probabilistic observation over the user's latent preferences, clarifying which reward features matter and how physical corrections should be interpreted. QuickLAP uses Large Language Models (LLMs) to extract reward feature attention masks and preference shifts from free-form utterances, which it integrates with physical feedback in a closed-form update rule. This enables fast, real-time, and robust reward learning that handles ambiguous feedback. In a semi-autonomous driving simulator, QuickLAP reduces reward learning error by over 70% compared to physical-only and heuristic multimodal baselines. A 15-participant user study further validates our approach: participants found QuickLAP significantly more understandable and collaborative, and preferred its learned behavior over baselines. Code is available at https://github.com/MIT-CLEAR-Lab/QuickLAP.
- Abstract(参考訳): ロボットは人々の行動と発言の両方から学ぶ必要があるが、モダリティだけでは不完全であることが多い。
QuickLAP: Quick Language-Action Preference Learningは、物理および言語フィードバックを融合して報酬関数をリアルタイムで推論するベイズ的なフレームワークである。
我々の重要な洞察は、言語をユーザの潜在的嗜好に対する確率論的観察として扱うことであり、どの報酬特徴が重要か、物理的修正がどのように解釈されるべきかを明確にすることである。
QuickLAPは、Large Language Models (LLMs) を使用して、クローズドフォーム更新ルールで物理フィードバックと統合した自由形式の発話から、報酬の注意マスクと好みのシフトを抽出する。
これにより、不明瞭なフィードバックを扱う高速でリアルタイムで堅牢な報酬学習が可能になる。
半自律運転シミュレータにおいて、QuickLAPは、物理専用およびヒューリスティックなマルチモーダルベースラインと比較して、報酬学習誤差を70%以上削減する。
参加者はQuickLAPが理解しやすく協力的であることを発見し、ベースラインよりも学習した振る舞いを好んだ。
コードはhttps://github.com/MIT-CLEAR-Lab/QuickLAPで入手できる。
関連論文リスト
- Masked IRL: LLM-Guided Reward Disambiguation from Demonstrations and Language [42.32510573712616]
Masked Inverse Reinforcement Learning (Masked IRL)は、大きな言語モデル(LLM)を使用して、両方の入力型の強みを組み合わせるフレームワークである。
シミュレーションおよび実際のロボット上では、Masked IRLは、事前の言語条件のIRLメソッドを最大15%向上させる。
論文 参考訳(メタデータ) (2025-11-18T15:07:50Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - MAPLE: A Framework for Active Preference Learning Guided by Large Language Models [9.37268652939886]
大規模言語モデルに基づくベイズ的能動的嗜好学習のためのフレームワークであるMAPLEを紹介する。
以上の結果から,MAPLEは学習過程を加速し,質問に答える能力を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-12-10T05:55:14Z) - Improving Language Plasticity via Pretraining with Active Forgetting [63.36484652568976]
本稿では,新しい言語に迅速に適応可能な PLM を作成する簡単な方法として,事前学習中に能動的に忘れる機構を提案する。
RoBERTaを用いた実験では、忘れるメカニズムで事前訓練されたモデルは、言語適応中により高速な収束を示す。
論文 参考訳(メタデータ) (2023-07-03T17:12:44Z) - Improving Code Generation by Training with Natural Language Feedback [69.52985513422381]
自然言語フィードバックから学習するアルゴリズムを訓練時に形式化し、それをILF(Language Feedback)と呼ぶ。
ILFはトレーニング中に少量の人間によるフィードバックしか必要とせず、テスト時に同じフィードバックを必要としないため、ユーザフレンドリでサンプル効率がよい。
Instly Basic Python Problems (MBPP)ベンチマークでは、ICFを使用してCodegen-Mono 6.1Bモデルのpass@1レートを38%改善しています。
論文 参考訳(メタデータ) (2023-03-28T16:15:31Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Underspecification in Language Modeling Tasks: A Causality-Informed
Study of Gendered Pronoun Resolution [0.0]
本稿では,素因性相関の生成における不特定性の役割を説明するための簡単な因果機構を提案する。
その単純さにもかかわらず、我々の因果モデルは2つの軽量ブラックボックス評価手法の開発を直接的に知らせる。
論文 参考訳(メタデータ) (2022-09-30T23:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。