論文の概要: Robot-Gated Interactive Imitation Learning with Adaptive Intervention Mechanism
- arxiv url: http://arxiv.org/abs/2506.09176v1
- Date: Tue, 10 Jun 2025 18:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.911117
- Title: Robot-Gated Interactive Imitation Learning with Adaptive Intervention Mechanism
- Title(参考訳): アダプティブ・インターベンション機構を用いたロボットによる対話型模倣学習
- Authors: Haoyuan Cai, Zhenghao Peng, Bolei Zhou,
- Abstract要約: インタラクティブ・イミテーション・ラーニング (Interactive Imitation Learning, IIL) は、エージェントが人間の介入を通じて望ましい行動を取得することを可能にする。
本稿では,人間の実演を依頼する適応的基準を学習するロボットゲート型IILアルゴリズムであるAdaptive Intervention Mechanism (AIM)を提案する。
- 参考スコア(独自算出の注目度): 48.41735416075536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive Imitation Learning (IIL) allows agents to acquire desired behaviors through human interventions, but current methods impose high cognitive demands on human supervisors. We propose the Adaptive Intervention Mechanism (AIM), a novel robot-gated IIL algorithm that learns an adaptive criterion for requesting human demonstrations. AIM utilizes a proxy Q-function to mimic the human intervention rule and adjusts intervention requests based on the alignment between agent and human actions. By assigning high Q-values when the agent deviates from the expert and decreasing these values as the agent becomes proficient, the proxy Q-function enables the agent to assess the real-time alignment with the expert and request assistance when needed. Our expert-in-the-loop experiments reveal that AIM significantly reduces expert monitoring efforts in both continuous and discrete control tasks. Compared to the uncertainty-based baseline Thrifty-DAgger, our method achieves a 40% improvement in terms of human take-over cost and learning efficiency. Furthermore, AIM effectively identifies safety-critical states for expert assistance, thereby collecting higher-quality expert demonstrations and reducing overall expert data and environment interactions needed. Code and demo video are available at https://github.com/metadriverse/AIM.
- Abstract(参考訳): インタラクティブ・イミテーション・ラーニング (Interactive Imitation Learning, IIL) は、エージェントが人間の介入を通じて望ましい行動を取得することを可能にするが、現在の手法は人間の監督者に高い認知的要求を課している。
本稿では,人間の実演を依頼する適応的基準を学習するロボットゲート型IILアルゴリズムであるAdaptive Intervention Mechanism (AIM)を提案する。
AIMは、人間の介入ルールを模倣するプロキシQ関数を使用し、エージェントと人間のアクションのアライメントに基づいて介入要求を調整する。
エージェントが熟練者から逸脱し、エージェントが熟練するにつれてこれらの値が低下するときに高いQ値を割り当てることにより、プロキシQ機能により、エージェントは必要に応じて専門家とのリアルタイムな整合性を評価し、要求支援を行うことができる。
ループ内のエキスパート実験により,AIMは連続的および離散的な制御タスクにおいて,専門家の監視作業を大幅に削減することが明らかとなった。
本研究では,不確実性ベースラインであるThrifty-DAggerと比較して,人件費と学習効率を40%向上させる手法を提案する。
さらに、AIMは、専門家支援のための安全クリティカルな状態を効果的に特定し、高品質な専門家のデモンストレーションを収集し、必要な専門家データと環境相互作用の全体を削減する。
コードとデモビデオはhttps://github.com/metadriverse/AIM.comで公開されている。
関連論文リスト
- Interactive Double Deep Q-network: Integrating Human Interventions and Evaluative Predictions in Reinforcement Learning of Autonomous Driving [16.379623042562415]
本研究では、強化学習(RL)を強化するHuman-in-the-Loop(HITL)アプローチであるInteractive Double Deep Q-network(iDDQN)を導入する。
提案したiDDQN法は,Q値更新方程式を修正して,人間とエージェントのアクションを統合することで,政策開発のための協調的アプローチを確立する。
シミュレーションされた自律走行シナリオにおける実証的な結果は、iDDQNが確立されたアプローチより優れていることを示している。
論文 参考訳(メタデータ) (2025-04-28T05:25:18Z) - VeriLA: A Human-Centered Evaluation Framework for Interpretable Verification of LLM Agent Failures [3.075266204492352]
複合AIシステムにおける大規模言語モデル(LLM)エージェントは、しばしば人間の基準を満たさないため、システム全体のパフォーマンスを損なうエラーにつながる。
本稿では LLM Agent failures (VeriLA) を検証するための人間中心評価フレームワークを提案する。
VeriLAは、人的労力を減らすためにエージェント障害を体系的に評価し、これらのエージェント障害を人間に解釈できるようにする。
論文 参考訳(メタデータ) (2025-03-16T21:11:18Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [81.56607128684723]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - Reinforcement Learning Interventions on Boundedly Rational Human Agents
in Frictionful Tasks [25.507656595628376]
本稿では,AIエージェントがマルコフ決定プロセス(MDP)のパラメータに介入する枠組みを紹介する。
私たちは、人間のモデルによるAI計画が、より複雑で地道な人間の幅広い政策に結びつくことを示しています。
論文 参考訳(メタデータ) (2024-01-26T14:59:48Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - A Cognitive Framework for Delegation Between Error-Prone AI and Human
Agents [0.0]
本研究では,認知にインスパイアされた行動モデルを用いて,人間エージェントとAIエージェントの両方の行動を予測する。
予測された振る舞いは、仲介者の使用を通じて人間とAIエージェントの制御を委譲するために使用される。
論文 参考訳(メタデータ) (2022-04-06T15:15:21Z) - ThriftyDAgger: Budget-Aware Novelty and Risk Gating for Interactive
Imitation Learning [23.177329496817105]
ThriftyDAgger(スリフティダガー)は、人間の介入の予算が与えられたら、人間の上司に問い合わせるアルゴリズムである。
実験により、ThriftyDAggerの介入基準はタスクのパフォーマンスとオーバヘッドを以前のアルゴリズムよりも効果的にバランスしていることが示唆された。
論文 参考訳(メタデータ) (2021-09-17T01:21:16Z) - Watch-And-Help: A Challenge for Social Perception and Human-AI
Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。
WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。
マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文 参考訳(メタデータ) (2020-10-19T21:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。