論文の概要: End-to-end Optimization of Belief and Policy Learning in Shared Autonomy Paradigms
- arxiv url: http://arxiv.org/abs/2601.23285v1
- Date: Fri, 30 Jan 2026 18:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.626973
- Title: End-to-end Optimization of Belief and Policy Learning in Shared Autonomy Paradigms
- Title(参考訳): 共有自律型パラダイムにおける信頼と政策学習のエンドツーエンド最適化
- Authors: MH Farhadi, Ali Rabiee, Sima Ghafoori, Anna Cetera, Andrew Fisher, Reza Abiri,
- Abstract要約: 共有自律システムは、ユーザの意図を推測し、適切な支援レベルを決定するための原則化された方法を必要とする。
以前のアプローチでは、静的なブレンディング比や補助仲裁からの分離した目標推定に頼っていたため、非構造化環境での最適以下の性能が得られた。
BRACEはベイズ的意図推論と文脈適応支援を微調整する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 0.12314765641075438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shared autonomy systems require principled methods for inferring user intent and determining appropriate assistance levels. This is a central challenge in human-robot interaction, where systems must be successful while being mindful of user agency. Previous approaches relied on static blending ratios or separated goal inference from assistance arbitration, leading to suboptimal performance in unstructured environments. We introduce BRACE (Bayesian Reinforcement Assistance with Context Encoding), a novel framework that fine-tunes Bayesian intent inference and context-adaptive assistance through an architecture enabling end-to-end gradient flow between intent inference and assistance arbitration. Our pipeline conditions collaborative control policies on environmental context and complete goal probability distributions. We provide analysis showing (1) optimal assistance levels should decrease with goal uncertainty and increase with environmental constraint severity, and (2) integrating belief information into policy learning yields a quadratic expected regret advantage over sequential approaches. We validated our algorithm against SOTA methods (IDA, DQN) using a three-part evaluation progressively isolating distinct challenges of end-effector control: (1) core human-interaction dynamics in a 2D human-in-the-loop cursor task, (2) non-linear dynamics of a robotic arm, and (3) integrated manipulation under goal ambiguity and environmental constraints. We demonstrate improvements over SOTA, achieving 6.3% higher success rates and 41% increased path efficiency, and 36.3% success rate and 87% path efficiency improvement over unassisted control. Our results confirmed that integrated optimization is most beneficial in complex, goal-ambiguous scenarios, and is generalizable across robotic domains requiring goal-directed assistance, advancing the SOTA for adaptive shared autonomy.
- Abstract(参考訳): 共有自律システムは、ユーザの意図を推測し、適切な支援レベルを決定するための原則化された方法を必要とする。
これは人間とロボットのインタラクションにおいて中心的な課題であり、ユーザーエージェンシーに気を配りながらシステムが成功する必要がある。
以前のアプローチでは、静的なブレンディング比や補助仲裁からの分離した目標推定に頼っていたため、非構造化環境での最適以下の性能が得られた。
BRACE(Bayesian Reinforcement Assistance with Context Encoding)は,ベイズ的意図推論と文脈適応型支援を,意図推論と補助仲裁の間のエンドツーエンドの勾配フローを可能にするアーキテクチャを通じて微調整する新しいフレームワークである。
我々のパイプラインは、環境コンテキストと完全な目標確率分布に関する協調制御ポリシーを条件にしている。
本研究では,(1)目標の不確実性や環境制約の深刻度の増加に伴う最適な援助水準の低下,(2)政策学習への信頼情報の統合が,逐次的アプローチよりも2次的な後悔の優位性をもたらすことを示す。
我々は, エンドエフェクタ制御の異なる課題を段階的に分離する3部評価を用いて, SOTA法(IDA, DQN)に対して, アルゴリズムの有効性を検証した。
我々は,SOTAの改善を実証し,成功率6.3%,経路効率41%,成功率36.3%,経路効率87%を無支援制御で達成した。
結果から,統合最適化は複雑な目標明快なシナリオにおいて最も有用であり,目標指向の支援を必要とするロボット領域にまたがって一般化可能であり,適応的共有自律性のためにSOTAを推し進めることが確認された。
関連論文リスト
- Adaptive Causal Coordination Detection for Social Media: A Memory-Guided Framework with Semi-Supervised Learning [1.5683405037750644]
ACCDは3段階のプログレッシブアーキテクチャを採用し、メモリ誘導適応機構を利用して最適な検出設定を学習し維持する。
Twitter IRAデータセット、Redditのコーディネーショントレース、および広く採用されているボット検出ベンチマークなど、実世界のデータセットを使用して包括的な評価を行う。
ACCDのF1スコアは87.3%で、最強のベースラインよりも15.2%向上している。
論文 参考訳(メタデータ) (2026-01-01T17:27:52Z) - QoS-Aware Hierarchical Reinforcement Learning for Joint Link Selection and Trajectory Optimization in SAGIN-Supported UAV Mobility Management [52.15690855486153]
宇宙空間統合ネットワーク (SAGIN) がユビキタスUAV接続を実現するための重要なアーキテクチャとして登場した。
本稿では,SAGINにおけるUAVモビリティ管理を制約付き多目的関節最適化問題として定式化する。
論文 参考訳(メタデータ) (2025-12-17T06:22:46Z) - Inverse Optimality for Fair Digital Twins: A Preference-based approach [1.5756571514779074]
本研究は、最適化に基づくDigital Twinsにおいて、学習可能な目的として公正性を導入するフレームワークを提案する。
専用のシームズニューラルネットワークが開発され、コンテキスト情報に基づいて凸2次コスト関数を生成する。
このアプローチの有効性は、新型コロナウイルスの病院リソース割り当てシナリオで実証される。
論文 参考訳(メタデータ) (2025-12-01T13:23:27Z) - Human-assisted Robotic Policy Refinement via Action Preference Optimization [26.144183856600687]
行動選好最適化(Action Preference Optimization、APO)は、視覚・言語・行動モデル(VLA)を人間の操作による選好アライメントによって洗練する手法である。
これを解決するために、APOは相互作用から導出される二元的望ましくない信号を用いた適応的再重み付けアルゴリズムを提案する。
シミュレーションと実世界のシナリオで行われた実験は、より優れた一般化とロバスト性を示す。
論文 参考訳(メタデータ) (2025-06-08T13:14:18Z) - Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Model-Free Learning of Optimal Deterministic Resource Allocations in
Wireless Systems via Action-Space Exploration [4.721069729610892]
本稿では,最適パラメータ化資源割り当てポリシーを効率的に学習するための,技術的基盤と拡張性のある2次元勾配法を提案する。
提案手法は, 深層ネットワークなどの一般的な普遍表現の勾配を効率よく活用するだけでなく, 低次元摂動により構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため, 真のモデルフリーである。
論文 参考訳(メタデータ) (2021-08-23T18:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。