論文の概要: CHOP: Counterfactual Human Preference Labels Improve Obstacle Avoidance in Visuomotor Navigation Policies
- arxiv url: http://arxiv.org/abs/2603.02004v1
- Date: Mon, 02 Mar 2026 15:55:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.829109
- Title: CHOP: Counterfactual Human Preference Labels Improve Obstacle Avoidance in Visuomotor Navigation Policies
- Title(参考訳): CHOP:視覚障害者ナビゲーション政策の障害物回避を改善した対人選好ラベル
- Authors: Gershom Seneviratne, Jianyu An, Vaibhav Shende, Sahire Ellahy, Yaxita Amin, Kondapi Manasanjani, Samarth Chopra, Jonathan Deepak Kannan, Dinesh Manocha,
- Abstract要約: ナビゲーションにおける安全性と障害物回避の人間の直感にバイスモータナビゲーションポリシーを整合させる新しいアプローチであるCHOPを紹介する。
CHOPは、人間の安全と障害物回避に対する人間の直感にバイスモータナビゲーションポリシーを合わせるために、対実的人間選好ラベルを使用する。
実験により、CHOPで微調整された視覚運動ナビゲーションポリシーは、近距離衝突イベントを49.7%減らし、人間に好まれる軌道からの偏差を45.0%減らし、平均的な障害物クリアランスを19.8%増すことが示された。
- 参考スコア(独自算出の注目度): 38.639825310372224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visuomotor navigation policies have shown strong perception-action coupling for embodied agents, yet they often struggle with safe navigation and dynamic obstacle avoidance in complex real-world environments. We introduce CHOP, a novel approach that leverages Counterfactual Human Preference Labels to align visuomotor navigation policies towards human intuition of safety and obstacle avoidance in navigation. In CHOP, for each visual observation, the robot's executed trajectory is included among a set of counterfactual navigation trajectories: alternative trajectories the robot could have followed under identical conditions. Human annotators provide pairwise preference labels over these trajectories based on anticipated outcomes such as collision risk and path efficiency. These aggregated preferences are then used to fine-tune visuomotor navigation policies, aligning their behavior with human preferences in navigation. Experiments on the SCAND dataset show that visuomotor navigation policies fine-tuned with CHOP reduce near-collision events by 49.7%, decrease deviation from human-preferred trajectories by 45.0%, and increase average obstacle clearance by 19.8% on average across multiple state-of-the-art models, compared to their pretrained baselines. These improvements transfer to real-world deployments on a Ghost Robotics Vision60 quadruped, where CHOP-aligned policies improve average goal success rates by 24.4%, increase minimum obstacle clearance by 6.8%, reduce collision and intervention events by 45.7%, and improve normalized path completion by 38.6% on average across navigation scenarios, compared to their pretrained baselines. Our results highlight the value of counterfactual preference supervision in bridging the gap between large-scale visuomotor policies and human-aligned, safety-aware embodied navigation.
- Abstract(参考訳): ビジュモータナビゲーションポリシーは、エンボディエージェントに対して強い知覚-作用結合を示すが、複雑な現実世界環境において安全なナビゲーションと動的障害物回避に苦慮することが多い。
提案手法は,人間による安全観と障害物回避を両立させるために,対人選好ラベルを利用した新しいアプローチであるCHOPを導入する。
CHOPでは、それぞれの視覚的観察のために、ロボットが実行した軌道は、対物的な航法軌道のセットに含まれる。
人間のアノテータは、衝突リスクや経路効率などの予測結果に基づいて、これらの軌道に対してペアワイズな選好ラベルを提供する。
これらの集計された嗜好は、ナビゲーションの行動と人間の嗜好を一致させて、ヴィジュモータナビゲーションポリシーを微調整するために使用される。
SCANDデータセットの実験では、CHOPで微調整されたビズモータナビゲーションポリシーは、近コリジョンイベントを49.7%削減し、人間の優先軌道からの偏差を45.0%低減し、複数の最先端モデルの平均的な障害物クリアランスを19.8%増加させることが示されている。
これらの改善は、ゴーストロボティクス・ビジョン60の4倍の現実世界への展開に移行し、CHOP対応のポリシーは平均目標達成率を24.4%改善し、最小障害物クリアランスを6.8%増加させ、衝突や介入イベントを45.7%減少させ、通常の経路完了を平均38.6%改善する。
本研究は,大規模ビジュモータ政策と人間対応型安全意識型ナビゲーションのギャップを埋める上での,対物的選好監督の重要性を強調した。
関連論文リスト
- Optimal-Horizon Social Robot Navigation in Heterogeneous Crowds [39.07961392770344]
環境の不確実性や複雑な人間とロボットの相互作用のため、密集した動的な群集の中で社会ロボットをナビゲートすることは困難である。
MPCは、強力なリアルタイムパフォーマンスを提供し、固定された予測地平線への依存は、環境の変化や社会的ダイナミクスへの適応性を制限している。
オンライン上でのMPCの視線を推定した状況に応じて最適化する最適水平社会ナビゲーションフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-28T07:09:15Z) - Learning to Navigate Socially Through Proactive Risk Perception [28.68878818274302]
IROS 2025 RoboSense Challenge Social Navigation Trackについて述べる。
このトラックは、RGBDベースの知覚とナビゲーションシステムの開発に焦点を当てている。
本稿では,社会的ナビゲーション性能を高めるための能動的リスク認識モジュールを提案する。
論文 参考訳(メタデータ) (2025-10-09T07:22:12Z) - Model Predictive Control for Crowd Navigation via Learning-Based Trajectory Prediction [2.8544513613730214]
本研究は,物理的コンチネンタルコリールロボット上でのモデル予測制御(MPC)フレームワークにおける,深層学習に基づくソーシャル・インプシシット(SI)歩行者軌道予測器の統合性を評価する。
その結果、SIは軌道予測を改善し、低密度設定でエラーを最大76%削減し、混雑したシーンでの安全性と動きのスムーズさを高めている。
これらの知見はシステムレベルの評価の重要性を強調し、より安全で適応的なナビゲーションを実現するためのSI-MPCフレームワークの約束を強調している。
論文 参考訳(メタデータ) (2025-08-09T19:11:28Z) - SANGO: Socially Aware Navigation through Grouped Obstacles [0.09895793818721334]
本稿では,障害を動的にグループ化し,社会的規範に固執することによって,社会的に適切な行動を保証する新しい手法であるSANGOを紹介する。
深層強化学習を用いて、SANGOは、障害クラスタリングにDBSCANアルゴリズムを、経路計画にPPO(Pximal Policy Optimization)を活用する複雑な環境をナビゲートするエージェントを訓練する。
提案手法は, 適切な距離を維持し, 衝突率を下げることにより, 安全性と社会コンプライアンスを向上させる。
論文 参考訳(メタデータ) (2024-11-29T06:29:46Z) - iPLAN: Intent-Aware Planning in Heterogeneous Traffic via Distributed
Multi-Agent Reinforcement Learning [57.24340061741223]
本稿では,高密度および不均一な交通シナリオにおける軌跡や意図を予測できる分散マルチエージェント強化学習(MARL)アルゴリズムを提案する。
インテント対応プランニングのアプローチであるiPLANにより、エージェントは近くのドライバーの意図をローカルな観察からのみ推測できる。
論文 参考訳(メタデータ) (2023-06-09T20:12:02Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。