Fugu-MT 論文翻訳(概要): DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

論文の概要: DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

arxiv url: http://arxiv.org/abs/2603.09121v1
Date: Tue, 10 Mar 2026 02:55:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:23.96348
Title: DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation
Title（参考訳）: DexHiL: Dexterous Manipulationにおけるビジョン・ランゲージ・アクション・モデル後のトレーニングのためのヒューマン・イン・ザ・ループ・フレームワーク
Authors: Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao Lian,
Abstract要約: ヒューマン・イン・ザ・ループ(HiL)学習は、ロボットポリシーを洗練するための強力なメカニズムであることが証明されている。 DexHiLはDexterous VLAモデルのための最初の統合アームハンドヒューマン・イン・ザ・ループ・フレームワークである。
参考スコア（独自算出の注目度）: 14.050551792714083
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While Vision-Language-Action (VLA) models have demonstrated promising generalization capabilities in robotic manipulation, deploying them on specific and complex downstream tasks still demands effective post-training. In parallel, Human-in-the-Loop (HiL) learning has proven to be a powerful mechanism for refining robot policies. However, extending this paradigm to dexterous manipulation remains challenging: multi-finger control is high-dimensional, contact-intensive, and exhibits execution distributions that differ markedly from standard arm motions, leaving existing dexterous VLA systems limited in reliability and adaptability. We present DexHiL, the first integrated arm-hand human-in-the-loop framework for dexterous VLA models, enabling coordinated interventions over the arm and the dexterous hand within a single system. DexHiL introduces an intervention-aware data sampling strategy that prioritizes corrective segments for post-training, alongside a lightweight teleoperation interface that supports instantaneous human corrections during execution. Real-robot experiments demonstrate that DexHiL serves as an effective post-training framework, yielding a substantial performance leap, outperforming standard offline-only fine-tuning baselines by an average of 25% in success rates across distinct tasks. Project page: https://chenzhongxi-sjtu.github.io/dexhil/
Abstract（参考訳）: Vision-Language-Action(VLA)モデルは、ロボット操作において有望な一般化能力を示しているが、特定の複雑な下流タスクにそれらをデプロイするには、効果的な後トレーニングが必要である。並行して、Human-in-the-Loop(HiL)学習は、ロボットポリシーを洗練するための強力なメカニズムであることが証明されている。マルチフィンガー制御は高次元で接触集約的で、標準アームの動きと著しく異なる実行分布を示し、既存のデキスタラスVLAシステムは信頼性と適応性に制限される。 DexHiLはDexterous VLAモデルのための最初の統合アームハンドヒューマン・イン・ザ・ループ・フレームワークであり、単一のシステム内で腕とデキスタラスハンドの協調的介入を可能にする。 DexHiLでは、トレーニング後の修正セグメントを優先する介入対応のデータサンプリング戦略と、実行中の即時修正をサポートする軽量な遠隔操作インターフェースが導入されている。実ロボット実験は、DexHiLが効果的なトレーニング後のフレームワークとして機能し、パフォーマンスが飛躍的に向上し、標準のオフラインのみの微調整ベースラインを、異なるタスク間で平均25%の成功率で上回っていることを示している。プロジェクトページ:https://chenzhongxi-sjtu.github.io/dexhil/

関連論文リスト

METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model [36.82365894983052]
大きなボトルネックは、デクスタラススキルのための大規模でアクションアノテートされたデータの不足にある。我々は,エゴセントリックなデータセット上で事前学習したデクスタラス操作のための視覚言語アクションモデルMETISを提案する。提案手法は,6つの実世界のタスクにおける平均成功率を達成し,異常な操作能力を示す。
論文参考訳（メタデータ） (2025-11-21T16:32:36Z)
End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy: VR Teleoperation Augmented by Autonomous Hand VLA Policy for Efficient Data Collection [10.217810309422232]
マクロモーションとマイクロモーションの制御を分割するフレームワークを提案する。人間のオペレーターが直感的なVR遠隔操作を通してロボットの腕のポーズをガイドします。自律的なDexGrasp-VLAポリシは、リアルタイム触覚と視覚フィードバックを使用して、きめ細かい手制御を処理する。
論文参考訳（メタデータ） (2025-10-31T16:12:02Z)
IntentionVLA: Generalizable and Efficient Embodied Intention Reasoning for Human-Robot Interaction [51.130510883952546]
Vision-Language-Action(VLA)モデルは、事前訓練された視覚言語モデル(VLM)を活用して、ロボット制御との認識を両立させる。カリキュラム学習パラダイムと効率的な推論機構を備えたVLAフレームワークである textbfIntentionVLA を提案する。提案手法はまず,意図推論,空間的接地,コンパクトな具体的推論を組み合わせ,慎重に設計した推論データを活用する。
論文参考訳（メタデータ） (2025-10-09T04:49:46Z)
Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文参考訳（メタデータ） (2025-09-02T07:51:59Z)
Human-assisted Robotic Policy Refinement via Action Preference Optimization [26.144183856600687]
行動選好最適化(Action Preference Optimization、APO)は、視覚・言語・行動モデル(VLA)を人間の操作による選好アライメントによって洗練する手法である。これを解決するために、APOは相互作用から導出される二元的望ましくない信号を用いた適応的再重み付けアルゴリズムを提案する。シミュレーションと実世界のシナリオで行われた実験は、より優れた一般化とロバスト性を示す。
論文参考訳（メタデータ） (2025-06-08T13:14:18Z)
DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation [78.60543357822957]
高度なロボティクスにとって、接触に富んだ相互作用による有害な操作が不可欠である。 DexHandDiffは,適応的デキスタラス操作のための対話型拡散計画フレームワークである。当社のフレームワークは, 目標適応度の高いタスクにおいて, 平均70.7%の成功率を実現し, コンタクトリッチな操作における堅牢性と柔軟性を強調した。
論文参考訳（メタデータ） (2024-11-27T18:03:26Z)
Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文参考訳（メタデータ） (2024-07-11T17:31:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。