Fugu-MT 論文翻訳(概要): Hierarchical Vision Language Action Model Using Success and Failure Demonstrations

論文の概要: Hierarchical Vision Language Action Model Using Success and Failure Demonstrations

arxiv url: http://arxiv.org/abs/2512.03913v1
Date: Wed, 03 Dec 2025 15:58:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-04 20:02:55.3616
Title: Hierarchical Vision Language Action Model Using Success and Failure Demonstrations
Title（参考訳）: 成功例と失敗例を用いた階層型視覚言語行動モデル
Authors: Jeongeun Park, Jihwan Yoon, Byungwoo Jeon, Juhan Park, Jinwoo Shin, Namhoon Cho, Kyungjae Lee, Sangdoo Yun, Sungjoon Choi,
Abstract要約: 階層型視覚-言語-アクションモデルであるVINEを導入し,高レベル推論を低レベル制御から分離する。システム2は、2Dシーングラフの抽象化を介して、実現可能性誘導木探索を行う。システム1はエージェントのコアスキルを変更することなく、低レベルのアクションを実行する。
参考スコア（独自算出の注目度）: 60.82332413442677
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prior Vision-Language-Action (VLA) models are typically trained on teleoperated successful demonstrations, while discarding numerous failed attempts that occur naturally during data collection. However, these failures encode where and how policies can be fragile, information that can be exploited to improve robustness. We address this problem by leveraging mixed-quality datasets to learn failure-aware reasoning at planning time. We introduce VINE, a hierarchical vision-language-action model that separates high-level reasoning (System 2) from low-level control (System 1) under a hierarchical reinforcement learning formalism, making failures usable as a structured learning signal rather than noisy supervision. System 2 performs feasibility-guided tree search over a 2D scene-graph abstraction: it proposes subgoal transitions, predicts success probabilities from both successes and failures, and prunes brittle branches before execution, effectively casting plan evaluation as feasibility scoring. The selected subgoal sequence is then passed to System 1, which executes low-level actions without modifying the agent's core skills. Trained entirely from offline teleoperation data, VINE integrates negative experience directly into the decision loop. Across challenging manipulation tasks, this approach consistently improves success rates and robustness, demonstrating that failure data is an essential resource for converting the broad competence of VLAs into robust execution.
Abstract（参考訳）: 以前のVision-Language-Action(VLA)モデルは、通常、遠隔操作で成功したデモをトレーニングし、データ収集中に自然に発生する多くの失敗の試みを破棄する。しかし、これらの失敗は、ポリシーが脆弱な場所と方法、堅牢性を改善するために活用できる情報をエンコードする。混合品質データセットを活用して、計画時の障害認識推論を学習することで、この問題に対処する。階層型強化学習形式の下では,高次推論と低次制御(システム1)を分離した階層型視覚言語行動モデルであるVINEを導入する。システム2は,2次元シーングラフの抽象的抽象化による実行可能性誘導木探索を行い,サブゴール遷移を提案し,成功と失敗の両方から成功確率を予測し,実行前の枝の脆化を予測し,実行可能性スコアとして計画評価を効果的に実施する。選択されたサブゴールシーケンスはSystem 1に渡され、エージェントのコアスキルを変更することなく低レベルアクションを実行する。オフラインの遠隔操作データから完全にトレーニングされたVINEは、ネガティブなエクスペリエンスを直接意思決定ループに統合する。課題のある操作タスク全体にわたって、このアプローチは成功率と堅牢性を一貫して改善し、VLAの広範な能力を堅牢な実行に変換する上で、障害データが必須のリソースであることを実証する。

関連論文リスト

EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。 Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。 EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文参考訳（メタデータ） (2025-12-16T18:26:38Z)
Dual-level Modality Debiasing Learning for Unsupervised Visible-Infrared Person Re-Identification [59.59359638389348]
本稿では,モデルと最適化の両レベルでのデバイアス処理を実装したデュアルレベルのモダリティ・デバイアス学習フレームワークを提案する。ベンチマークデータセットの実験では、DMDLはモダリティ不変の特徴学習とより一般化されたモデルを可能にすることを示した。
論文参考訳（メタデータ） (2025-12-03T12:43:16Z)
Guardian: Detecting Robotic Planning and Execution Errors with Vision-Language Models [53.20969621498248]
本稿では,多種多様な計画および実行障害を生成するために,軌道を手続き的に乱す自動ロボット故障合成手法を提案する。 RLBench-Fail, BridgeDataV2-Fail, UR5-Failの3つの新しい故障検出ベンチマークを構築した。次に、詳細な障害推論と検出のためのマルチビューイメージを備えたVLMであるGuardianをトレーニングします。
論文参考訳（メタデータ） (2025-12-01T17:57:27Z)
iFlyBot-VLA Technical Report [25.330744626382977]
iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
論文参考訳（メタデータ） (2025-11-01T06:24:56Z)
Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing [70.35701681177655]
自己改善は、大きな視覚言語モデルの推論能力を向上するための主流パラダイムとして現れてきた。本研究では,探索学習による自己改善プロセスにおいて,頭部再バランスを実現するための4つの効率的な戦略を提案する。我々の手法は視覚的推論能力を常に改善し、バニラ自己改善を平均3.86ポイント上回る。
論文参考訳（メタデータ） (2025-10-30T13:26:58Z)
Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文参考訳（メタデータ） (2025-10-22T16:43:29Z)
A Unified Framework for Real-Time Failure Handling in Robotics Using Vision-Language Models, Reactive Planner and Behavior Trees [1.3481665321936716]
本稿では,リアクティブプランナであるVLM(Vision-Language Models)とBT(Behavior Trees)を組み合わせて,リアルタイムの障害処理を実現する,統合された障害復旧フレームワークを提案する。当社のアプローチには、実行前の潜在的な障害をチェックする事前実行検証と、実行中の障害を検出し修正するリアクティブ障害処理が含まれている。我々は、ペグ挿入、オブジェクトソート、引き手の配置といったタスクにおいて、ABB YuMiロボットを用いた実世界の実験を通して、我々のフレームワークを評価する。
論文参考訳（メタデータ） (2025-03-19T13:40:56Z)
Validity Learning on Failures: Mitigating the Distribution Shift in Autonomous Vehicle Planning [2.3558144417896583]
計画問題は、自律運転フレームワークの基本的な側面を構成する。この問題に対処するための対策として,失敗に対する妥当性学習,VL(on failure)を提案する。 VL(on failure)は最先端の手法よりも大きなマージンで優れていることを示す。
論文参考訳（メタデータ） (2024-06-03T17:25:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。