論文の概要: A Self-Correcting Vision-Language-Action Model for Fast and Slow System Manipulation
- arxiv url: http://arxiv.org/abs/2405.17418v2
- Date: Wed, 19 Mar 2025 03:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 17:45:40.621576
- Title: A Self-Correcting Vision-Language-Action Model for Fast and Slow System Manipulation
- Title(参考訳): 高速・低速システムマニピュレーションのための自己補正型ビジョンランゲージ・アクションモデル
- Authors: Chenxuan Li, Jiaming Liu, Guanqun Wang, Xiaoqi Li, Sixiang Chen, Liang Heng, Chuyan Xiong, Jiaxin Ge, Renrui Zhang, Kaichen Zhou, Shanghang Zhang,
- Abstract要約: 自己修正(SC-)VLAフレームワークは、アクションを直接予測する高速システムと、失敗したアクションを反映する遅いシステムを統合する。
高速システムでは,パラメータ効率のよい微調整を取り入れて,モデルにポーズ予測機能を持たせる。
動作が遅いシステムでは,動作不良後の人間の反射を模倣するように設計された,故障訂正のためのチェーン・オブ・ソート・トレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 30.207690822989292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, some studies have integrated Multimodal Large Language Models into robotic manipulation, constructing vision-language-action models (VLAs) to interpret multimodal information and predict SE(3) poses. While VLAs have shown promising progress, they may suffer from failures when faced with novel and complex tasks. To emulate human-like reasoning for more robust manipulation, we propose the self-corrected (SC-)VLA framework, which integrates fast system for directly predicting actions and slow system for reflecting on failed actions within a single VLA policy. For the fast system, we incorporate parameter-efficient fine-tuning to equip the model with pose prediction capabilities while preserving the inherent reasoning abilities of MLLMs. For the slow system, we propose a Chain-of-Thought training strategy for failure correction, designed to mimic human reflection after a manipulation failure. Specifically, our model learns to identify the causes of action failures, adaptively seek expert feedback, reflect on the current failure scenario, and iteratively generate corrective actions, step by step. Furthermore, a continuous policy learning method is designed based on successfully corrected samples, enhancing the fast system's adaptability to the current configuration. We compare SC-VLA with the previous SOTA VLA in both simulation and real-world tasks, demonstrating an efficient correction process and improved manipulation accuracy on both seen and unseen tasks.
- Abstract(参考訳): 近年,多モーダル大言語モデルをロボット操作に統合し,多モーダル情報を解釈し,SE(3)ポーズを予測する視覚言語行動モデル(VLA)を構築している研究もある。
VLAは有望な進歩を示したが、新規で複雑なタスクに直面した場合には失敗する可能性がある。
より堅牢な操作のための人間ライクな推論をエミュレートするために,動作を直接予測する高速システムと,単一のVLAポリシ内での動作失敗を反映する遅いシステムを統合した自己修正(SC-)VLAフレームワークを提案する。
高速システムにおいて,MLLMの固有推論能力を保ちながら,モデルにポーズ予測機能を持たせるためにパラメータ効率のよい微調整を取り入れた。
動作が遅いシステムでは,動作不良後の人間の反射を模倣するように設計された,故障訂正のためのチェーン・オブ・ソート・トレーニング戦略を提案する。
具体的には、アクション障害の原因を特定し、専門家のフィードバックを適応的に求め、現在の障害シナリオを反映し、反復的に修正アクションをステップバイステップで生成する。
さらに,提案手法は,有効に修正されたサンプルに基づいて設計され,現在の構成への適応性が向上する。
SC-VLAと従来のSOTA VLAをシミュレーションおよび実世界のタスクで比較し、効率的な修正プロセスを示し、目に見えるタスクと目に見えないタスクの操作精度を改善した。
関連論文リスト
- CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Self-Corrective Task Planning by Inverse Prompting with Large Language Models [9.283971287618261]
InversePromptは,新しい自己修正型タスクプランニング手法である。
提案手法は、明確な解釈可能なフィードバックを提供するための推論ステップを組み込んだものである。
ベンチマークデータセットの結果は、既存のLCMベースのタスク計画手法よりも平均16.3%高い成功率を示している。
論文 参考訳(メタデータ) (2025-03-10T13:35:51Z) - Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding [24.1236728596359]
VLA(Vision-Language-Action)モデルでは、一般化可能なロボット操作の可能性を示している。
本稿では,アクションチャンキングと統合されたVLAモデルのための最初の並列デコーディングフレームワークであるPD-VLAを提案する。
本フレームワークは,並列な固定点反復によって解く非線形システムとして自己回帰復号を再構成する。
論文 参考訳(メタデータ) (2025-03-04T06:12:08Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。
インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。
本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-23T20:42:15Z) - MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Self-Healing Machine Learning: A Framework for Autonomous Adaptation in Real-World Environments [50.310636905746975]
実世界の機械学習システムは、基礎となるデータ生成プロセスの分散シフトによって、モデルの性能劣化に遭遇することが多い。
概念のドリフト適応のような既存のシフトへのアプローチは、その理性に依存しない性質によって制限される。
我々はこれらの制限を克服するために自己修復機械学習(SHML)を提案する。
論文 参考訳(メタデータ) (2024-10-31T20:05:51Z) - RACER: Rich Language-Guided Failure Recovery Policies for Imitation Learning [19.023560632891467]
本稿では,障害復旧トラジェクトリによる専門家によるデモンストレーションを強化する,スケーラブルなデータ生成パイプラインを提案する。
次に、Rich languAge-guided failure reCovERy(RACER)を紹介します。
実験の結果,RACERはRLbench上での最先端のロボットビュートランスよりも優れていた。
論文 参考訳(メタデータ) (2024-09-23T02:50:33Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - Real-Time Anomaly Detection and Reactive Planning with Large Language Models [18.57162998677491]
例えば、大規模な言語モデル(LLM)は、インターネットスケールのデータに基づいて訓練され、ゼロショット機能を持つ。
本稿では,潜在的な異常に関する判断を安全な制御フレームワークに組み込む2段階の推論フレームワークを提案する。
これにより、モニターは、四輪車や自動運転車のような動的ロボットシステムの信頼性を向上させることができる。
論文 参考訳(メタデータ) (2024-07-11T17:59:22Z) - AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation [10.565956950284896]
ロボットシステムにとって、失敗を反映し修正する能力は、現実の物体と安定して相互作用することが不可欠である。
従来のアプローチでは,マルチモーダル大規模言語モデルを用いてロボットシステムを強化することを目的としていた。
本稿では,従来の低レベルの対話体験を利用して,音声オブジェクトのSE(3)ポーズの予測を補正する自律的対話補正(AIC)MLLMを提案する。
論文 参考訳(メタデータ) (2024-06-17T13:44:53Z) - Verbalized Machine Learning: Revisiting Machine Learning with Language Models [63.10391314749408]
言語化機械学習(VML)の枠組みを紹介する。
VMLはパラメータ空間を人間の解釈可能な自然言語に制限する。
我々は,VMLの有効性を実証的に検証し,VMLがより強力な解釈可能性を実現するためのステップストーンとして機能することを期待する。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。
しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。
本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T12:52:06Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - ManipLLM: Embodied Multimodal Large Language Model for Object-Centric
Robotic Manipulation [22.071450379253235]
MLLM(Multimodal Large Language Models)の頑健な推論機能を活用したロボット操作のための革新的なアプローチを提案する。
インジェクトアダプタの微調整により,MLLMの固有共通感覚と推論能力を保ちながら,操作能力も備えている。
シミュレータと実世界の実験は,ManipLLMの有望な性能を示している。
論文 参考訳(メタデータ) (2023-12-24T06:38:11Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。