論文の概要: A Self-Correcting Vision-Language-Action Model for Fast and Slow System Manipulation
- arxiv url: http://arxiv.org/abs/2405.17418v2
- Date: Wed, 19 Mar 2025 03:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:20:23.427328
- Title: A Self-Correcting Vision-Language-Action Model for Fast and Slow System Manipulation
- Title(参考訳): 高速・低速システムマニピュレーションのための自己補正型ビジョンランゲージ・アクションモデル
- Authors: Chenxuan Li, Jiaming Liu, Guanqun Wang, Xiaoqi Li, Sixiang Chen, Liang Heng, Chuyan Xiong, Jiaxin Ge, Renrui Zhang, Kaichen Zhou, Shanghang Zhang,
- Abstract要約: 自己修正(SC-)VLAフレームワークは、アクションを直接予測する高速システムと、失敗したアクションを反映する遅いシステムを統合する。
高速システムでは,パラメータ効率のよい微調整を取り入れて,モデルにポーズ予測機能を持たせる。
動作が遅いシステムでは,動作不良後の人間の反射を模倣するように設計された,故障訂正のためのチェーン・オブ・ソート・トレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 30.207690822989292
- License:
- Abstract: Recently, some studies have integrated Multimodal Large Language Models into robotic manipulation, constructing vision-language-action models (VLAs) to interpret multimodal information and predict SE(3) poses. While VLAs have shown promising progress, they may suffer from failures when faced with novel and complex tasks. To emulate human-like reasoning for more robust manipulation, we propose the self-corrected (SC-)VLA framework, which integrates fast system for directly predicting actions and slow system for reflecting on failed actions within a single VLA policy. For the fast system, we incorporate parameter-efficient fine-tuning to equip the model with pose prediction capabilities while preserving the inherent reasoning abilities of MLLMs. For the slow system, we propose a Chain-of-Thought training strategy for failure correction, designed to mimic human reflection after a manipulation failure. Specifically, our model learns to identify the causes of action failures, adaptively seek expert feedback, reflect on the current failure scenario, and iteratively generate corrective actions, step by step. Furthermore, a continuous policy learning method is designed based on successfully corrected samples, enhancing the fast system's adaptability to the current configuration. We compare SC-VLA with the previous SOTA VLA in both simulation and real-world tasks, demonstrating an efficient correction process and improved manipulation accuracy on both seen and unseen tasks.
- Abstract(参考訳): 近年,多モーダル大言語モデルをロボット操作に統合し,多モーダル情報を解釈し,SE(3)ポーズを予測する視覚言語行動モデル(VLA)を構築している研究もある。
VLAは有望な進歩を示したが、新規で複雑なタスクに直面した場合には失敗する可能性がある。
より堅牢な操作のための人間ライクな推論をエミュレートするために,動作を直接予測する高速システムと,単一のVLAポリシ内での動作失敗を反映する遅いシステムを統合した自己修正(SC-)VLAフレームワークを提案する。
高速システムにおいて,MLLMの固有推論能力を保ちながら,モデルにポーズ予測機能を持たせるためにパラメータ効率のよい微調整を取り入れた。
動作が遅いシステムでは,動作不良後の人間の反射を模倣するように設計された,故障訂正のためのチェーン・オブ・ソート・トレーニング戦略を提案する。
具体的には、アクション障害の原因を特定し、専門家のフィードバックを適応的に求め、現在の障害シナリオを反映し、反復的に修正アクションをステップバイステップで生成する。
さらに,提案手法は,有効に修正されたサンプルに基づいて設計され,現在の構成への適応性が向上する。
SC-VLAと従来のSOTA VLAをシミュレーションおよび実世界のタスクで比較し、効率的な修正プロセスを示し、目に見えるタスクと目に見えないタスクの操作精度を改善した。
関連論文リスト
- QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning [35.11412101089823]
本稿では,多モーダル大規模言語モデル(MLLM)を4つの視覚-言語-アクションタスクに展開する際の,固有の推論遅延問題に対処する。
言語基盤モデルの性能を劣化させることなく推論効率を向上させるために, QUIRT-Online と呼ばれる新しい待ち時間フリーの4重結合MLLMモデルを提案する。
実験の結果, QUIRT-Onlineは既存のMLLMシステムと連動して動作し, 制御周波数に同期してリアルタイムの推論を実現することがわかった。
論文 参考訳(メタデータ) (2024-12-20T05:17:06Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach [31.654345704242512]
本稿では,新しいモデルレベルの判断自由自己改善フレームワークを提案する。
本手法では,検証ループにおけるMLLMの必要性を解消しつつ,制御されたフィードバック機構を用いる。
計算要求が大幅に小さく、精度とリコールの精度が向上する。
論文 参考訳(メタデータ) (2024-11-26T00:44:37Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation [10.565956950284896]
ロボットシステムにとって、失敗を反映し修正する能力は、現実の物体と安定して相互作用することが不可欠である。
従来のアプローチでは,マルチモーダル大規模言語モデルを用いてロボットシステムを強化することを目的としていた。
本稿では,従来の低レベルの対話体験を利用して,音声オブジェクトのSE(3)ポーズの予測を補正する自律的対話補正(AIC)MLLMを提案する。
論文 参考訳(メタデータ) (2024-06-17T13:44:53Z) - ManipLLM: Embodied Multimodal Large Language Model for Object-Centric
Robotic Manipulation [22.071450379253235]
MLLM(Multimodal Large Language Models)の頑健な推論機能を活用したロボット操作のための革新的なアプローチを提案する。
インジェクトアダプタの微調整により,MLLMの固有共通感覚と推論能力を保ちながら,操作能力も備えている。
シミュレータと実世界の実験は,ManipLLMの有望な性能を示している。
論文 参考訳(メタデータ) (2023-12-24T06:38:11Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。