論文の概要: GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation
- arxiv url: http://arxiv.org/abs/2502.09268v2
- Date: Fri, 14 Feb 2025 01:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 18:06:39.327034
- Title: GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation
- Title(参考訳): GEVRM:ロバストな視覚操作のためのゴール圧縮ビデオ生成モデル
- Authors: Hongyin Zhang, Pengxiang Ding, Shangke Lyu, Ying Peng, Donglin Wang,
- Abstract要約: 本稿では,ロボットの視覚操作の堅牢性を高めるために,新しい閉ループ視覚言語アクション(VLA)法を提案する。
GEVRMのテキスト誘導ビデオ生成モデルは、表現力の高い将来の視覚計画目標を生成することができる。
GEVRMは、標準ベンチマークとCALVINベンチマークの両方で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 22.968763141077375
- License:
- Abstract: With the rapid development of embodied artificial intelligence, significant progress has been made in vision-language-action (VLA) models for general robot decision-making. However, the majority of existing VLAs fail to account for the inevitable external perturbations encountered during deployment. These perturbations introduce unforeseen state information to the VLA, resulting in inaccurate actions and consequently, a significant decline in generalization performance. The classic internal model control (IMC) principle demonstrates that a closed-loop system with an internal model that includes external input signals can accurately track the reference input and effectively offset the disturbance. We propose a novel closed-loop VLA method GEVRM that integrates the IMC principle to enhance the robustness of robot visual manipulation. The text-guided video generation model in GEVRM can generate highly expressive future visual planning goals. Simultaneously, we evaluate perturbations by simulating responses, which are called internal embeddings and optimized through prototype contrastive learning. This allows the model to implicitly infer and distinguish perturbations from the external environment. The proposed GEVRM achieves state-of-the-art performance on both standard and perturbed CALVIN benchmarks and shows significant improvements in realistic robot tasks.
- Abstract(参考訳): インボディード・人工知能の急速な発展に伴い、一般的なロボットの意思決定のための視覚言語アクション(VLA)モデルに大きな進歩が見られた。
しかしながら、既存のVLAの大多数は、デプロイメント中に発生する避けられない外部の摂動を考慮していない。
これらの摂動は、VLAに予期せぬ状態情報をもたらし、結果として不正確な動作となり、結果として一般化性能が著しく低下する。
古典的内部モデル制御(IMC)の原理は、外部入力信号を含む内部モデルを持つ閉ループシステムが基準入力を正確に追跡し、障害を効果的にオフセットできることを証明している。
ロボット視覚操作のロバスト性を高めるため,IMC原理を統合した新しい閉ループVLA法GEVRMを提案する。
GEVRMのテキスト誘導ビデオ生成モデルは、表現力の高い将来の視覚計画目標を生成することができる。
同時に、内部埋め込みと呼ばれ、プロトタイプのコントラスト学習によって最適化された応答をシミュレートして摂動を評価する。
これにより、モデルが暗黙的に外部環境から摂動を推測し、区別することができる。
提案したGEVRMは、標準および摂動型CALVINベンチマークの最先端性能を実現し、現実的なロボットタスクの大幅な改善を示す。
関連論文リスト
- HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-12-11T06:35:18Z) - Neural Internal Model Control: Learning a Robust Control Policy via Predictive Error Feedback [16.46487826869775]
本稿では,モデルベース制御とRLベース制御を統合し,ロバスト性を高めるニューラル内部モデル制御を提案する。
我々のフレームワークは、剛体力学にニュートン・オイラー方程式を適用することで予測モデルを合理化し、複雑な高次元非線形性を捉える必要がなくなる。
本研究では,四足歩行ロボットと四足歩行ロボットにおけるフレームワークの有効性を実証し,最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T07:07:42Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文 参考訳(メタデータ) (2024-10-23T17:56:11Z) - Adaptive Motion Generation Using Uncertainty-Driven Foresight Prediction [2.2120851074630177]
環境の不確実性は、現実のロボットタスクを実行する際には、長年、扱いにくい特徴だった。
本稿では,動的内部シミュレーションを用いたフォレスト予測を用いた既存の予測学習に基づくロボット制御手法を拡張した。
その結果,提案モデルではドアとの相互作用により動作が適応的に分岐し,従来の手法では安定に分岐しなかった。
論文 参考訳(メタデータ) (2024-10-01T15:13:27Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Real-Time Anomaly Detection and Reactive Planning with Large Language Models [18.57162998677491]
例えば、大規模な言語モデル(LLM)は、インターネットスケールのデータに基づいて訓練され、ゼロショット機能を持つ。
本稿では,潜在的な異常に関する判断を安全な制御フレームワークに組み込む2段階の推論フレームワークを提案する。
これにより、モニターは、四輪車や自動運転車のような動的ロボットシステムの信頼性を向上させることができる。
論文 参考訳(メタデータ) (2024-07-11T17:59:22Z) - PIDformer: Transformer Meets Control Theory [28.10913642120948]
我々は、そのソリューションのスムーズさを本質的に促進する自律的状態空間モデルとして自己意識を公表する。
モデルに参照点を持つPID(Proportional-Integral-Derivative)クローズドループフィードバック制御システムを導入し,ロバスト性や表現能力の向上を図る。
この制御フレームワークにより、新しい変換器のクラス、PID制御変換器(PIDformer)を導出する。
論文 参考訳(メタデータ) (2024-02-25T05:04:51Z) - Utilizing Multiple Inputs Autoregressive Models for Bearing Remaining
Useful Life Prediction [3.448070371030467]
軸受のRUL予測において,この課題に対処する新しい多入力自己回帰モデルを提案する。
自己回帰反復により、モデルはグローバルな受容場を獲得し、一般化の限界を効果的に克服する。
PMH2012データセットの実証評価では, 同様の自己回帰アプローチを用いたバックボーンネットワークと比較して, ルート平均角誤差(RMSE)とスコアが有意に低いことが示されている。
論文 参考訳(メタデータ) (2023-11-26T09:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。