Fugu-MT 論文翻訳(概要): GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation

論文の概要: GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation

arxiv url: http://arxiv.org/abs/2502.09268v2
Date: Fri, 14 Feb 2025 01:51:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-17 13:26:31.346232
Title: GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation
Title（参考訳）: GEVRM:ロバストな視覚操作のためのゴール圧縮ビデオ生成モデル
Authors: Hongyin Zhang, Pengxiang Ding, Shangke Lyu, Ying Peng, Donglin Wang,
Abstract要約: 本稿では,ロボットの視覚操作の堅牢性を高めるために,新しい閉ループ視覚言語アクション(VLA)法を提案する。 GEVRMのテキスト誘導ビデオ生成モデルは、表現力の高い将来の視覚計画目標を生成することができる。 GEVRMは、標準ベンチマークとCALVINベンチマークの両方で最先端のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 22.968763141077375
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid development of embodied artificial intelligence, significant progress has been made in vision-language-action (VLA) models for general robot decision-making. However, the majority of existing VLAs fail to account for the inevitable external perturbations encountered during deployment. These perturbations introduce unforeseen state information to the VLA, resulting in inaccurate actions and consequently, a significant decline in generalization performance. The classic internal model control (IMC) principle demonstrates that a closed-loop system with an internal model that includes external input signals can accurately track the reference input and effectively offset the disturbance. We propose a novel closed-loop VLA method GEVRM that integrates the IMC principle to enhance the robustness of robot visual manipulation. The text-guided video generation model in GEVRM can generate highly expressive future visual planning goals. Simultaneously, we evaluate perturbations by simulating responses, which are called internal embeddings and optimized through prototype contrastive learning. This allows the model to implicitly infer and distinguish perturbations from the external environment. The proposed GEVRM achieves state-of-the-art performance on both standard and perturbed CALVIN benchmarks and shows significant improvements in realistic robot tasks.
Abstract（参考訳）: インボディード・人工知能の急速な発展に伴い、一般的なロボットの意思決定のための視覚言語アクション(VLA)モデルに大きな進歩が見られた。しかしながら、既存のVLAの大多数は、デプロイメント中に発生する避けられない外部の摂動を考慮していない。これらの摂動は、VLAに予期せぬ状態情報をもたらし、結果として不正確な動作となり、結果として一般化性能が著しく低下する。古典的内部モデル制御(IMC)の原理は、外部入力信号を含む内部モデルを持つ閉ループシステムが基準入力を正確に追跡し、障害を効果的にオフセットできることを証明している。ロボット視覚操作のロバスト性を高めるため,IMC原理を統合した新しい閉ループVLA法GEVRMを提案する。 GEVRMのテキスト誘導ビデオ生成モデルは、表現力の高い将来の視覚計画目標を生成することができる。同時に、内部埋め込みと呼ばれ、プロトタイプのコントラスト学習によって最適化された応答をシミュレートして摂動を評価する。これにより、モデルが暗黙的に外部環境から摂動を推測し、区別することができる。提案したGEVRMは、標準および摂動型CALVINベンチマークの最先端性能を実現し、現実的なロボットタスクの大幅な改善を示す。

関連論文リスト

EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。 1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文参考訳（メタデータ） (2025-07-18T16:15:09Z)
SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [69.54069477520534]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文参考訳（メタデータ） (2025-06-15T05:04:17Z)
Robotic Policy Learning via Human-assisted Action Preference Optimization [23.970142506006397]
VLA(Vision-Language-Action)モデルは、そのようなロボット展開の基礎モデルとして広く認識されている。本稿では,Human-Assisted Action Preference Optimization(HAPO)を提案する。
論文参考訳（メタデータ） (2025-06-08T13:14:18Z)
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文参考訳（メタデータ） (2025-03-27T22:23:04Z)
HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文参考訳（メタデータ） (2025-03-13T17:59:52Z)
VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文参考訳（メタデータ） (2025-03-08T10:54:42Z)
HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [53.1667647451501]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文参考訳（メタデータ） (2025-02-08T07:50:22Z)
Neural Internal Model Control: Learning a Robust Control Policy via Predictive Error Feedback [16.46487826869775]
本稿では,モデルベース制御とRLベース制御を統合し,ロバスト性を高めるニューラル内部モデル制御を提案する。我々のフレームワークは、剛体力学にニュートン・オイラー方程式を適用することで予測モデルを合理化し、複雑な高次元非線形性を捉える必要がなくなる。本研究では,四足歩行ロボットと四足歩行ロボットにおけるフレームワークの有効性を実証し,最先端の手法と比較して優れた性能を実現する。
論文参考訳（メタデータ） (2024-11-20T07:07:42Z)
WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。 WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文参考訳（メタデータ） (2024-10-23T17:56:11Z)
Adaptive Motion Generation Using Uncertainty-Driven Foresight Prediction [2.2120851074630177]
環境の不確実性は、現実のロボットタスクを実行する際には、長年、扱いにくい特徴だった。本稿では,動的内部シミュレーションを用いたフォレスト予測を用いた既存の予測学習に基づくロボット制御手法を拡張した。その結果,提案モデルではドアとの相互作用により動作が適応的に分岐し,従来の手法では安定に分岐しなかった。
論文参考訳（メタデータ） (2024-10-01T15:13:27Z)
ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文参考訳（メタデータ） (2024-09-23T17:47:59Z)
Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文参考訳（メタデータ） (2024-08-24T18:28:19Z)
Real-Time Anomaly Detection and Reactive Planning with Large Language Models [18.57162998677491]
例えば、大規模な言語モデル(LLM)は、インターネットスケールのデータに基づいて訓練され、ゼロショット機能を持つ。本稿では,潜在的な異常に関する判断を安全な制御フレームワークに組み込む2段階の推論フレームワークを提案する。これにより、モニターは、四輪車や自動運転車のような動的ロボットシステムの信頼性を向上させることができる。
論文参考訳（メタデータ） (2024-07-11T17:59:22Z)
A Self-Correcting Vision-Language-Action Model for Fast and Slow System Manipulation [30.207690822989292]
自己修正(SC-)VLAフレームワークは、アクションを直接予測する高速システムと、失敗したアクションを反映する遅いシステムを統合する。高速システムでは,パラメータ効率のよい微調整を取り入れて,モデルにポーズ予測機能を持たせる。動作が遅いシステムでは,動作不良後の人間の反射を模倣するように設計された,故障訂正のためのチェーン・オブ・ソート・トレーニング戦略を提案する。
論文参考訳（メタデータ） (2024-05-27T17:58:48Z)
PIDformer: Transformer Meets Control Theory [28.10913642120948]
我々は、そのソリューションのスムーズさを本質的に促進する自律的状態空間モデルとして自己意識を公表する。モデルに参照点を持つPID(Proportional-Integral-Derivative)クローズドループフィードバック制御システムを導入し,ロバスト性や表現能力の向上を図る。この制御フレームワークにより、新しい変換器のクラス、PID制御変換器(PIDformer)を導出する。
論文参考訳（メタデータ） (2024-02-25T05:04:51Z)
Utilizing Multiple Inputs Autoregressive Models for Bearing Remaining Useful Life Prediction [3.448070371030467]
軸受のRUL予測において,この課題に対処する新しい多入力自己回帰モデルを提案する。自己回帰反復により、モデルはグローバルな受容場を獲得し、一般化の限界を効果的に克服する。 PMH2012データセットの実証評価では, 同様の自己回帰アプローチを用いたバックボーンネットワークと比較して, ルート平均角誤差(RMSE)とスコアが有意に低いことが示されている。
論文参考訳（メタデータ） (2023-11-26T09:50:32Z)
MotionHint: Self-Supervised Monocular Visual Odometry with Motion Constraints [70.76761166614511]
モノクローナルビジュアル・オドメトリー(VO)のための新しい自己教師型アルゴリズムMotionHintを提案する。我々のMotionHintアルゴリズムは、既存のオープンソースSSM-VOシステムに容易に適用できる。
論文参考訳（メタデータ） (2021-09-14T15:35:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。