論文の概要: 10 Open Challenges Steering the Future of Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2511.05936v1
- Date: Sat, 08 Nov 2025 09:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.665829
- Title: 10 Open Challenges Steering the Future of Vision-Language-Action Models
- Title(参考訳): ビジョン・ランゲージ・アクション・モデルの将来に向けたオープンチャレンジ10
- Authors: Soujanya Poria, Navonil Majumder, Chia-Yu Hung, Amir Ali Bagherzadeh, Chuan Li, Kenneth Kwok, Ziwei Wang, Cheston Tan, Jiajun Wu, David Hsu,
- Abstract要約: 視覚言語アクション(VLA)モデルは、具体化されたAIアリーナでますます普及している。
VLAモデルの開発における10のマイルストーンについて論じる。
- 参考スコア(独自算出の注目度): 57.817832960995354
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Due to their ability of follow natural language instructions, vision-language-action (VLA) models are increasingly prevalent in the embodied AI arena, following the widespread success of their precursors -- LLMs and VLMs. In this paper, we discuss 10 principal milestones in the ongoing development of VLA models -- multimodality, reasoning, data, evaluation, cross-robot action generalization, efficiency, whole-body coordination, safety, agents, and coordination with humans. Furthermore, we discuss the emerging trends of using spatial understanding, modeling world dynamics, post training, and data synthesis -- all aiming to reach these milestones. Through these discussions, we hope to bring attention to the research avenues that may accelerate the development of VLA models into wider acceptability.
- Abstract(参考訳): 自然言語の指示に従う能力のため、視覚言語アクション(VLA)モデルは、その前駆体であるLLMとVLMの広範な成功に続いて、エンボディドAIアリーナでますます普及している。本稿では、VLAモデル(マルチモダリティ、推論、データ、評価、クロスロボットアクションの一般化、効率、全身調整、安全、エージェント、人間との協調)の現在進行中の発展における主要なマイルストーンについて論じる。
さらに,空間的理解,世界ダイナミクスのモデリング,ポストトレーニング,データ合成といった新たなトレンドについても論じる。
これらの議論を通じて、我々はVLAモデルの開発をより広範な受容可能性へと加速させる研究の道に注意を向けることを期待している。
関連論文リスト
- Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。
最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。
DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-10-01T13:07:05Z) - Pure Vision Language Action (VLA) Models: A Comprehensive Survey [16.014856048038272]
ビジョン言語アクション(VLA)モデルの出現は、従来のポリシーベースの制御から一般化されたロボット工学へのパラダイムシフトを表している。
この調査は、明確な分類学と既存の研究の体系的、包括的レビューを提供することを目的として、先進的なVLA手法を探求する。
論文 参考訳(メタデータ) (2025-09-23T13:53:52Z) - Survey of Vision-Language-Action Models for Embodied Manipulation [12.586030711502858]
エンボディード・インテリジェンス・システムは、継続的な環境相互作用を通じてエージェント能力を増強する。
ビジョン・ランゲージ・アクションモデル(Vision-Language-Action model)は、大きな基礎モデルの進歩に触発された、普遍的なロボット制御フレームワークとして機能する。
本調査では,VLAモデルを包括的に検討した。
論文 参考訳(メタデータ) (2025-08-21T03:30:04Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - Continual Learning for Generative AI: From LLMs to MLLMs and Beyond [56.29231194002407]
本稿では,主流生成型AIモデルに対する連続学習手法の総合的な調査を行う。
これらのアプローチをアーキテクチャベース、正規化ベース、リプレイベースという3つのパラダイムに分類する。
我々は、トレーニング目標、ベンチマーク、コアバックボーンを含む、異なる生成モデルに対する連続的な学習設定を分析する。
論文 参考訳(メタデータ) (2025-06-16T02:27:25Z) - Vision-Language-Action Models: Concepts, Progress, Applications and Challenges [4.180065442680541]
Vision-Language-Actionモデルは、知覚、自然言語理解、実施された行動を単一の計算フレームワーク内で統一することを目的としている。
この基礎的なレビューは、ビジョン・ランゲージ・アクションモデルにおける最近の進歩の包括的合成を提示する。
主要な進歩分野は、アーキテクチャの革新、パラメータ効率のトレーニング戦略、リアルタイム推論アクセラレーションである。
論文 参考訳(メタデータ) (2025-05-07T19:46:43Z) - A Survey on Vision-Language-Action Models for Embodied AI [90.99896086619854]
エンボディードAIは、人工知能の重要な要素として広く認識されている。
組込みAIにおける言語条件ロボットタスクに対処するために、マルチモーダルモデルの新たなカテゴリが登場した。
具体的AIのための視覚-言語-アクションモデルに関する第1回調査を示す。
論文 参考訳(メタデータ) (2024-05-23T01:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。