Fugu-MT 論文翻訳(概要): 3D-VLA: A 3D Vision-Language-Action Generative World Model

論文の概要: 3D-VLA: A 3D Vision-Language-Action Generative World Model

arxiv url: http://arxiv.org/abs/2403.09631v1
Date: Thu, 14 Mar 2024 17:58:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-15 18:57:03.166112
Title: 3D-VLA: A 3D Vision-Language-Action Generative World Model
Title（参考訳）: 3D-VLA:3Dビジョンランゲージ・アクション生成世界モデル
Authors: Haoyu Zhen, Xiaowen Qiu, Peihao Chen, Jincheng Yang, Xin Yan, Yilun Du, Yining Hong, Chuang Gan,
Abstract要約: 最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
参考スコア（独自算出の注目度）: 68.0388311799959
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent vision-language-action (VLA) models rely on 2D inputs, lacking integration with the broader realm of the 3D physical world. Furthermore, they perform action prediction by learning a direct mapping from perception to action, neglecting the vast dynamics of the world and the relations between actions and dynamics. In contrast, human beings are endowed with world models that depict imagination about future scenarios to plan actions accordingly. To this end, we propose 3D-VLA by introducing a new family of embodied foundation models that seamlessly link 3D perception, reasoning, and action through a generative world model. Specifically, 3D-VLA is built on top of a 3D-based large language model (LLM), and a set of interaction tokens is introduced to engage with the embodied environment. Furthermore, to inject generation abilities into the model, we train a series of embodied diffusion models and align them into the LLM for predicting the goal images and point clouds. To train our 3D-VLA, we curate a large-scale 3D embodied instruction dataset by extracting vast 3D-related information from existing robotics datasets. Our experiments on held-in datasets demonstrate that 3D-VLA significantly improves the reasoning, multimodal generation, and planning capabilities in embodied environments, showcasing its potential in real-world applications.
Abstract（参考訳）: 最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。さらに、知覚から行動への直接マッピングを学習し、世界の広大なダイナミクスや行動と力学の関係を無視して行動予測を行う。対照的に、人間には未来のシナリオについての想像力を描いた世界モデルが与えられ、それに従って行動を計画する。そこで本研究では, 3次元知覚, 推論, 行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより, 3D-VLAを提案する。具体的には、3D-VLAは3Dベースの大規模言語モデル(LLM)上に構築され、エンボディ環境での対話トークンのセットが導入された。さらに、モデルに生成能力を注入するために、一連の具体的拡散モデルを訓練し、目標画像と点雲を予測するためにLSMに整列させる。 3D-VLAをトレーニングするために、既存のロボットデータセットから膨大な3D関連情報を抽出することにより、大規模な3D実施指導データセットをキュレートする。本実験は,3D-VLAが実環境における推論,マルチモーダル生成,計画能力を大幅に改善し,実世界の応用の可能性を示したものである。

関連論文リスト

3D-Generalist: Self-Improving Vision-Language-Action Models for Crafting 3D Worlds [23.329458437342684]
基礎モデルのトレーニングデータとして利用できる高品質な3D環境を生成するためのスケーラブルな手法を提案する。提案するフレームワークである3D-Generalistは、ビジョンランゲージモデルを用いて、より迅速な3D環境を生成する。生成したデータに対して視覚基盤モデルを事前学習することにより,合成データ生成における品質とスケーラビリティを実証する。
論文参考訳（メタデータ） (2025-07-09T02:00:17Z)
Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。この生成は、環境の永続的な3Dマップに集約される。
論文参考訳（メタデータ） (2025-05-05T17:59:17Z)
InteractVLM: 3D Interaction Reasoning from 2D Foundational Models [85.76211596755151]
InactVLMは、人体と物体の3次元接触点を、ワン・イン・ザ・ワイルド画像から推定する新しい手法である。既存の方法は、高価なモーションキャプチャシステムや面倒な手動ラベリングを通じて収集された3Dコンタクトアノテーションに依存している。本稿では,人間の接触予測を対象のセマンティクス上で明示的に条件付けするセマンティック・ヒューマン・コンタクト推定というタスクを提案する。
論文参考訳（メタデータ） (2025-04-07T17:59:33Z)
Empowering Large Language Models with 3D Situation Awareness [84.12071023036636]
3Dと2Dの主な違いは、3Dシーンにおける自我中心のオブザーバーの状況が変化し、異なる記述をもたらすことである。本研究では,データ収集時の走査軌道を利用して状況認識データセットを自動的に生成する手法を提案する。本研究では,観測者の視点の位置と方向を明示的に予測する状況接地モジュールを導入し,LLMが3次元シーンで状況記述をグラウンド化できるようにする。
論文参考訳（メタデータ） (2025-03-29T09:34:16Z)
Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
Generative AI Framework for 3D Object Generation in Augmented Reality [0.0]
この論文は、最先端の生成AIモデルを統合し、拡張現実(AR)環境で3Dオブジェクトをリアルタイムに作成する。このフレームワークは、ゲーム、教育、小売、インテリアデザインといった業界にまたがる応用を実証している。重要な貢献は、3Dモデル作成の民主化であり、高度なAIツールを幅広い聴衆に利用できるようにする。
論文参考訳（メタデータ） (2025-02-21T17:01:48Z)
Diffusion Models in 3D Vision: A Survey [11.116658321394755]
本稿では,3次元視覚タスクの拡散モデルを利用する最先端のアプローチについて概説する。これらのアプローチには、3Dオブジェクト生成、形状補完、点雲再構成、シーン理解が含まれる。本稿では,計算効率の向上,マルチモーダル融合の強化,大規模事前学習の活用などの可能性について論じる。
論文参考訳（メタデータ） (2024-10-07T04:12:23Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination [22.029496025779405]
3D-GRANDは、40,087の世帯シーンと6.2百万の密集したシーン言語命令を組み合わせた、先駆的な大規模データセットである。この結果から, 3D-GRANDによる指導指導はグラウンド化能力を大幅に向上させ, 3D-LLMの幻覚を低減させることがわかった。コントリビューションの一環として、3D-LLMの幻覚を体系的に評価するための総合的なベンチマーク3D-POPEを提案する。
論文参考訳（メタデータ） (2024-06-07T17:59:59Z)
Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。 VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文参考訳（メタデータ） (2024-03-21T06:14:46Z)
An Embodied Generalist Agent in 3D World [67.16935110789528]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れた多モードジェネリストエージェントLEOを紹介する。我々は,多種多様なオブジェクトレベルおよびシーンレベルのタスクからなる大規模データセットを収集する。 3Dキャプション,質問応答,具体的推論,ナビゲーション,操作など,多岐にわたるLEOの卓越した習熟度を実証した。
論文参考訳（メタデータ） (2023-11-18T01:21:38Z)
3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文参考訳（メタデータ） (2023-07-24T17:59:02Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文参考訳（メタデータ） (2023-04-04T23:41:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。