Fugu-MT 論文翻訳(概要): Proxy3D: Efficient 3D Representations for Vision-Language Models via Semantic Clustering and Alignment

論文の概要: Proxy3D: Efficient 3D Representations for Vision-Language Models via Semantic Clustering and Alignment

arxiv url: http://arxiv.org/abs/2605.08064v1
Date: Fri, 08 May 2026 17:50:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:39.255338
Title: Proxy3D: Efficient 3D Representations for Vision-Language Models via Semantic Clustering and Alignment
Title（参考訳）: Proxy3D:セマンティッククラスタリングとアライメントによる視覚言語モデルの効率的な3次元表現
Authors: Jerry Jiang, Haowen Sun, Denis Gudovskiy, Yohei Nakata, Tomoyuki Okuno, Kurt Keutzer, Wenzhao Zheng,
Abstract要約: 本稿では,視覚モダリティのためのコンパクトかつ包括的な3Dプロキシ表現を備えたProxy3D法を提案する。提案手法は,3次元視覚的質問応答,視覚的接地,空間知能のベンチマークにおいて,競合や最先端のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 50.02189698630855
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Spatial intelligence in vision-language models (VLMs) attracts research interest with the practical demand to reason in the 3D world.Despite promising results, most existing methods follow the conventional 2D pipeline in VLMs and use pixel-aligned representations for the vision modality. However, correspondence-based models with implicit 3D scene understanding often fail to achieve spatial consistency, and representation-based models with 3D geometric priors lack efficiency in vision sequence serialization. To address this, we propose a Proxy3D method with compact yet comprehensive 3D proxy representations for the vision modality. Given only video frames as input, we employ semantic and geometric encoders to extract scene features and then perform their semantic-aware clustering to obtain a set of proxies in the 3D space. For representation alignment, we further curate the SpaceSpan dataset and apply multi-stage training to adopt the proposed 3D proxy representations with the VLM. When using shorter sequences for vision information, our method achieves competitive or state-of-the-art performance in 3D visual question answering, visual grounding and general spatial intelligence benchmarks.
Abstract（参考訳）: 視覚言語モデル(VLM)における空間的インテリジェンス(空間的インテリジェンス)は,3次元世界における現実的な要求に対して研究の関心を惹きつけている。しかし、暗黙的な3次元シーン理解を持つ対応型モデルでは空間的整合性が得られず、3次元幾何学的先行性を持つ表現型モデルは、視覚系列のシリアライゼーションの効率性に欠ける。そこで本研究では,視覚モダリティのためのコンパクトかつ包括的な3Dプロキシ表現を備えたProxy3D法を提案する。映像フレームのみを入力として,シーンの特徴を抽出するために意味的および幾何学的エンコーダを使用し,その意味認識クラスタリングを行い,その3次元空間におけるプロキシの集合を得る。表現アライメントのために、SpaceSpanデータセットをさらにキュレートし、マルチステージトレーニングを適用して、提案した3Dプロキシ表現をVLMで適用する。視覚情報に短いシーケンスを用いる場合,視覚的質問応答,視覚的接地,一般空間知能ベンチマークにおいて,競合的あるいは最先端のパフォーマンスを実現する。

関連論文リスト

Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding [34.1504914582344]
3D Visual Groundingは、自然言語記述を通じてオブジェクトを3Dシーンにローカライズすることを目的としている。生のRGB-Dストリーム上で直接動作する2次元から3次元の再生パラダイムである"Think, Act, Build (TAB)"を提案する。厳密なVLMセマンティックトラッキングによる多視点カバレッジ障害を克服するために,セマンティックアンコレッド幾何拡張を導入する。
論文参考訳（メタデータ） (2026-04-01T06:12:16Z)
Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文参考訳（メタデータ） (2025-11-14T04:16:09Z)
VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。 VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文参考訳（メタデータ） (2025-05-26T17:56:30Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文参考訳（メタデータ） (2021-04-08T15:50:47Z)
Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。 3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文参考訳（メタデータ） (2020-08-04T13:56:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。