論文の概要: Zero-Shot 3D Question Answering via Hierarchical View-to-Token Transportation
- arxiv url: http://arxiv.org/abs/2606.03100v2
- Date: Thu, 04 Jun 2026 05:13:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 19:21:33.110756
- Title: Zero-Shot 3D Question Answering via Hierarchical View-to-Token Transportation
- Title(参考訳): 階層的ビュー・ツー・トークン輸送によるゼロショット3次元質問応答
- Authors: Dongsheng Wang, Dawei Su, Hui Huang,
- Abstract要約: 本稿では,ビューレベルとトークンレベルの両方において,入力コンテキスト収集のための階層的アプローチを提案する。
具体的には、画素特徴とカメラパラメータを組み合わせることで、意味的内容と幾何学的位置の両方に基づいて、ビューの重要性を評価する。
フレームワークを3つの広く使用されているベンチマークで評価し、既存のチューニング不要の手法とトレーニングベースのアプローチに匹敵するパフォーマンスを大幅に改善したことを示す。
- 参考スコア(独自算出の注目度): 9.296275675671636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, zero-shot 3D scene understanding via 2D Vision-Language Models (VLMs) has gained increasing research interest due to their promising spatial reasoning capabilities. Typically, multiple 2D views are sampled from a 3D point cloud and fed into pre-trained VLMs to answer a given question. This paradigm highlights the critical role of input context quality and raises the challenge of retaining as many task-relevant 3D details as possible under a limited input budget. We propose \texttt{KeyVT}, a hierarchical approach for input context collection at both the view and token levels. Specifically, we combine pixel features with camera parameters and assess view importance based on both semantic content and geometric position, resulting in spatially consistent and task-relevant views. Furthermore, we address redundancy among patches across selected views by identifying representative tokens under the optimal transport (OT) framework, where view tokens and key tokens are formulated as two discrete distributions in the embedding space. These key tokens are expected to cover all view features by minimizing the OT distance. We evaluate our framework on three widely used benchmarks, demonstrating significant improvements over existing tuning-free methods and performance comparable to training-based approaches.
- Abstract(参考訳): 近年,2次元視覚言語モデル(VLM)によるゼロショット3Dシーンの理解が,空間推論能力の有望さから研究の関心が高まっている。
通常、複数の2Dビューは3Dポイントクラウドからサンプリングされ、与えられた質問に答えるためにトレーニング済みのVLMに入力される。
このパラダイムは、入力コンテキストの品質の重要な役割を強調し、限られた入力予算の下で可能な限り多くのタスク関連3Dの詳細を保持するという課題を提起する。
本稿では,ビューレベルとトークンレベルの両方において,入力コンテキスト収集のための階層的アプローチである‘texttt{KeyVT} を提案する。
具体的には、画素の特徴をカメラパラメータと組み合わせ、意味的内容と幾何学的位置の両方に基づいて視点重要度を評価し、空間的に一貫したタスク関連ビューをもたらす。
さらに、最適なトランスポート(OT)フレームワークで代表トークンを識別することにより、選択されたビュー間のパッチ間の冗長性に対処し、ビュートークンとキートークンを埋め込み空間内の2つの離散分布として定式化する。
これらのキートークンは、OT距離を最小化することによって、すべてのビュー特徴をカバーすることが期待されている。
フレームワークを3つの広く使用されているベンチマークで評価し、既存のチューニング不要の手法とトレーニングベースのアプローチに匹敵するパフォーマンスを大幅に改善したことを示す。
関連論文リスト
- Cross-Attentive Multiview Fusion of Vision-Language Embeddings [28.984855441235776]
複数の視点から視覚言語記述子を横断的に横断する新しいマルチビュートランスフォーマーアーキテクチャを提案する。
この融合のための自己超越信号としてマルチビュー整合性を利用する。
クロス・アテンティブ・マルチビュー・フュージョンは、ナイーブ平均化やシングルビュー記述子選択よりも一貫して優れています。
論文 参考訳(メタデータ) (2026-04-14T10:25:32Z) - HMR3D: Hierarchical Multimodal Representation for 3D Scene Understanding with Large Vision-Language Model [14.277165215664425]
大規模視覚言語モデル (VLM) は3次元シーン理解に大きな可能性を示唆している。
既存のVLMベースのアプローチは、通常、VLMの埋め込み空間と3Dシーンの特徴を一致させる。
本稿では3次元シーン推論のための新しい階層型マルチモーダル表現を提案する。
論文 参考訳(メタデータ) (2025-11-28T08:06:20Z) - Fast3D: Accelerating 3D Multi-modal Large Language Models for Efficient 3D Scene Understanding [24.964149224068027]
我々は,3D MLLM のためのプラグ&プレイ型ビジュアルトークン解析フレームワークである Fast3D を提案する。
グローバルアテンション予測(GAP)は,目標モデルのグローバルアテンション分布を予測し,トークンの効果的な重要度推定を可能にする。
SAPは、注意に基づく複雑性評価を通じて動的トークン予算を導入し、レイヤーワイドプルーニング比率を自動的に調整する。
論文 参考訳(メタデータ) (2025-07-12T16:29:02Z) - Pts3D-LLM: Studying the Impact of Token Structure for 3D Scene Understanding With Large Language Models [9.658828841170472]
本研究は,3次元トークン構造に関する厳密な研究であり,映像ベースおよび点ベース表現を体系的に比較する。
本稿では,ソナタで事前学習したポイントトランスフォーマーV3エンコーダの3Dポイントクラウド機能を組み込むことで,視覚トークンを充実させる手法を提案する。
論文 参考訳(メタデータ) (2025-06-06T02:35:26Z) - UniPLV: Towards Label-Efficient Open-World 3D Scene Understanding by Regional Visual Language Supervision [10.587237925455211]
総合的な3Dシーン理解のための単一の学習パラダイム内に,ポイントクラウド,イメージ,テキストを統一する堅牢なフレームワークであるUniPLVを提案する。
我々はUniPLVが最先端の手法をはるかに上回り、Base-AnnotatedおよびBase-Annotatedのセマンティックセグメンテーションが平均15.6%と14.8%向上したことを示す。
フリータスク。
論文 参考訳(メタデータ) (2024-12-24T03:40:05Z) - VAPO: Visibility-Aware Keypoint Localization for Efficient 6DoF Object Pose Estimation [52.81869878956534]
2次元画像における3Dキーポイントの局所化は、インスタンスレベルの6DoFオブジェクトのポーズ推定のための3D-2D対応を確立する効果的な方法である。
本稿では、重要なキーポイントを可視性の観点からローカライズすることでこの問題に対処する。
我々は、可視性を考慮した重要度と最先端のポーズ推定アルゴリズムを統合することにより、VAPO(Visibility-Aware POse estimator)を構築する。
論文 参考訳(メタデータ) (2024-03-21T16:59:45Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。