Fugu-MT 論文翻訳(概要): Cross-Attentive Multiview Fusion of Vision-Language Embeddings

論文の概要: Cross-Attentive Multiview Fusion of Vision-Language Embeddings

arxiv url: http://arxiv.org/abs/2604.12551v1
Date: Tue, 14 Apr 2026 10:25:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-15 19:11:32.395082
Title: Cross-Attentive Multiview Fusion of Vision-Language Embeddings
Title（参考訳）: ビジョン・ランゲージ・エンベディングの多面的多視点融合
Authors: Tomas Berriel Martins, Martin R. Oswald, Javier Civera,
Abstract要約: 複数の視点から視覚言語記述子を横断的に横断する新しいマルチビュートランスフォーマーアーキテクチャを提案する。この融合のための自己超越信号としてマルチビュー整合性を利用する。クロス・アテンティブ・マルチビュー・フュージョンは、ナイーブ平均化やシングルビュー記述子選択よりも一貫して優れています。
参考スコア（独自算出の注目度）: 28.984855441235776
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vision-language models have been key to the development of open-vocabulary 2D semantic segmentation. Lifting these models from 2D images to 3D scenes, however, remains a challenging problem. Existing approaches typically back-project and average 2D descriptors across views, or heuristically select a single representative one, often resulting in suboptimal 3D representations. In this work, we introduce a novel multiview transformer architecture that cross-attends across vision-language descriptors from multiple viewpoints and fuses them into a unified per-3D-instance embedding. As a second contribution, we leverage multiview consistency as a self-supervision signal for this fusion, which significantly improves performance when added to a standard supervised target-class loss. Our Cross-Attentive Multiview Fusion, which we denote with its acronym CAMFusion, not only consistently outperforms naive averaging or single-view descriptor selection, but also achieves state-of-the-art results on 3D semantic and instance classification benchmarks, including zero-shot evaluations on out-of-domain datasets.
Abstract（参考訳）: 視覚言語モデルはオープン語彙2Dセマンティックセグメンテーションの発展の鍵となった。しかし、これらのモデルを2D画像から3Dシーンにリフティングすることは、依然として難しい問題だ。既存のアプローチは通常、ビューをまたいだバックプロジェクトと平均的な2D記述子、あるいはヒューリスティックに1つの代表子を選択し、しばしば最適以下の3D表現をもたらす。本研究では,視覚言語記述子を複数視点から横断的に横断する新しいマルチビュートランスフォーマーアーキテクチャを導入し,それらを3次元インスタンス・埋め込みに融合させる。第2のコントリビューションとして、この融合のための自己超越信号としてマルチビュー整合性を利用する。 CAMFusionという頭字語で表現するクロス・アテンティブ・マルチビュー・フュージョンは、ナイーブ平均化や単一ビュー記述子選択を一貫して上回るだけでなく、3Dセマンティックおよびインスタンス分類ベンチマークの最先端結果も達成します。

関連論文リスト

Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding [34.1504914582344]
3D Visual Groundingは、自然言語記述を通じてオブジェクトを3Dシーンにローカライズすることを目的としている。生のRGB-Dストリーム上で直接動作する2次元から3次元の再生パラダイムである"Think, Act, Build (TAB)"を提案する。厳密なVLMセマンティックトラッキングによる多視点カバレッジ障害を克服するために,セマンティックアンコレッド幾何拡張を導入する。
論文参考訳（メタデータ） (2026-04-01T06:12:16Z)
Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation [91.2768117730855]
一般化された3D参照式(3D-GRES)は、記述が複数またはゼロのターゲットと一致する場合でも、自然言語に基づいて3Dシーン内のオブジェクトをローカライズする。既存の方法はスパース・ポイント・クラウドにのみ依存しており、きめ細かい説明のためのリッチ・ビジュアル・セマンティクスが欠如している。 HCF-RESは2つの重要なイノベーションを持つマルチモーダルフレームワークである。
論文参考訳（メタデータ） (2026-03-06T13:09:29Z)
OpenInsGaussian: Open-vocabulary Instance Gaussian Segmentation with Context-aware Cross-view Fusion [89.98812408058336]
textbfOpenInsGaussian, textbfOpen-vocabulary textbfInstance textbfGaussian segmentation framework with Context-aware Cross-view Fusion。 OpenInsGaussianは、オープン語彙の3Dガウスのセグメンテーションにおける最先端の結果を達成し、既存のベースラインを大きなマージンで上回る。
論文参考訳（メタデータ） (2025-10-21T03:24:12Z)
PGOV3D: Open-Vocabulary 3D Semantic Segmentation with Partial-to-Global Curriculum [20.206273757144547]
PGOV3Dはオープンな3Dセマンティックセマンティックセグメンテーションを改善するための部分言語カリキュラムを導入した新しいフレームワークである。我々は、密接な意味情報を提供する部分的なシーンでモデルを事前訓練するが、比較的単純な幾何学である。第2段階では、よりスペーサーで構造的に複雑である、完全なシーンレベルの点雲上でモデルを微調整する。
論文参考訳（メタデータ） (2025-06-30T08:13:07Z)
DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文参考訳（メタデータ） (2023-11-18T21:58:28Z)
Beyond First Impressions: Integrating Joint Multi-modal Cues for Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文参考訳（メタデータ） (2023-08-06T01:11:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。