Fugu-MT 論文翻訳(概要): FusionBERT: Multi-View Image-3D Retrieval via Cross-Attention Visual Fusion and Normal-Aware 3D Encoder

論文の概要: FusionBERT: Multi-View Image-3D Retrieval via Cross-Attention Visual Fusion and Normal-Aware 3D Encoder

arxiv url: http://arxiv.org/abs/2604.02583v1
Date: Thu, 02 Apr 2026 23:36:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.245478
Title: FusionBERT: Multi-View Image-3D Retrieval via Cross-Attention Visual Fusion and Normal-Aware 3D Encoder
Title（参考訳）: FusionBERT: クロスアテンション・ビジュアルフュージョンとノーマルアウェア3Dエンコーダによるマルチビュー画像3D検索
Authors: Wei Li, Yufan Ren, Hanqing Jiang, Jianhui Ding, Zhen Peng, Leman Feng, Yichun Shentu, Guoqiang Xu, Baigui Sun,
Abstract要約: FusionBERTは、画像3Dマルチモーダル検索のための新しいフレームワークである。クロスアテンションベースの多視点視覚アグリゲータを使用して、オブジェクトの多視点画像の特徴を適応的に統合する。シングルビューとマルチビューの両方の設定で、SOTAのマルチモーダル大モデルよりもはるかに高い検索精度を実現する。
参考スコア（独自算出の注目度）: 17.364270724125447
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We propose FusionBERT, a novel multi-view visual fusion framework for image-3D multimodal retrieval. Existing image-3D representation learning methods predominantly focus on feature alignment of a single object image and its 3D model, limiting their applicability in realistic scenarios where an object is typically observed and captured from multiple viewpoints. Although multi-view observations naturally provide complementary geometric and appearance cues, existing multimodal large models rarely explore how to effectively fuse such multi-view visual information for better cross-modal retrieval. To address this limitation, we introduce a multi-view image-3D retrieval framework named FusionBERT, which innovatively utilizes a cross-attention-based multi-view visual aggregator to adaptively integrate features from multi-view images of an object. The proposed multi-view visual encoder fuses inter-view complementary relationships and selectively emphasizes informative visual cues across multiple views to get a more robustly fused visual feature for better 3D model matching. Furthermore, FusionBERT proposes a normal-aware 3D model encoder that can further enhance the 3D geometric feature of an object model by jointly encoding point normals and 3D positions, enabling a more robust representation learning for textureless or color-degraded 3D models. Extensive image-3D retrieval experiments demonstrate that FusionBERT achieves significantly higher retrieval accuracy than SOTA multimodal large models under both single-view and multi-view settings, establishing a strong baseline for multi-view multimodal retrieval.
Abstract（参考訳）: 画像3次元マルチモーダル検索のための新しい多視点視覚融合フレームワークFusionBERTを提案する。既存の画像3D表現学習手法は、主に1つのオブジェクト画像とその3Dモデルの特徴的アライメントに注目し、オブジェクトが通常観察され、複数の視点からキャプチャされる現実的なシナリオにおいて、それらの適用性を制限する。多視点観測は、自然に相補的な幾何学的および外観的手がかりを提供するが、既存の多モード大モデルは、そのような多視点視覚情報を効果的に融合して、より優れたクロスモーダル検索を行う方法を探求することは滅多にない。この制限に対処するため,FusionBERTという多視点画像3D検索フレームワークを導入し,オブジェクトの多視点画像から特徴を適応的に統合する多視点視覚アグリゲータを革新的に利用した。提案したマルチビュービジュアルエンコーダは、ビュー間の補完関係を融合させ、複数のビューにまたがる情報的視覚的手がかりを選択的に強調することにより、より堅牢な3次元モデルマッチングを実現する。さらに、FusionBERTは、点正規と3D位置を共同で符号化することで、オブジェクトモデルの3D幾何学的特徴をさらに強化し、テクスチャレスまたはカラー劣化した3Dモデルのより堅牢な表現学習を可能にする、通常の3Dモデルエンコーダを提案する。画像3D検索実験により,FusionBERTはシングルビューとマルチビューの両方でSOTAマルチモーダル大モデルよりも高い検索精度を実現し,マルチビューマルチモーダル検索の強力なベースラインを確立した。

関連論文リスト

Unsupervised Monocular 3D Keypoint Discovery from Multi-View Diffusion Priors [21.97308739556984]
KeyDiff3Dは、教師なし単眼の3Dキーポイント推定のためのフレームワークである。我々は、事前訓練された多視点拡散モデルに埋め込まれた強力な幾何学的先行性を利用する。拡散モデルにより生成された3次元オブジェクトの操作を可能にするパイプラインを導入する。
論文参考訳（メタデータ） (2025-07-16T15:29:07Z)
3DEnhancer: Consistent Multi-View Diffusion for 3D Enhancement [66.8116563135326]
本稿では,多視点遅延拡散モデルを用いて,多視点一貫性を維持しながら粗い3次元入力を強化する3DEnhancerを提案する。既存のビデオベースアプローチとは異なり、我々のモデルは多様な視角のコヒーレンスを改善したシームレスなマルチビュー拡張をサポートする。
論文参考訳（メタデータ） (2024-12-24T17:36:34Z)
Sharp-It: A Multi-view to Multi-view Diffusion Model for 3D Synthesis and Manipulation [15.215597253086612]
我々は,3次元表現を直接生成する手法と,多視点画像から3次元オブジェクトを再構成する手法の質差を橋渡しする。シャープ・イット(Sharp-It)と呼ばれるマルチビュー拡散モデルを導入する。 Sharp-Itは高速な合成、編集、制御された生成などの様々な3Dアプリケーションを可能にすると同時に、高品質な資産を達成可能であることを実証する。
論文参考訳（メタデータ） (2024-12-03T17:58:07Z)
MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文参考訳（メタデータ） (2024-04-04T17:59:57Z)
LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文参考訳（メタデータ） (2024-02-07T17:57:03Z)
SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文参考訳（メタデータ） (2023-07-20T05:46:32Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文参考訳（メタデータ） (2022-08-22T03:38:01Z)
MANet: Multimodal Attention Network based Point- View fusion for 3D Shape Recognition [0.5371337604556311]
本稿では3次元形状認識のためのマルチモーダルアテンション機構に基づく融合ネットワークを提案する。マルチビューデータの制限を考慮すると,グローバルなポイントクラウド機能を用いてマルチビュー機能をフィルタリングするソフトアテンション方式を導入する。より具体的には、各マルチビュー画像の全体形状認識への寄与をマイニングすることにより、拡張されたマルチビュー特徴を得る。
論文参考訳（メタデータ） (2020-02-28T07:00:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。