論文の概要: HOLA: Holistic Multi-Modal Alignment for Open-Set 3D Recognition
- arxiv url: http://arxiv.org/abs/2606.01334v1
- Date: Sun, 31 May 2026 16:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.592039
- Title: HOLA: Holistic Multi-Modal Alignment for Open-Set 3D Recognition
- Title(参考訳): HOLA:オープンセット3次元認識のためのホロスティック多モードアライメント
- Authors: Koby Aharonov, Oren Shrout, Ayellet Tal,
- Abstract要約: オープンセットの3D認識には、珍しいカテゴリーや目に見えないカテゴリに一般化するモデルが必要である。
近年のアプローチでは、言語ビジョンの知識を3Dエンコーダに蒸留することでこの問題に対処している。
我々は,各点のクラウドに複数の画像とテキスト記述を合わせることを提案する。
- 参考スコア(独自算出の注目度): 14.299355089723903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-set 3D recognition requires models that generalize to rare or unseen categories. Recent approaches address this by distilling language-vision knowledge into 3D encoders, typically relying on heavy 2D ViTs and aligning each point cloud with a single image or caption, thus anchoring representations to partial views. We propose aligning each point cloud with multiple images and textual descriptions to capture a more holistic understanding of 3D objects. To realize this idea, it is essential to design a loss function capable of jointly aligning a 3D instance with multiple matched signals, multi-view images and multiple texts, while separating positive aggregation from negative competition. We introduce such a function, termed the decoupled multi-positive contrastive loss. Our formulation enhances the loss's hardness-aware focus on challenging negatives, avoiding the "spotlight crowding" that occurs when many positives share the same softmax with all the negatives. Complementing this, we present a lightweight text adapter applied only to web captions, reducing the domain gap to curated annotations and enabling effective use of large-scale unsupervised text. Our model demonstrates state-of-the-art open-vocabulary performance on long-tail benchmarks, yielding substantial zero-shot improvements while sustaining high frame rates.
- Abstract(参考訳): オープンセットの3D認識には、珍しいカテゴリーや目に見えないカテゴリに一般化するモデルが必要である。
最近のアプローチでは、言語ビジョンの知識を3Dエンコーダに蒸留し、通常は重い2D ViTに頼り、各点の雲を1つの画像やキャプションと整列させ、部分的なビューに表現を固定することでこの問題に対処している。
我々は,各点の雲を複数の画像やテキスト記述と整合させて,より総合的な3Dオブジェクトの理解を捉えることを提案する。
この考え方を実現するためには、負の競合から正のアグリゲーションを分離しつつ、複数のマッチした信号、多視点画像、複数テキストと3Dインスタンスを協調的に整列できる損失関数を設計することが不可欠である。
このような関数は、非結合な多重正のコントラスト損失(英語版)と呼ばれる。
我々の定式化は、多くの正が全ての負と同じソフトマックスを共有するときに起こる「スポットライトの群集」を避けることにより、損失の硬さに注意を向ける。
そこで本研究では,Webキャプションにのみ適用可能な軽量テキストアダプタを提案する。
提案モデルでは, ロングテールベンチマークにおける最先端のオープンボキャブラリ性能を実証し, 高フレームレートを維持しつつ, 大幅なゼロショット改善を実現している。
関連論文リスト
- ASIA: Adaptive 3D Segmentation using Few Image Annotations [21.733451438390755]
ASIA(Adaptive 3D using few Image s)は、3Dで非意味的かつ非テキスト記述可能な「部分」のセグメンテーションを可能にする新しいフレームワークである。
本手法は,画像空間から3次元へのセグメンテーションの転送に,SD(Stable Diffusion)などのテキスト・画像拡散モデルのリッチな先行性を利用する。
ASIAは意味的および非意味的な3Dセグメンテーションタスクに対して実用的で一般化可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-29T05:04:11Z) - UniPLV: Towards Label-Efficient Open-World 3D Scene Understanding by Regional Visual Language Supervision [10.587237925455211]
総合的な3Dシーン理解のための単一の学習パラダイム内に,ポイントクラウド,イメージ,テキストを統一する堅牢なフレームワークであるUniPLVを提案する。
我々はUniPLVが最先端の手法をはるかに上回り、Base-AnnotatedおよびBase-Annotatedのセマンティックセグメンテーションが平均15.6%と14.8%向上したことを示す。
フリータスク。
論文 参考訳(メタデータ) (2024-12-24T03:40:05Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - TriVol: Point Cloud Rendering via Triple Volumes [57.305748806545026]
我々は,高密度かつ軽量な3D表現であるTriVolをNeRFと組み合わせて,点雲から写実的な画像を描画する。
我々のフレームワークは、微調整なしでシーン/オブジェクトのカテゴリを描画できる優れた一般化能力を持っている。
論文 参考訳(メタデータ) (2023-03-29T06:34:12Z) - Learning 3D Semantics from Pose-Noisy 2D Images with Hierarchical Full
Attention Network [17.58032517457836]
ポーズエラーを含む2次元多視点画像観測から3次元ポイントクラウドの意味を学習するための新しいフレームワークを提案する。
階層型フルアテンションネットワーク(HiFANet)は、パッチ、バッグ・オブ・フレーム、ポイント間セマンティックキューを逐次集約するように設計されている。
実験の結果,提案フレームワークは既存の3Dポイント・クラウド・ベースの手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-17T20:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。