論文の概要: 3D CoCa v2: Contrastive Learners with Test-Time Search for Generalizable Spatial Intelligence
- arxiv url: http://arxiv.org/abs/2601.06496v1
- Date: Sat, 10 Jan 2026 09:13:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.845206
- Title: 3D CoCa v2: Contrastive Learners with Test-Time Search for Generalizable Spatial Intelligence
- Title(参考訳): 3D CoCa v2: 一般化可能な空間知能のためのテスト時間探索による対照的な学習者
- Authors: Hao Tang, Ting Huang, Zeyu Zhang,
- Abstract要約: 3Dキャプションは、自然言語で3Dシーンを記述することを目的としている。
一般化可能な3Dキャプションフレームワークである3D CoCa v2を提案する。
ScanReferでは+1.50 CIDEr@0.5IoUの3D CoCa, Nr3Dでは+1.61 CIDEr@0.5IoUの改善を示す。
- 参考スコア(独自算出の注目度): 15.064925965953122
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spatial intelligence refers to the ability to perceive, reason about, and describe objects and their relationships within three-dimensional environments, forming a foundation for embodied perception and scene understanding. 3D captioning aims to describe 3D scenes in natural language; however, it remains challenging due to the sparsity and irregularity of point clouds and, more critically, the weak grounding and limited out-of-distribution (OOD) generalization of existing captioners across drastically different environments, including indoor and outdoor 3D scenes. To address this challenge, we propose 3D CoCa v2, a generalizable 3D captioning framework that unifies contrastive vision-language learning with 3D caption generation and further improves robustness via test-time search (TTS) without updating the captioner parameters. 3D CoCa v2 builds on a frozen CLIP-based semantic prior, a spatially-aware 3D scene encoder for geometry, and a multimodal decoder jointly optimized with contrastive and captioning objectives, avoiding external detectors or handcrafted proposals. At inference, TTS produces diverse caption candidates and performs reward-guided selection using a compact scene summary. Experiments show improvements over 3D CoCa of +1.50 CIDEr@0.5IoU on ScanRefer and +1.61 CIDEr@0.5IoU on Nr3D, and +3.8 CIDEr@0.25 in zero-shot OOD evaluation on TOD3Cap. Code will be released at https://github.com/AIGeeksGroup/3DCoCav2.
- Abstract(参考訳): 空間知能とは、三次元環境の中で物体とその関係を知覚し、推論し、記述する能力のことであり、知覚とシーン理解の基盤を形成する。
3Dキャプションは、自然言語で3Dシーンを記述することを目的としているが、点雲の空間的および不規則性、さらにより重要なことは、屋内や屋外の3Dシーンを含む、様々な環境において既存のキャプターの弱い接地と限定的なアウト・オブ・ディストリビューション(OOD)の一般化により、依然として困難である。
この課題に対処するために、3D CoCa v2を提案する。これは3Dキャプション生成と対照的な視覚言語学習を統一する汎用的な3Dキャプションフレームワークであり、キャプタパラメータを更新することなくテスト時間探索(TTS)による堅牢性を向上させる。
3D CoCa v2は、凍ったCLIPベースのセマンティクス、空間的に認識可能な幾何学用3Dシーンエンコーダ、およびコントラストとキャプションの目的に共同最適化されたマルチモーダルデコーダの上に構築され、外部検出器や手作りの提案を避ける。
推論時に、TSは多様なキャプション候補を生成し、コンパクトなシーン要約を用いて報酬誘導選択を行う。
実験では、ScanReferでは+1.50 CIDEr@0.5IoU、Nr3Dでは+1.61 CIDEr@0.5IoU、TOD3Capでは+3.8 CIDEr@0.25の3D CoCaの改善が見られた。
コードはhttps://github.com/AIGeeksGroup/3DCoCav2でリリースされる。
関連論文リスト
- LabelAny3D: Label Any Object 3D in the Wild [18.044792932630752]
COCO3Dは、MS-COCOデータセットから派生したオープンボキャブラリ単分子3D検出のための新しいベンチマークである。
本稿では,2次元画像から総合的な3Dシーンを再構築し,高品質な3Dバウンディングボックスアノテーションを効率よく生成するインカライズ・バイ・シンセサイザーフレームワークであるLabelAny3Dを紹介する。
論文 参考訳(メタデータ) (2026-01-04T22:03:45Z) - LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight [105.9472902251177]
次世代の予測問題として3D検出を行うVLMネイティブレシピを提案する。
このモデルでは, 49.89 AP_3Dの精度を+15.51倍に向上した。
論文 参考訳(メタデータ) (2025-11-25T18:59:45Z) - Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。
3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。
本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文 参考訳(メタデータ) (2025-06-05T17:56:12Z) - 3D CoCa: Contrastive Learners are 3D Captioners [10.132943642539828]
3Dキャプション(3Dキャプション)は、自然言語による3Dシーンの内容を記述することを目的としている。
対照的な視覚言語学習と3Dキャプション生成をシームレスに組み合わせた,新しい統合フレームワークである3D CoCaを提案する。
論文 参考訳(メタデータ) (2025-04-13T11:10:47Z) - View Selection for 3D Captioning via Diffusion Ranking [54.78058803763221]
Cap3D法は、3Dオブジェクトを2Dビューにレンダリングし、事前訓練されたモデルを用いてキャプションを行う。
3Dオブジェクトのレンダリングビューは、標準的な画像キャプションモデルのトレーニングデータから逸脱し、幻覚を引き起こす。
DiffuRankは、3Dオブジェクトとそれらの2Dレンダリングビューのアライメントを評価するために、事前訓練されたテキストから3Dモデルを利用する手法である。
論文 参考訳(メタデータ) (2024-04-11T17:58:11Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Spatiality-guided Transformer for 3D Dense Captioning on Point Clouds [20.172702468478057]
3Dポイントクラウドでのディエンスキャプションは、オブジェクトレベルの3Dシーン理解を含む、視覚と言語に関する新たなタスクである。
本稿では,オブジェクトを記述に変換するトランスフォーマーベースのエンコーダデコーダアーキテクチャ,すなわちSpaCap3Dを提案する。
提案手法は, CIDEr@0.5IoUのベースライン法であるScan2Capを4.94%, CIDEr@0.5IoUで9.61%向上させる。
論文 参考訳(メタデータ) (2022-04-22T13:07:37Z) - D3Net: A Speaker-Listener Architecture for Semi-supervised Dense
Captioning and Visual Grounding in RGB-D Scans [12.217810313293883]
D3Netは、エンドツーエンドのニューラルスピーカー-リスナーアーキテクチャで、検出、記述、識別ができる。
本手法は,Scanデータセット上の両方のタスクにおいてSOTA法より優れる。
論文 参考訳(メタデータ) (2021-12-02T19:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。