論文の概要: Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis
- arxiv url: http://arxiv.org/abs/2503.22420v1
- Date: Fri, 28 Mar 2025 13:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:29:21.317755
- Title: Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis
- Title(参考訳): 3次元視覚言語理解にまつわるミストの展開:連鎖分析による対象中心評価
- Authors: Jiangyong Huang, Baoxiong Jia, Yan Wang, Ziyu Zhu, Xiongkun Linghu, Qing Li, Song-Chun Zhu, Siyuan Huang,
- Abstract要約: 3Dビジョン言語(3D-VL)ベンチマークは、3D-VLモデルの評価に不足している。
我々は3D-VLグラウンドとQAタスクのベンチマークであるBeacon3Dを提案する。
- 参考スコア(独自算出の注目度): 65.42684641776931
- License:
- Abstract: Existing 3D vision-language (3D-VL) benchmarks fall short in evaluating 3D-VL models, creating a "mist" that obscures rigorous insights into model capabilities and 3D-VL tasks. This mist persists due to three key limitations. First, flawed test data, like ambiguous referential text in the grounding task, can yield incorrect and unreliable test results. Second, oversimplified metrics such as simply averaging accuracy per question answering (QA) pair, cannot reveal true model capability due to their vulnerability to language variations. Third, existing benchmarks isolate the grounding and QA tasks, disregarding the underlying coherence that QA should be based on solid grounding capabilities. To unveil the "mist", we propose Beacon3D, a benchmark for 3D-VL grounding and QA tasks, delivering a perspective shift in the evaluation of 3D-VL understanding. Beacon3D features (i) high-quality test data with precise and natural language, (ii) object-centric evaluation with multiple tests per object to ensure robustness, and (iii) a novel chain-of-analysis paradigm to address language robustness and model performance coherence across grounding and QA. Our evaluation of state-of-the-art 3D-VL models on Beacon3D reveals that (i) object-centric evaluation elicits true model performance and particularly weak generalization in QA; (ii) grounding-QA coherence remains fragile in current 3D-VL models, and (iii) incorporating large language models (LLMs) to 3D-VL models, though as a prevalent practice, hinders grounding capabilities and has yet to elevate QA capabilities. We hope Beacon3D and our comprehensive analysis could benefit the 3D-VL community towards faithful developments.
- Abstract(参考訳): 既存の3Dビジョン言語(3D-VL)ベンチマークは、3D-VLモデルの評価に不足しており、モデル機能と3D-VLタスクに関する厳密な洞察を曖昧にする"ミス"を生み出している。
この霧は3つの重要な制限のために持続する。
まず、グラウンディングタスクにおける曖昧な参照テキストのような欠陥のあるテストデータにより、不正確で信頼性の低いテスト結果が得られる。
第二に、質問応答(QA)ペアあたりの精度を単純に評価するような単純化されたメトリクスは、言語の変化に対する脆弱性のため、真のモデル能力を明らかにすることができない。
第3に、既存のベンチマークは接地とQAタスクを分離し、QAは堅固な接地能力に基づくべきという基本的な一貫性を無視している。
マイスト」を発表するために,3D-VLグラウンドとQAタスクのベンチマークであるBeacon3Dを提案し,3D-VL理解の評価における視点シフトを提供する。
Beacon3Dの機能
一 正確かつ自然言語による高品質な試験データ
(ii)頑健性を確保するために、オブジェクトごとの複数のテストによるオブジェクト中心評価
3) 言語ロバストネスとモデル性能コヒーレンスに基礎とQAをまたいだ新しい分析パラダイム。
Beacon3Dにおける最先端3D-VLモデルの評価
i) 対象中心評価は、真のモデル性能と特にQAの弱い一般化を付与する。
(II)現在の3D-VLモデルではグラウンドQAコヒーレンスが脆弱であり続けている。
三 大規模言語モデル(LLM)を3D-VLモデルに組み込むことは、一般的な実践であるが、接地能力を阻害し、まだQA能力を向上していない。
Beacon3Dと包括的分析が、3D-VLコミュニティに忠実な発展をもたらすことを期待しています。
関連論文リスト
- ObjVariantEnsemble: Advancing Point Cloud LLM Evaluation in Challenging Scenes with Subtly Distinguished Objects [1.5408065585641535]
3Dシーンの理解は重要な課題であり、近年、エンボディドAIを強化するために、ポイントクラウドの3D表現とテキストとの整合性に関する研究の関心が高まっている。
総合的な3Dベンチマークが欠如しているため、現実世界のシーン、特に微妙に区別されたオブジェクトに挑戦するシーンにおける3Dモデルの能力はいまだに十分に調査されていない。
論文 参考訳(メタデータ) (2024-12-19T13:27:58Z) - Calib3D: Calibrating Model Preferences for Reliable 3D Scene Understanding [55.32861154245772]
Calib3Dは3Dシーン理解モデルの信頼性をベンチマークし精査する先駆的な試みである。
10の異なる3Dデータセットにまたがる28の最先端モデルを総合的に評価する。
本稿では,3次元モデルのキャリブレーション向上を目的とした,深度対応のスケーリング手法であるDeptSを紹介する。
論文 参考訳(メタデータ) (2024-03-25T17:59:59Z) - Can 3D Vision-Language Models Truly Understand Natural Language? [42.73664281910605]
既存の3D-VLモデルは言語入力のスタイルに敏感であり、同じ意味を持つ文を理解するのに苦労するが、異なる変種で書かれる。
本稿では,様々なタスクにまたがって3D-VLモデルを体系的に評価し,異なる言語スタイルのバリエーションを提示した場合のパフォーマンスをベンチマークする言語頑健性タスクを提案する。
包括的評価により,様々な3D-VLタスクにまたがる既存モデルの性能低下が明らかとなった。
最先端の3D-LLMでさえ、同じ文の変種を理解することができない。
論文 参考訳(メタデータ) (2024-03-21T18:02:20Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - An Embodied Generalist Agent in 3D World [67.16935110789528]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れた多モードジェネリストエージェントLEOを紹介する。
我々は,多種多様なオブジェクトレベルおよびシーンレベルのタスクからなる大規模データセットを収集する。
3Dキャプション,質問応答,具体的推論,ナビゲーション,操作など,多岐にわたるLEOの卓越した習熟度を実証した。
論文 参考訳(メタデータ) (2023-11-18T01:21:38Z) - 3D-Aware Visual Question Answering about Parts, Poses and Occlusions [20.83938624671415]
本稿では,視覚シーンの3次元構造に対して構成的推論を必要とする課題に焦点を当てた3次元認識型VQAの課題を紹介する。
本稿では、3D対応VQAモデルであるPO3D-VQAを提案する。このモデルでは、推論のための確率的ニューラルシンボルプログラム実行と、堅牢な視覚認識のためのオブジェクトの3D生成表現を備えたディープニューラルネットワークの2つの強力なアイデアをマージする。
実験の結果,PO3D-VQAは既存の手法よりも優れていたが,2D VQAベンチマークと比較すると大きな性能差がみられた。
論文 参考訳(メタデータ) (2023-10-27T06:15:30Z) - VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic
Scene Graph Prediction in Point Cloud [51.063494002003154]
点雲における3次元意味的シーングラフ(DSSG)の予測は、3次元点雲が2次元画像と比較して限られた意味を持つ幾何学的構造のみを捉えているため困難である。
本稿では,3DSSG予測モデルに対して,長い尾とあいまいな意味関係を識別できる視覚言語セマンティックス支援トレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T09:14:18Z) - Towards Explainable 3D Grounded Visual Question Answering: A New
Benchmark and Strong Baseline [35.717047755880536]
3次元視覚的質問応答(VQA)タスクは、あまり利用されず、言語の先行や参照のあいまいさにもより影響を受けやすい。
我々は、多様で比較的自由な質問応答ペアを備えた新しい3D VQAデータセットと、密集した完全に接地されたバウンディングボックスアノテーションを収集する。
完全視覚的かつ説明可能な答えを効果的に予測する3D VQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-24T15:09:02Z) - Stereo Neural Vernier Caliper [57.187088191829886]
学習に基づくステレオ3Dオブジェクト検出のための新しいオブジェクト中心フレームワークを提案する。
初期3次元立方体推定値から改良された更新を予測する方法の問題に対処する。
提案手法は,KITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-21T14:36:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。