Fugu-MT 論文翻訳(概要): Revisiting 3D LLM Benchmarks: Are We Really Testing 3D Capabilities?

論文の概要: Revisiting 3D LLM Benchmarks: Are We Really Testing 3D Capabilities?

arxiv url: http://arxiv.org/abs/2502.08503v1
Date: Wed, 12 Feb 2025 15:34:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 18:10:01.041771
Title: Revisiting 3D LLM Benchmarks: Are We Really Testing 3D Capabilities?
Title（参考訳）: 3D LLMベンチマークを再考: 私たちは本当に3D能力をテストしていますか?
Authors: Jiahe Jin, Yanheng He, Mingyan Yang,
Abstract要約: 3D LLM評価における「2D-Cheating」問題を特定し,これらの課題を点雲の描画画像を用いたVLMで容易に解決できることを示した。我々は、真の3D理解をよりよく評価するための原則を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we identify the "2D-Cheating" problem in 3D LLM evaluation, where these tasks might be easily solved by VLMs with rendered images of point clouds, exposing ineffective evaluation of 3D LLMs' unique 3D capabilities. We test VLM performance across multiple 3D LLM benchmarks and, using this as a reference, propose principles for better assessing genuine 3D understanding. We also advocate explicitly separating 3D abilities from 1D or 2D aspects when evaluating 3D LLMs.
Abstract（参考訳）: 本研究では,3次元LLM評価における「2D-Cheating」問題を特定し,これらの課題を点雲の描画画像を用いてVLMによって容易に解決し,3次元LLMのユニークな3D機能の評価を効果的に行なわないことを明らかにした。我々は、複数の3次元LLMベンチマークでVLM性能を検証し、これを参照して、真の3D理解をよりよく評価するための原則を提案する。また,3次元LLMの評価において,3次元能力と1次元側面と2次元側面とを明確に分離することを提唱した。

関連論文リスト

Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。 3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文参考訳（メタデータ） (2025-06-05T17:56:12Z)
MLLMs Need 3D-Aware Representation Supervision for Scene Understanding [14.083262551714133]
3DRSは、事前訓練された3D基礎モデルから監督を導入することでMLLM 3D表現学習を強化するフレームワークである。本手法は3次元モデルから抽出したリッチな3次元知識とMLLMの視覚的特徴を一致させ,シーン理解を効果的に改善する。
論文参考訳（メタデータ） (2025-06-02T17:58:24Z)
Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors [23.66183317100899]
これまで,ビデオとして解釈することで3次元シーンの理解にMLLM(Multimodal Large Language Models)を適用する研究が続けられてきた。ビデオ3次元幾何大言語モデル(VG LLM)を提案する。提案手法では,映像系列から3次元事前情報を抽出する3次元ビジュアルジオメトリエンコーダを用いる。
論文参考訳（メタデータ） (2025-05-30T14:16:41Z)
3D Question Answering via only 2D Vision-Language Models [87.41421075243103]
大規模視覚言語モデル(LVLM)は、多くの分野を進歩させた。代表的な例として,3次元質問応答(3D-QA)を用いた3次元シーン理解タスクの活用について検討する。具体的には、3Dポイントクラウドから2Dビューをサンプリングし、2Dモデルにフィードして、与えられた質問に答える。我々は3D-QAのための重要かつ多様なビューを自動的に選択する新しいアプローチであるcdViewsを提案する。
論文参考訳（メタデータ） (2025-05-28T09:04:39Z)
PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes [37.89787678513378]
実写3Dシーンにおける言語誘導オブジェクト配置の新たな課題について紹介する。グラウンド化などの3次元シーンにおける他の言語誘導型ローカライズタスクと比較して、このタスクには特定の課題がある。複数の有効な解を持ち、3次元幾何学的関係と自由空間の推論を必要とするため、曖昧である。
論文参考訳（メタデータ） (2025-05-08T14:29:11Z)
Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding [19.382210260928776]
Video-3D LLMは3Dシーンをダイナミックビデオとして扱い、3D位置エンコーディングをこれらの表現に組み込む。本モデルは,複数の3次元シーン理解ベンチマークにおいて,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-11-30T14:28:53Z)
VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding [57.04804711488706]
3Dビジュアルグラウンドティングはロボットにとって不可欠であり、自然言語と3Dシーン理解を統合する必要がある。 VLM-Grounderは視覚言語モデル(VLM)を用いて2次元画像のみに基づくゼロショット3次元視覚グラウンドティングを行う新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-17T17:59:55Z)
SPARTUN3D: Situated Spatial Understanding of 3D World in Large Language Models [45.28780381341979]
Spartun3Dという,様々な位置空間推論タスクを組み込んだスケーラブルな位置位置3Dデータセットを導入する。また,Spartun3D-LLMを提案する。これは既存の3次元LLM上に構築されているが,新しい位置空間アライメントモジュールと統合されている。
論文参考訳（メタデータ） (2024-10-04T19:22:20Z)
LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness [22.408933972095763]
3次元シーン理解のための3次元認識型LMMの開発は、大規模3次元視覚言語データセットと強力な3次元エンコーダの欠如によって妨げられている。 LLaVA-3Dというシンプルなフレームワークを導入し,LLaVAを3次元シーン理解に効果的に適用する。 LLaVA-3Dは、3Dビジョン言語データセットでトレーニングされた場合、既存の3D LMMよりも3.5倍高速に収束する。
論文参考訳（メタデータ） (2024-09-26T17:59:11Z)
EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文参考訳（メタデータ） (2024-08-21T17:57:06Z)
LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image [72.14973729674995]
現在の3D認識手法、特に小さなモデルでは、論理的推論、質問応答、オープンシナリオカテゴリの処理に苦労している。空間的特徴抽出のための空間的局所特徴抽出法,精密な幾何回帰のための3次元問合せ情報復号法,カメラ焦点長変動に対する幾何学投影に基づく3次元推論を提案する。
論文参考訳（メタデータ） (2024-08-14T10:00:16Z)
Language-Image Models with 3D Understanding [59.499585515469974]
LV3Dと呼ばれる2Dおよび3Dのための大規模事前学習データセットを開発した。次に,新しいMLLMであるCube-LLMを導入し,LV3Dで事前学習する。純粋なデータスケーリングは、3D特有のアーキテクチャ設計やトレーニング目的を使わずに、強力な3D知覚能力を実現することを示す。
論文参考訳（メタデータ） (2024-05-06T17:57:27Z)
Unified Scene Representation and Reconstruction for 3D Large Language Models [40.693839066536505]
既存のアプローチは、基底真理(GT)幾何または補助モデルによって再構成された3次元シーンから点雲を抽出する。凍結した2次元基礎モデルを用いて、Uni3DR2の3次元幾何学的および意味的認識表現特徴を抽出する。我々の学習した3D表現は、再構築プロセスに貢献するだけでなく、LLMにとって貴重な知識も提供します。
論文参考訳（メタデータ） (2024-04-19T17:58:04Z)
3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文参考訳（メタデータ） (2023-07-24T17:59:02Z)
Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文参考訳（メタデータ） (2023-06-08T17:58:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。