論文の概要: Hypo3D: Exploring Hypothetical Reasoning in 3D
- arxiv url: http://arxiv.org/abs/2502.00954v2
- Date: Tue, 04 Feb 2025 03:48:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:34.235386
- Title: Hypo3D: Exploring Hypothetical Reasoning in 3D
- Title(参考訳): hypo3D: 仮説推論を3Dで探る
- Authors: Ye Mao, Weixun Luo, Junpeng Jing, Anlan Qiu, Krystian Mikolajczyk,
- Abstract要約: 既存の3D推論ベンチマークでは、頻繁なシーン更新のコストが高いため、リアルタイムのシーンアクセシビリティを前提としています。
実時間シーンデータにアクセスせずにモデルが推論できる能力を評価するためのベンチマークである仮説3D推論を導入する。
hypo3D は 3D Visual Question Answering (VQA) ベンチマークとして定式化されており、700の屋内シーンで7,727のコンテキスト変化があり、14,885の質問と回答のペアとなる。
- 参考スコア(独自算出の注目度): 14.798912365286629
- License:
- Abstract: The rise of vision-language foundation models marks an advancement in bridging the gap between human and machine capabilities in 3D scene reasoning. Existing 3D reasoning benchmarks assume real-time scene accessibility, which is impractical due to the high cost of frequent scene updates. To this end, we introduce Hypothetical 3D Reasoning, namely Hypo3D, a benchmark designed to evaluate models' ability to reason without access to real-time scene data. Models need to imagine the scene state based on a provided change description before reasoning. Hypo3D is formulated as a 3D Visual Question Answering (VQA) benchmark, comprising 7,727 context changes across 700 indoor scenes, resulting in 14,885 question-answer pairs. An anchor-based world frame is established for all scenes, ensuring consistent reference to a global frame for directional terms in context changes and QAs. Extensive experiments show that state-of-the-art foundation models struggle to reason in hypothetically changed scenes. This reveals a substantial performance gap compared to humans, particularly in scenarios involving movement changes and directional reasoning. Even when the context change is irrelevant to the question, models often incorrectly adjust their answers.
- Abstract(参考訳): 視覚言語基礎モデルの台頭は、3Dシーン推論における人間と機械の能力のギャップを埋めることの進展を示している。
既存の3D推論ベンチマークでは、頻繁なシーン更新のコストが高いため、リアルタイムのシーンアクセシビリティを前提としています。
この目的のために,実時間シーンデータにアクセスせずにモデルが推論できる能力を評価するためのベンチマークであるPhythetical 3D Reasoningを導入する。
モデルは、推論する前に提供された変更記述に基づいてシーン状態を想像する必要がある。
hypo3D は 3D Visual Question Answering (VQA) ベンチマークとして定式化されており、700の屋内シーンで7,727のコンテキスト変化があり、14,885の質問と回答のペアとなる。
アンカーベースの世界フレームはすべての場面で確立され、コンテキスト変化やQAにおける方向性用語のグローバルフレームへの一貫した参照が保証される。
大規模な実験では、最先端の基盤モデルは仮説的に変化する場面で推論に苦慮している。
これは、特に動きの変化や方向の推論を含むシナリオにおいて、人間と比較して、かなりのパフォーマンスのギャップを明らかにします。
文脈の変化が問題に無関係である場合でも、モデルは答えを誤って調整する。
関連論文リスト
- Forecasting Future Videos from Novel Views via Disentangled 3D Scene Representation [54.60804602905519]
我々は、階層化されたシーン形状、動き予測、新しいビュー合成を一緒にモデル化することを目的として、絡み合った表現を学習する。
本手法では,2次元のシーンを3次元の点群に持ち上げることによって,シーン形状をシーンの動きから切り離す。
将来の3次元シーンの動作をモデル化するために,まず自我運動を予測し,その後に動的物体の残留運動を予測する2段階のアンタングル手法を提案する。
論文 参考訳(メタデータ) (2024-07-31T08:54:50Z) - Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。
凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文 参考訳(メタデータ) (2024-04-12T17:58:04Z) - 3D scene generation from scene graphs and self-attention [51.49886604454926]
本稿では,シーングラフとフロアプランから3次元シーンを合成する条件付き変分オートエンコーダ(cVAE)モデルを提案する。
我々は、シーン内のオブジェクト間の高レベルな関係をキャプチャするために、自己注意層の特性を利用する。
論文 参考訳(メタデータ) (2024-04-02T12:26:17Z) - Visual Localization using Imperfect 3D Models from the Internet [54.731309449883284]
本稿では,3次元モデルにおける欠陥が局所化精度に与える影響について検討する。
インターネットから得られる3Dモデルは、容易に表現できるシーン表現として有望であることを示す。
論文 参考訳(メタデータ) (2023-04-12T16:15:05Z) - SQA3D: Situated Question Answering in 3D Scenes [86.0205305318308]
エンボディエージェントのシーン理解をベンチマークする新しいタスクを提案する:3次元シーンにおける質問回答(SQA3D)
シーンコンテキストが与えられた場合、SQA3Dはテスト対象のエージェントに対して、まずテキストによって記述された3Dシーンの状況を理解し、その環境を判断し、その状況下での質問に答えるように要求する。
ScanNetの650のシーンに基づいて、20.4kの記述と33.4kの多様な推論問題とともに、6.8kのユニークな状況を中心としたデータセットを提供する。
論文 参考訳(メタデータ) (2022-10-14T02:52:26Z) - CoSIm: Commonsense Reasoning for Counterfactual Scene Imagination [87.4797527628459]
我々はCoSIm(Comonsense Reasoning for Counterfactual Scene Imagination)と呼ばれる新しいタスク/データセットを導入する。
CoSImは、シーン変更の想像力を推論するAIシステムの能力を評価するように設計されている。
論文 参考訳(メタデータ) (2022-07-08T15:28:23Z) - Comprehensive Visual Question Answering on Point Clouds through
Compositional Scene Manipulation [33.91844305449863]
大規模なVQA-3DデータセットであるCLEVR3Dを提案する。
本研究では,3次元シーングラフ構造を利用した質問エンジンを開発し,多様な推論問題を生成する。
より困難な設定が提案され、背景のバイアスを除去し、コンテキストを常識的なレイアウトから調整する。
論文 参考訳(メタデータ) (2021-12-22T06:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。