論文の概要: HCNQA: Enhancing 3D VQA with Hierarchical Concentration Narrowing Supervision
- arxiv url: http://arxiv.org/abs/2507.01800v1
- Date: Wed, 02 Jul 2025 15:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.350954
- Title: HCNQA: Enhancing 3D VQA with Hierarchical Concentration Narrowing Supervision
- Title(参考訳): HCNQA:階層型集中型狭帯域化による3D VQAの強化
- Authors: Shengli Zhou, Jianuo Zhu, Qilin Huang, Fangjing Wang, Yanfu Zhang, Feng Zheng,
- Abstract要約: 3次元視覚質問応答(3D VQA)は,物理世界を知覚し,空間的推論を行うモデルにおいて重要である。
アンサー中心の監督は3D VQAモデルの一般的な訓練方法である。
階層的濃度狭化監視手法を利用した3次元VQAモデルである textbfHCNQA を提案する。
- 参考スコア(独自算出の注目度): 39.97232897440352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D Visual Question-Answering (3D VQA) is pivotal for models to perceive the physical world and perform spatial reasoning. Answer-centric supervision is a commonly used training method for 3D VQA models. Many models that utilize this strategy have achieved promising results in 3D VQA tasks. However, the answer-centric approach only supervises the final output of models and allows models to develop reasoning pathways freely. The absence of supervision on the reasoning pathway enables the potential for developing superficial shortcuts through common patterns in question-answer pairs. Moreover, although slow-thinking methods advance large language models, they suffer from underthinking. To address these issues, we propose \textbf{HCNQA}, a 3D VQA model leveraging a hierarchical concentration narrowing supervision method. By mimicking the human process of gradually focusing from a broad area to specific objects while searching for answers, our method guides the model to perform three phases of concentration narrowing through hierarchical supervision. By supervising key checkpoints on a general reasoning pathway, our method can ensure the development of a rational and effective reasoning pathway. Extensive experimental results demonstrate that our method can effectively ensure that the model develops a rational reasoning pathway and performs better. The code is available at https://github.com/JianuoZhu/HCNQA.
- Abstract(参考訳): 3次元視覚質問応答(3D VQA)は,物理世界を知覚し,空間的推論を行うモデルにおいて重要である。
アンサー中心の監督は3D VQAモデルの一般的な訓練方法である。
この戦略を利用するモデルの多くは、3D VQAタスクで有望な結果を得た。
しかし、回答中心のアプローチはモデルの最終的な出力を監督し、モデルは推論経路を自由に開発することができる。
推論経路の監督の欠如は、質問応答ペアの共通パターンを通して表面ショートカットを開発する可能性をもたらす。
さらに、緩やかな思考手法は大きな言語モデルを進めるが、彼らは過小評価に苦しむ。
これらの問題に対処するために,階層的濃度狭化監視手法を利用した3次元VQAモデルである \textbf{HCNQA} を提案する。
回答を探索しながら,広い範囲から特定の対象に徐々に焦点を合わせていく人間の過程を模倣することにより,階層的な監督を通じて,三段階の集中絞りをモデルに導出する。
一般的な推論経路のキーチェックポイントを監督することにより、合理的かつ効果的な推論経路の開発を確実にすることができる。
実験結果から,本手法が合理的な推論経路の発達を効果的に保証し,性能を向上できることが示唆された。
コードはhttps://github.com/JianuoZhu/HCNQA.comで公開されている。
関連論文リスト
- Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions [100.41062461003389]
フラーミング推論は,断片化された知識間の「点の接続」をモデルが支援し,非推論モデルにおいて拡張された推論トレースを生成することを示す。
提案手法を3つのベンチマークで評価し,一貫した改善点を観察する。
論文 参考訳(メタデータ) (2025-06-10T15:51:16Z) - Visual Agentic AI for Spatial Reasoning with a Dynamic API [26.759236329608935]
本稿では,3次元空間推論問題を解くためのエージェントプログラム合成手法を提案する。
我々の手法は、静的なヒューマン定義APIに依存する従来のアプローチの限界を克服する。
本手法は3次元の視覚的推論において,従来のゼロショットモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:59:35Z) - Think-Program-reCtify: 3D Situated Reasoning with Large Language Models [68.52240087262825]
本研究は,3次元環境における自我中心の観察から得られる質問に答えることを目的とした3次元位置推論課題に対処する。
我々は,ThinkProgram-reCtifyループを通じて,大規模言語モデル(LLM)の計画,ツール使用,リフレクション機能を活用する新しいフレームワークを提案する。
SQA3Dベンチマークの実験と解析により,本手法の有効性,解釈可能性,ロバスト性を実証した。
論文 参考訳(メタデータ) (2024-04-23T03:22:06Z) - 3D-Aware Visual Question Answering about Parts, Poses and Occlusions [20.83938624671415]
本稿では,視覚シーンの3次元構造に対して構成的推論を必要とする課題に焦点を当てた3次元認識型VQAの課題を紹介する。
本稿では、3D対応VQAモデルであるPO3D-VQAを提案する。このモデルでは、推論のための確率的ニューラルシンボルプログラム実行と、堅牢な視覚認識のためのオブジェクトの3D生成表現を備えたディープニューラルネットワークの2つの強力なアイデアをマージする。
実験の結果,PO3D-VQAは既存の手法よりも優れていたが,2D VQAベンチマークと比較すると大きな性能差がみられた。
論文 参考訳(メタデータ) (2023-10-27T06:15:30Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - Recovering 3D Human Mesh from Monocular Images: A Survey [49.00136388529404]
単眼画像から人間のポーズと形状を推定することは、コンピュータビジョンにおける長年の問題である。
本調査は, 単分子型3次元メッシュ回収の課題に焦点を当てた。
論文 参考訳(メタデータ) (2022-03-03T18:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。