論文の概要: COCO-Tree: Compositional Hierarchical Concept Trees for Enhanced Reasoning in Vision Language Models
- arxiv url: http://arxiv.org/abs/2510.11012v1
- Date: Mon, 13 Oct 2025 05:07:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.207586
- Title: COCO-Tree: Compositional Hierarchical Concept Trees for Enhanced Reasoning in Vision Language Models
- Title(参考訳): COCO-Tree:視覚言語モデルにおける推論強化のための構成階層的概念木
- Authors: Sanchit Sinha, Guangzhi Xiong, Aidong Zhang,
- Abstract要約: COCO-Tree」は、VLMの言語的推論を改善するために、慎重に設計されたニューロシンボリックな概念木でVLMの出力を増強する新しいアプローチである。
COCO-Treeのビームサーチインスパイアされた推論プロセスは、構成性能を高め、VLM予測の背後にある理論的根拠を提供する。
- 参考スコア(独自算出の注目度): 45.48194499967696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositional reasoning remains a persistent weakness of modern vision language models (VLMs): they often falter when a task hinges on understanding how multiple objects, attributes, and relations interact within an image. Multiple research works have attempted to improve compositionality performance by creative tricks such as improving prompt structure, chain of thought reasoning, etc. A more recent line of work attempts to impart additional reasoning in VLMs using well-trained Large Language Models (LLMs), which are far superior in linguistic understanding than VLMs to compensate for the limited linguistic prowess of VLMs. However, these approaches are either resource-intensive or do not provide an interpretable reasoning process. In this paper, we present 'COCO-Tree' - a novel approach that augments VLM outputs with carefully designed neurosymbolic concept trees learned from LLMs to improve VLM's linguistic reasoning. COCO-Tree's beam search-inspired reasoning process boosts compositionality performance and provides a rationale behind VLM predictions. Empirical results on four compositionality benchmarks, Winoground, EqBench, ColorSwap, and SugarCrepe, in seven different open-source VLMs with varying sizes, demonstrate that COCO-Tree significantly improves compositional generalization by 5-10% over baselines.
- Abstract(参考訳): 構成的推論は、現代の視覚言語モデル(VLM)の永続的な弱点であり、複数のオブジェクト、属性、関係が画像内でどのように相互作用するかを理解するためにタスクがヒンジされると、しばしば混乱する。
複数の研究が、素早い構造の改善や思考の連鎖など、創造的なトリックによって構成性の向上を試みている。
より最近の研究は、十分に訓練されたLarge Language Models (LLM) を用いてVLMにさらなる推論を課そうとしている。
しかし、これらのアプローチはリソース集約的か、解釈可能な推論プロセスを提供していない。
本稿では, VLMの言語的推論を改善するために, LLMから学んだ神経象徴的概念木を慎重に設計し, VLMの出力を増大させる新しいアプローチである'COCO-Tree'を提案する。
COCO-Treeのビームサーチインスパイアされた推論プロセスは、構成性能を高め、VLM予測の背後にある理論的根拠を提供する。
Winoground、EqBench、ColorSwap、SugarCrepeの4つのコンポジション性ベンチマークの実証的な結果から、COCO-Treeはベースラインよりも5-10%、コンポジションの一般化を著しく改善することが示された。
関連論文リスト
- Decomposing Visual Classification: Assessing Tree-Based Reasoning in VLMs [1.4231678631753704]
視覚言語モデル(VLM)は、ゼロショット視覚分類において優れるが、細粒度タスクや大きな階層的ラベル空間でのそれらの性能は検討されていない。
本稿では,木構造に基づく推論によってVLM性能が向上するかどうかを考察する。
論文 参考訳(メタデータ) (2025-09-10T13:08:03Z) - Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。
既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。
我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T14:00:57Z) - Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - XCOMPS: A Multilingual Benchmark of Conceptual Minimal Pairs [43.45666129711046]
XCOMPSは17言語をカバーする多言語の概念的最小ペアデータセットである。
我々は,LLMの多言語概念理解をメタ言語的プロンプト,直接確率測定,神経言語学的探索を通じて評価した。
論文 参考訳(メタデータ) (2025-02-27T04:02:13Z) - MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models [85.10375181040436]
本稿では,視覚言語モデルを包括的かつ正確に評価する新しい人間アノテーションベンチマークMMCOMPOSITIONを提案する。
GPT-4oのコンポジション性は,最も優れたオープンソースモデルよりも劣ることがわかった。
論文 参考訳(メタデータ) (2024-10-13T05:35:09Z) - Enhancing Advanced Visual Reasoning Ability of Large Language Models [20.32900494896848]
VL(Vision-Language)研究の最近の進歩は、複雑な視覚的推論のための新しいベンチマークを引き起こした。
我々はCVR-LLM(Complex Visual Reasoning Large Language Models)を提案する。
提案手法は,反復的自己修正ループを用いて,画像の詳細なコンテキスト認識記述に変換する。
また、LLMの文脈的理解と推論を強化するために、新しいマルチモーダル・インコンテキスト学習(ICL)手法を導入する。
論文 参考訳(メタデータ) (2024-09-21T02:10:19Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - 3VL: Using Trees to Improve Vision-Language Models' Interpretability [40.678288227161936]
VLM(Vision-Language Model)は、画像とテキストの表現の整列に有効であることが証明されており、多くの下流タスクに転送すると、より優れたゼロショット結果が得られる。
これらの表現は、オブジェクトの属性、状態、異なるオブジェクト間の関係を認識するなど、構成言語概念(CLC)を理解する際のいくつかの重要な欠点に悩まされる。
本稿では,木拡張ビジョンランゲージ(3VL)モデルのアーキテクチャとトレーニング手法を紹介する。
論文 参考訳(メタデータ) (2023-12-28T20:26:03Z) - Large Language Models are Visual Reasoning Coordinators [144.67558375045755]
視覚的推論のために複数の視覚言語モデルを協調する新しいパラダイムを提案する。
提案手法は,視覚的質問応答における最先端性能を実現するため,命令チューニングの変種であるCola-FTを提案する。
また,テキスト内学習の変種であるCola-Zeroは,ゼロおよび少数ショット設定で競合性能を示すことを示す。
論文 参考訳(メタデータ) (2023-10-23T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。