論文の概要: CoTZero: Annotation-Free Human-Like Vision Reasoning via Hierarchical Synthetic CoT
- arxiv url: http://arxiv.org/abs/2602.08339v1
- Date: Mon, 09 Feb 2026 07:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.102125
- Title: CoTZero: Annotation-Free Human-Like Vision Reasoning via Hierarchical Synthetic CoT
- Title(参考訳): CoTZero:階層型合成CoTによるアノテーションのない人間ライクな視覚推論
- Authors: Chengyi Du, Yazhe Niu, Dazhong Shen, Luxin Xu,
- Abstract要約: CoTZeroはアノテーションなしのパラダイムで、2つのコンポーネントがある。
CoTZeroは視覚的プリミティブを抽出し、構造化された質問推論形式に構成する。
合成されたCoTデータに基づいて構築された認知対応トレーニングコンポーネントでは,認知的コヒーレントな検証リワードを導入する。
- 参考スコア(独自算出の注目度): 9.44589968698834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision-language models (VLMs) have markedly improved image-text alignment, yet they still fall short of human-like visual reasoning. A key limitation is that many VLMs rely on surface correlations rather than building logically coherent structured representations, which often leads to missed higher-level semantic structure and non-causal relational understanding, hindering compositional and verifiable reasoning. To address these limitations by introducing human models into the reasoning process, we propose CoTZero, an annotation-free paradigm with two components: (i) a dual-stage data synthesis approach and (ii) a cognition-aligned training method. In the first component, we draw inspiration from neurocognitive accounts of compositional productivity and global-to-local analysis. In the bottom-up stage, CoTZero extracts atomic visual primitives and incrementally composes them into diverse, structured question-reasoning forms. In the top-down stage, it enforces hierarchical reasoning by using coarse global structure to guide the interpretation of local details and causal relations. In the cognition-aligned training component, built on the synthesized CoT data, we introduce Cognitively Coherent Verifiable Rewards (CCVR) in Reinforcement Fine-Tuning (RFT) to further strengthen VLMs' hierarchical reasoning and generalization, providing stepwise feedback on reasoning coherence and factual correctness. Experiments show that CoTZero achieves an F1 score of 83.33 percent on our multi-level semantic inconsistency benchmark with lexical-perturbation negatives, across both in-domain and out-of-domain settings. Ablations confirm that each component contributes to more interpretable and human-aligned visual reasoning.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は、画像テキストのアライメントを著しく改善しているが、それでも人間のような視覚的推論には不足している。
鍵となる制限は、多くのVLMが論理的に一貫性のある構造的表現を構築するよりも表面的相関に依存しており、しばしば高レベルの意味構造や非因果関係の理解を見逃し、構成的および検証可能な推論を妨げる。
推論プロセスに人間モデルを導入し,これらの制約に対処するために,2つのコンポーネントを持つアノテーションのないパラダイムであるCoTZeroを提案する。
(i)二段階データ合成手法
(二)認知に整合した訓練方法。
第1の構成要素は、構成的生産性とグローバル・ツー・ローカル分析の神経認知的記述から着想を得たものである。
ボトムアップ段階では、CoTZeroは原子ビジュアルプリミティブを抽出し、それらを多様で構造化された質問応答形式に漸進的に構成する。
トップダウン段階では、粗いグローバル構造を用いて、局所的な詳細と因果関係の解釈を導くことによって階層的推論を実施する。
合成されたCoTデータに基づいて構築された認知整合性学習コンポーネントにおいて,VLMの階層的推論と一般化をさらに強化し,コヒーレンスと事実的正当性に関する段階的なフィードバックを提供するために,強化細管(RFT)における認知整合性検証リワード(CCVR)を導入する。
実験によると、CoTZeroはドメイン内およびドメイン外の両方で、語彙摂動の負を持つマルチレベルセマンティック不整合ベンチマークにおいて、F1スコアが83.33%に達する。
アブレーションは、各コンポーネントがより解釈可能で人間に沿った視覚的推論に寄与することを確認する。
関連論文リスト
- Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。
グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。
グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文 参考訳(メタデータ) (2026-01-13T03:35:18Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.27548620675748]
構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。
本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。
次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
論文 参考訳(メタデータ) (2025-08-24T11:01:51Z) - Relation-R1: Progressively Cognitive Chain-of-Thought Guided Reinforcement Learning for Unified Relation Comprehension [31.952192907460713]
Relation-R1は、テキストファーストの統一関係理解フレームワークである。
認知連鎖(CoT)誘導型微調整(SFT)とグループ相対政策最適化(GRPO)を統合している。
広く使われているPSGデータセットとSWiGデータセットの実験により、リレーショナルR1はバイナリとtextitN-aryリレーショナル理解の両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-04-20T14:50:49Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Synergistic Anchored Contrastive Pre-training for Few-Shot Relation
Extraction [4.7220779071424985]
Few-shot Relation extract (FSRE) は、ラベル付きコーパスのスパースセットから事実を抽出することを目的としている。
近年の研究では、事前学習言語モデルを用いたFSREの有望な結果が示されている。
本稿では,新しい相乗的アンカー付きコントラスト事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T10:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。