論文の概要: HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning
- arxiv url: http://arxiv.org/abs/2603.17024v1
- Date: Tue, 17 Mar 2026 18:04:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.338646
- Title: HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning
- Title(参考訳): HopChain: 一般化可能なビジョンランゲージ推論のためのマルチホップデータ合成
- Authors: Shenzhi Wang, Shixuan Liu, Jing Zhou, Chang Gao, Xiong-Hui Chen, Binghai Wang, An Yang, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin,
- Abstract要約: Long CoT推論は、知覚、推論、知識、幻覚のエラーなど、さまざまな障害モードを公開する。
RLVRで使われている既存の視覚言語データのほとんどは、視覚的証拠に頼っている複雑な推論連鎖を含まない。
我々は、RLVRトレーニング専用にマルチホップ視覚言語推論データを合成するスケーラブルなフレームワークHopChainを提案する。
- 参考スコア(独自算出の注目度): 86.82637240330791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: VLMs show strong multimodal capabilities, but they still struggle with fine-grained vision-language reasoning. We find that long CoT reasoning exposes diverse failure modes, including perception, reasoning, knowledge, and hallucination errors, which can compound across intermediate steps. However, most existing vision-language data used for RLVR does not involve complex reasoning chains that rely on visual evidence throughout, leaving these weaknesses largely unexposed. We therefore propose HopChain, a scalable framework for synthesizing multi-hop vision-language reasoning data specifically for RLVR training of VLMs. Each synthesized multi-hop query forms a logically dependent chain of instance-grounded hops, where earlier hops establish the instances, sets, or conditions needed for later hops, while the final answer remains a specific, unambiguous number suitable for verifiable rewards. We add the multi-hop data synthesized by HopChain to the original RLVR data used to train Qwen3.5-35B-A3B and Qwen3.5-397B-A17B, and compare against RLVR on the original RLVR data alone across 24 benchmarks spanning STEM and Puzzle, General VQA, Text Recognition and Document Understanding, and Video Understanding. Although this multi-hop data is not synthesized to target any specific benchmark, adding it improves 20 out of 24 benchmarks on both models, indicating broad and generalizable gains. To demonstrate that full chained queries are important, we replace them with half-multi-hop or single-hop variants, reducing the 24-benchmark average accuracy by 5.3 and 7.0 points, respectively. Multi-hop training also strengthens long-CoT vision-language reasoning, with gains peaking at more than 50 accuracy points in the ultra-long-CoT regime. These experiments establish HopChain as an effective, scalable framework for synthesizing multi-hop data that improves generalizable vision-language reasoning.
- Abstract(参考訳): VLMは強力なマルチモーダル能力を示すが、それでも細粒度の視覚言語推論に苦戦している。
長いCoT推論は、知覚、推論、知識、幻覚の誤りなど、さまざまな障害モードを露呈し、中間ステップをまたいで複雑化する可能性がある。
しかし、既存のRLVRで使われている視覚言語データのほとんどは、視覚的証拠に頼っている複雑な推論連鎖を含まないため、これらの弱点はほとんど明らかにされていない。
そこで我々は,VLMのRLVRトレーニングに特化して,マルチホップ視覚言語推論データを合成するためのスケーラブルなフレームワークHopChainを提案する。
それぞれの合成されたマルチホップクエリは、初期ホップが後続ホップに必要なインスタンス、セット、条件を確立するような、論理的に依存したインスタンスグラウンドホップの連鎖を形成する。
HopChainが合成したマルチホップデータを、Qwen3.5-35B-A3BとQwen3.5-397B-A17Bのトレーニングに使用する元のRLVRデータに加え、STEMとPuzzle、一般VQA、テキスト認識と文書理解、ビデオ理解の24ベンチマークで比較した。
このマルチホップデータは特定のベンチマークをターゲットにするために合成されていないが、両方のモデルで24ベンチマーク中20ベンチマークを改善し、広範かつ一般化可能なゲインを示している。
完全連鎖クエリが重要であることを示すため、半マルチホップまたはシングルホップの変種に置き換え、24ベンチマークの平均精度をそれぞれ5.3ポイントと7.0ポイント削減する。
マルチホップトレーニングはまた、長いCoTの視覚言語推論を強化し、超長CoT体制では50以上の精度ポイントでゲインを達成している。
これらの実験により、HopChainは、一般化可能な視覚言語推論を改善するマルチホップデータを合成するための、効果的でスケーラブルなフレームワークとして確立される。
関連論文リスト
- More Than the Final Answer: Improving Visual Extraction and Logical Consistency in Vision-Language Models [74.10138874771852]
RLVR上で視覚知覚とテキスト推論を別々に改善する分離されたフレームワークであるPeRL-VL(Perception and Reasoning Learning for Vision-Language Models)を提案する。
知覚のために、PeRL-VLはVLMに基づく説明報酬を導入し、モデルの自己生成した画像記述を忠実さと満足度で評価する。
推論のために、PeRL-VLは論理に富んだチェーン・オブ・シントデータに関するテキストのみの推論SFTステージを追加し、コヒーレンスと論理的一貫性を視覚と独立に強化する。
論文 参考訳(メタデータ) (2025-12-13T23:06:18Z) - PluriHop: Exhaustive, Recall-Sensitive QA over Distractor-Rich Corpora [0.0]
PluriHopWINDは、ドイツ語と英語の191の現実世界の風力産業レポートから構築された48のプルホップ質問の診断用多言語データセットである。
PluriHopWIND は他の一般的なデータセットよりも 8-40% の反復性を示し,その有効性を示す。
本稿では,RAGアーキテクチャであるPluriHopRAGを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:22:58Z) - NovelHopQA: Diagnosing Multi-Hop Reasoning Failures in Long Narrative Contexts [4.716662397532276]
NovelHopQAは、83の長編小説から64k-128k区切り抜かれた抜粋に対して、1-4ホップQAを評価する最初のベンチマークである。
キーワード誘導パイプラインは、コヒーレントなストーリーラインに接したホップトケンチェーンを構築する。
論文 参考訳(メタデータ) (2025-05-20T20:54:37Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Towards Interpreting Language Models: A Case Study in Multi-Hop Reasoning [0.0]
言語モデル(LM)は、一貫してマルチホップ推論を行うのに苦労する。
本稿では,LMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T16:30:26Z) - Locate Then Ask: Interpretable Stepwise Reasoning for Multi-hop Question
Answering [71.49131159045811]
マルチホップ推論では、複雑な質問に答えるために複数の文書を集約する必要がある。
既存の方法は通常、マルチホップの質問を単純なシングルホップの質問に分解する。
そこで本研究では,単一ホップ支援文識別と単一ホップ質問生成の両方を組み込む,解釈可能な段階的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-22T13:24:25Z) - Teaching Broad Reasoning Skills via Decomposition-Guided Contexts [50.114651561111245]
質問に答えるデータセットには、幅広い推論スキルが必要です。
質問分解を用いて、これらの幅広い推論スキルを堅牢な方法で教える方法について説明する。
論文 参考訳(メタデータ) (2022-05-25T05:13:21Z) - Multi-hop Question Generation with Graph Convolutional Network [58.31752179830959]
マルチホップ質問生成(Multi-hop Question Generation, QG)は,異なる段落から散在する複数の証拠を集約・推論することで,回答に関連する質問を生成することを目的とする。
複数のホップでコンテキストエンコーディングを行うMulQG(Multi-Hop volution Fusion Network for Question Generation)を提案する。
提案モデルでは,高い完全性を有する流動的な質問を生成することができ,マルチホップ評価において,最強のベースラインを20.8%向上させることができる。
論文 参考訳(メタデータ) (2020-10-19T06:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。