論文の概要: Composition-Grounded Instruction Synthesis for Visual Reasoning
- arxiv url: http://arxiv.org/abs/2510.15040v1
- Date: Thu, 16 Oct 2025 18:00:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.338194
- Title: Composition-Grounded Instruction Synthesis for Visual Reasoning
- Title(参考訳): 合成囲い込みによる視覚的推論のための命令合成
- Authors: Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong, Zhuoran Yu, Pengyuan Li, Dhiraj Joshi, Rogerio Feris, Zexue He,
- Abstract要約: COGSは、少数の種問から高度な推論能力を持つMLLMを装備するためのフレームワークである。
我々は,COGSが未確認の質問に対する性能を著しく改善し,推論量や構成的質問に対する最大の利益が得られたことを示す。
- 参考スコア(独自算出の注目度): 29.72969046915743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained multi-modal large language models (MLLMs) demonstrate strong performance on diverse multimodal tasks, but remain limited in reasoning capabilities for domains where annotations are difficult to collect. In this work, we focus on artificial image domains such as charts, rendered documents, and webpages, which are abundant in practice yet lack large-scale human annotated reasoning datasets. We introduce COGS (COmposition-Grounded instruction Synthesis), a data-efficient framework for equipping MLLMs with advanced reasoning abilities from a small set of seed questions. The key idea is to decompose each seed question into primitive perception and reasoning factors, which can then be systematically recomposed with new images to generate large collections of synthetic question-answer pairs. Each generated question is paired with subquestions and intermediate answers, enabling reinforcement learning with factor-level process rewards. Experiments on chart reasoning show that COGS substantially improves performance on unseen questions, with the largest gains on reasoning-heavy and compositional questions. Moreover, training with a factor-level mixture of different seed data yields better transfer across multiple datasets, suggesting that COGS induces generalizable capabilities rather than dataset-specific overfitting. We further demonstrate that the framework extends beyond charts to other domains such as webpages.
- Abstract(参考訳): 事前訓練されたマルチモーダル大規模言語モデル (MLLM) は多様なマルチモーダルタスクにおいて高い性能を示すが、アノテーションの収集が困難であるドメインの推論能力には限界がある。
本研究では,グラフやレンダリング文書,Webページなどの人工画像領域に焦点をあてる。
COGS(COmposition-Grounded instruction synthesis)は,MLLMを少数の種問から高度な推論能力を持つデータ効率のよいフレームワークである。
鍵となるアイデアは、各シード質問を原始的な知覚と推論因子に分解し、新しい画像で体系的に再分解して、大量の合成質問応答ペアを生成することである。
生成された各質問は、サブクエストと中間回答と組み合わせて、因子レベルのプロセス報酬による強化学習を可能にする。
チャート推論の実験では、COGSは目に見えない質問のパフォーマンスを大幅に改善し、推論重と構成的質問に対する最大の利益が得られた。
さらに、異なるシードデータの因子レベルの混合によるトレーニングでは、複数のデータセット間の転送性が向上し、COGSがデータセット固有のオーバーフィッティングではなく、一般化可能な機能を引き出すことが示唆されている。
さらに、このフレームワークがチャートを超えて、Webページのような他のドメインにも拡張されていることを実証する。
関連論文リスト
- MIXRAG : Mixture-of-Experts Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [6.596018318578605]
Retrieval-Augmented Generation (RAG)は、推論中に外部知識ソースを組み込むことで、Large Language Models (LLM)を強化する。
既存のアプローチのほとんどは、関連するサブグラフを特定するために単一のレトリバーに依存しており、複雑なクエリのさまざまな側面をキャプチャする能力を制限する。
そこで我々は,Mixture-of-Experts Graph-RAGフレームワークであるMIXRAGを提案する。
論文 参考訳(メタデータ) (2025-09-24T02:44:57Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - PGX: A Multi-level GNN Explanation Framework Based on Separate Knowledge
Distillation Processes [0.2005299372367689]
本稿では,GNNがグラフデータにおける複数のコンポーネントのマルチモーダル学習プロセスであることを示す,多段階GNN説明フレームワークを提案する。
元の問題の複雑さは、階層構造として表される複数の部分部分に分解することで緩和される。
このフレームワークはユーザの好みに基づいて異なる結果を生成することができるため、パーソナライズされた説明も目的としている。
論文 参考訳(メタデータ) (2022-08-05T10:14:48Z) - Feature Ranking for Semi-supervised Learning [3.1380888953704984]
特徴ランクの半教師付き学習を提案する。
我々の知る限りでは、半教師付き構造的出力予測コンテキストにおける特徴ランク付けのタスクを取り扱うのはこれが初めてである。
ランダムフォレストは分類のようなタスクでベスト、回帰のようなタスクではエクストラPCTがベストです。
論文 参考訳(メタデータ) (2020-08-10T07:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。