論文の概要: Mimic Human Cognition, Master Multi-Image Reasoning: A Meta-Action Framework for Enhanced Visual Understanding
- arxiv url: http://arxiv.org/abs/2601.07298v1
- Date: Mon, 12 Jan 2026 08:15:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.278374
- Title: Mimic Human Cognition, Master Multi-Image Reasoning: A Meta-Action Framework for Enhanced Visual Understanding
- Title(参考訳): Mimic Human Cognition, Master Multi- Image Reasoning: A Meta-Action Framework for Enhanced Visual Understanding
- Authors: Jianghao Yin, Qingbin Li, Kun Sun, Cheng Ding, Jie Wang, Qin Chen, Jie Zhou, Nan Wang, Changqing Li, Pei Wu, Jian Xu, Zheming Yang, Liang He,
- Abstract要約: 本稿では,マルチイメージ推論を5つの構造化メタアクション(Global, Focus, Hint, Think, Answer)に分解する手法を提案する。
我々のモデルはMUIRおよびMVMathベンチマークでGPT-4oを上回り、特にビデオ理解ベンチマークで特別なビデオ推論モデルよりも優れている。
- 参考スコア(独自算出の注目度): 25.81793866721208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multimodal Large Language Models (MLLMs) excel at single-image understanding, they exhibit significantly degraded performance in multi-image reasoning scenarios. Multi-image reasoning presents fundamental challenges including complex inter-relationships between images and scattered critical information across image sets. Inspired by human cognitive processes, we propose the Cognition-Inspired Meta-Action Framework (CINEMA), a novel approach that decomposes multi-image reasoning into five structured meta-actions: Global, Focus, Hint, Think, and Answer which explicitly modeling the sequential cognitive steps humans naturally employ. For cold-start training, we introduce a Retrieval-Based Tree Sampling strategy that generates high-quality meta-action trajectories to bootstrap the model with reasoning patterns. During reinforcement learning, we adopt a two-stage paradigm: an exploration phase with Diversity-Preserving Strategy to avoid entropy collapse, followed by an annealed exploitation phase with DAPO to gradually strengthen exploitation. To train our model, we construct a dataset of 57k cold-start and 58k reinforcement learning instances spanning multi-image, multi-frame, and single-image tasks. We conduct extensive evaluations on multi-image reasoning benchmarks, video understanding benchmarks, and single-image benchmarks, achieving competitive state-of-the-art performance on several key benchmarks. Our model surpasses GPT-4o on the MUIR and MVMath benchmarks and notably outperforms specialized video reasoning models on video understanding benchmarks, demonstrating the effectiveness and generalizability of our human cognition-inspired reasoning framework.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、単一画像理解において優れているが、多画像推論のシナリオでは著しく性能が低下している。
マルチイメージ推論は、画像間の複雑な相互関係と、画像集合間の散乱臨界情報を含む基本的な課題を提示する。
人間の認知プロセスにインスパイアされた認知誘発メタアクションフレームワーク(CINEMA)を提案する。これは、マルチイメージ推論を5つの構造化メタアクション(Global, Focus, Hint, Think, Answer)に分解する新しいアプローチで、人間が自然に採用する逐次認知ステップを明示的にモデル化する。
コールドスタートトレーニングには、高品質なメタアクショントラジェクトリを生成するRetrieval-based Tree Smpling戦略を導入し、推論パターンを用いてモデルをブートストラップする。
強化学習では,エントロピー崩壊を避けるため,多様性保存戦略による探索段階と,DAPOによるアニール利用段階という2段階のパラダイムを採用する。
モデルをトレーニングするために、マルチイメージ、マルチフレーム、シングルイメージタスクにまたがる57kのコールドスタートと58kの強化学習インスタンスのデータセットを構築した。
我々は、マルチイメージ推論ベンチマーク、ビデオ理解ベンチマーク、シングルイメージベンチマークについて広範な評価を行い、いくつかの主要なベンチマークで競合する最先端性能を達成する。
我々のモデルはMUIRおよびMVMathベンチマークでGPT-4oを上回り、特にビデオ理解ベンチマークで特別なビデオ推論モデルよりも優れており、人間の認知に触発された推論フレームワークの有効性と一般化性を示している。
関連論文リスト
- More Images, More Problems? A Controlled Analysis of VLM Failure Modes [80.64323947730905]
大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。
LVLMのマルチイメージ能力を厳格に評価する新しいベンチマークMIMICを紹介する。
論文 参考訳(メタデータ) (2026-01-12T18:45:13Z) - PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning [50.21619363035618]
本稿では,マルチモーダルタスクのインターリーブに適した汎用強化学習手法PeRLを提案する。
空間的および位置的多様性を探索するために、様々な位置関係をシミュレートするために、画像列の置換を導入する。
実験の結果,PeRLのトレーニングモデルは,VLMベースラインを大きなマージンで,R1関連およびインターリーブしたVLMベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T18:25:56Z) - Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains [31.828341309787042]
視覚言語モデル(VLM)は、単一画像タスクにおいて顕著な成功を収める。
現実のシナリオでは複雑なマルチイメージの入力が伴うことが多く、パフォーマンスが著しく低下する。
マルチイメージシナリオにおけるVLMの知覚、理解、推論能力を高める新しいパラダイムであるFocus-Centric Visual Chainを提案する。
論文 参考訳(メタデータ) (2025-04-28T19:02:18Z) - CMMCoT: Enhancing Complex Multi-Image Comprehension via Multi-Modal Chain-of-Thought and Memory Augmentation [12.008690947774015]
マルチイメージ理解のための「スロー思考」を模倣した多段階推論フレームワークを提案する。
重要な視覚領域トークンを利用したインターリーブマルチモーダル多段階推論チェーンの構築
推論中にモデル推論能力を拡張するテスト時メモリ拡張モジュールの導入。
論文 参考訳(メタデータ) (2025-03-07T09:13:17Z) - Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning [15.296263261737026]
マルチイメージMIRBベンチマークを導入し、複数の画像を比較し、分析し、推論する視覚言語モデルの能力を評価する。
私たちのベンチマークには、知覚、視覚世界知識、推論、マルチホップ推論の4つのカテゴリが含まれています。
オープンソースVLMはシングルイメージタスクにおいてGPT-4Vに接近することを示したが、マルチイメージ推論タスクでは大きなギャップが残っている。
論文 参考訳(メタデータ) (2024-06-18T16:02:18Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。