Fugu-MT 論文翻訳(概要): Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models

論文の概要: Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models

arxiv url: http://arxiv.org/abs/2505.04921v1
Date: Thu, 08 May 2025 03:35:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-09 21:43:49.737094
Title: Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models
Title（参考訳）: 知覚・推論・思考・計画:大規模マルチモーダル推論モデルに関する調査
Authors: Yunxin Li, Zhenyu Liu, Zitao Li, Xuanyu Zhang, Zhenran Xu, Xinyu Chen, Haoyuan Shi, Shenyuan Jiang, Xintong Wang, Jifang Wang, Shouzheng Huang, Xinping Zhao, Borui Jiang, Lanqing Hong, Longyue Wang, Zhuotao Tian, Baoxing Huai, Wenhan Luo, Weihua Luo, Zheng Zhang, Baotian Hu, Min Zhang,
Abstract要約: 推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートする、有望なパラダイムとして登場した。
参考スコア（独自算出の注目度）: 79.52467430114805
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Reasoning lies at the heart of intelligence, shaping the ability to make decisions, draw conclusions, and generalize across domains. In artificial intelligence, as systems increasingly operate in open, uncertain, and multimodal environments, reasoning becomes essential for enabling robust and adaptive behavior. Large Multimodal Reasoning Models (LMRMs) have emerged as a promising paradigm, integrating modalities such as text, images, audio, and video to support complex reasoning capabilities and aiming to achieve comprehensive perception, precise understanding, and deep reasoning. As research advances, multimodal reasoning has rapidly evolved from modular, perception-driven pipelines to unified, language-centric frameworks that offer more coherent cross-modal understanding. While instruction tuning and reinforcement learning have improved model reasoning, significant challenges remain in omni-modal generalization, reasoning depth, and agentic behavior. To address these issues, we present a comprehensive and structured survey of multimodal reasoning research, organized around a four-stage developmental roadmap that reflects the field's shifting design philosophies and emerging capabilities. First, we review early efforts based on task-specific modules, where reasoning was implicitly embedded across stages of representation, alignment, and fusion. Next, we examine recent approaches that unify reasoning into multimodal LLMs, with advances such as Multimodal Chain-of-Thought (MCoT) and multimodal reinforcement learning enabling richer and more structured reasoning chains. Finally, drawing on empirical insights from challenging benchmarks and experimental cases of OpenAI O3 and O4-mini, we discuss the conceptual direction of native large multimodal reasoning models (N-LMRMs), which aim to support scalable, agentic, and adaptive reasoning and planning in complex, real-world environments.
Abstract（参考訳）: 推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートし、包括的認識、正確な理解、深い推論の実現を目指している。研究が進むにつれて、マルチモーダル推論はモジュール化された知覚駆動パイプラインから、より一貫性のあるクロスモーダル理解を提供する統一された言語中心のフレームワークへと急速に進化してきた。指導のチューニングと強化学習はモデル推論を改善したが、Omni-modal generalization, reasoning depth, and agentic behaviorには大きな課題が残っている。これらの課題に対処するため、我々は、この分野のシフトするデザイン哲学と新興能力を反映した4段階の開発ロードマップを中心に組織された、マルチモーダル推論研究の包括的かつ構造化された調査を示す。まず、タスク固有のモジュールに基づいて初期の取り組みをレビューし、推論は表現、アライメント、融合の各段階に暗黙的に埋め込まれた。次に、マルチモーダルLLMに推論を統一する最近のアプローチについて検討し、マルチモーダル連鎖(MCoT)やマルチモーダル強化学習などの進歩により、よりリッチでより構造化された推論チェーンを実現する。最後に,OpenAI O3とO4-miniの挑戦的なベンチマークと実験事例から得られた経験的知見をもとに,複雑で現実的な環境でのスケーラブルでエージェント的で適応的な推論と計画を支援するネイティブな大規模マルチモーダル推論モデル(N-LMRM)の概念的方向性について議論する。

関連論文リスト

MMhops-R1: Multimodal Multi-hop Reasoning [89.68086555694084]
マルチモーダルマルチホップ推論の評価と育成を目的とした新しいベンチマークであるMMhopを紹介した。 MMhopsデータセットは、ブリッジと比較という2つの困難なタスクフォーマットで構成されている。動的推論のための新しいマルチモーダル検索拡張フレームワークMMhops-R1を提案する。
論文参考訳（メタデータ） (2025-12-15T17:29:02Z)
From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models [66.36007274540113]
MLLM(Multimodal Large Language Models)は、物理的世界に対する深い人間的な理解と相互作用を達成するための試みである。情報取得(知覚)や推論(認知)を行う際、しばしば浅く不整合な統合を示す。この調査では、新しい統合分析フレームワーク「知覚から認知へ」を紹介した。
論文参考訳（メタデータ） (2025-09-29T18:25:40Z)
VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning [69.44871115752055]
本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。 PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
論文参考訳（メタデータ） (2025-07-30T12:23:21Z)
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文参考訳（メタデータ） (2025-04-04T04:04:56Z)
Mind with Eyes: from Language Reasoning to Multimodal Reasoning [19.719640188412463]
言語モデルは近年、推論の領域に進出していますが、より包括的で人間的な認知能力を達成する可能性を完全に解き放つことは、マルチモーダルな推論を通じて行われています。この調査は、最近のマルチモーダル推論アプローチの体系的な概要を提供し、それらを言語中心のマルチモーダル推論と協調マルチモーダル推論の2つのレベルに分類する。
論文参考訳（メタデータ） (2025-03-23T13:40:44Z)
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey [124.23247710880008]
マルチモーダルCoT (MCoT) 推論は近年大きな研究の注目を集めている。既存のMCoT研究は、画像、ビデオ、音声、オーディオ、3D、構造化データの課題に対処する様々な手法を設計している。我々はMCoT推論に関する最初の体系的な調査を行い、関連する基礎概念と定義を解明する。
論文参考訳（メタデータ） (2025-03-16T18:39:13Z)
Advancing Reasoning in Large Language Models: Promising Methods and Approaches [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて著しく成功している。複雑な推論スパンニング論理推論、数学的問題解決、コモンセンス推論、そして多段階推論を実行する能力は、人間の期待に届かない。本調査は, LLMにおける推論向上技術に関する総合的なレビューを提供する。
論文参考訳（メタデータ） (2025-02-05T23:31:39Z)
Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文参考訳（メタデータ） (2024-12-19T13:25:39Z)
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文参考訳（メタデータ） (2024-04-24T17:59:48Z)
DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models [28.712359821231182]
大規模言語モデル(LLM)は、思考の連鎖(CoT)を利用して人間の思考を模倣することによって、言語モダリティの多段階的推論において顕著な進歩を遂げた。これらの進歩をマルチモーダルな文脈に移すことは、労働集約的アノテーションの非現実的な必要性に限らず、より高い課題をもたらす。本研究では,複数モーダリティを推論に組み込んだDDCoTプロンプトを提案する。
論文参考訳（メタデータ） (2023-10-25T08:03:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。