論文の概要: Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2505.18536v1
- Date: Sat, 24 May 2025 06:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.487422
- Title: Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルの能力を考慮した強化微調整パワー
- Authors: Haoyuan Sun, Jiaqi Wu, Bo Xia, Yifu Luo, Yifei Zhao, Kai Qin, Xufei Lv, Tiantian Zhang, Yongzhe Chang, Xueqian Wang,
- Abstract要約: 強化微調整(RFT)は、大規模言語モデル(LLM)の推論能力を高める上で大きな可能性を示している。
本稿では,RFTがマルチモーダル大言語モデル (MLLM) の推論能力に影響を与えることを論じる。
- 参考スコア(独自算出の注目度): 10.257917779370233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standing in 2025, at a critical juncture in the pursuit of Artificial General Intelligence (AGI), reinforcement fine-tuning (RFT) has demonstrated significant potential in enhancing the reasoning capability of large language models (LLMs) and has led to the development of cutting-edge AI models such as OpenAI-o1 and DeepSeek-R1. Moreover, the efficient application of RFT to enhance the reasoning capability of multimodal large language models (MLLMs) has attracted widespread attention from the community. In this position paper, we argue that reinforcement fine-tuning powers the reasoning capability of multimodal large language models. To begin with, we provide a detailed introduction to the fundamental background knowledge that researchers interested in this field should be familiar with. Furthermore, we meticulously summarize the improvements of RFT in powering reasoning capability of MLLMs into five key points: diverse modalities, diverse tasks and domains, better training algorithms, abundant benchmarks and thriving engineering frameworks. Finally, we propose five promising directions for future research that the community might consider. We hope that this position paper will provide valuable insights to the community at this pivotal stage in the advancement toward AGI. Summary of works done on RFT for MLLMs is available at https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs.
- Abstract(参考訳): 2025年、人工知能(AGI)の追求において、強化微調整(RFT)は大規模言語モデル(LLM)の推論能力を高める重要な可能性を示し、OpenAI-o1やDeepSeek-R1のような最先端のAIモデルの開発につながった。
さらに,マルチモーダル大規模言語モデル(MLLM)の推論能力を高めるためのRFTの効率的な利用は,コミュニティから広く注目を集めている。
本稿では,マルチモーダルな大規模言語モデルの推論能力に,強化微調整が有効であると主張する。
まず、この分野に関心のある研究者が親しむべき基本的な背景知識について詳しく紹介する。
さらに,MLLMの推論能力向上におけるRFTの改良点を,多種多様性,多様なタスクとドメイン,より良いトレーニングアルゴリズム,豊富なベンチマーク,繁栄するエンジニアリングフレームワークの5つの重要なポイントに細心の注意を払って要約した。
最後に,コミュニティが考慮すべき5つの今後の研究の方向性を提案する。
我々は,このポジションペーパーが,AGIに向けた進展のこの重要な段階において,コミュニティに貴重な洞察を提供することを期待している。
RFT for MLLMsに関する作業の概要はhttps://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMsで公開されている。
関連論文リスト
- MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization [74.04867639197445]
MiroMind-M1 は Qwen-2.5 ベースのベンチマーク上に構築された完全なオープンソース RLM のセットである。
我々のモデルは2つの段階で訓練されている: SFT on a carefully curated corpus of 719K math-reasoning problem with confirmed CoT trajectories, then RLVR on 62K challenge and verible problem。
論文 参考訳(メタデータ) (2025-07-19T16:21:23Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - On Path to Multimodal Generalist: General-Level and General-Bench [153.9720740167528]
本稿では,MLLMの性能と汎用性を5段階に定義した評価フレームワークであるGeneral-Levelを紹介する。
フレームワークの中核はSynergyの概念であり、モデルが理解と生成をまたいだ一貫性のある機能を維持するかどうかを測定する。
既存の100以上のMLLMを含む評価結果は、ジェネラリストの能力ランキングを明らかにする。
論文 参考訳(メタデータ) (2025-05-07T17:59:32Z) - Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models [22.796496516709514]
本稿では,Multimodal Large Language Models(MLLM)における強化学習(RL)に基づく推論の最近の進歩を体系的にレビューする。
本稿では,2つの主要なRLパラダイム,値モデルフリーおよび値モデルベース手法に注目し,推論軌道の最適化とマルチモーダル情報の整合化により,RLが推論能力を高める方法を分析する。
本稿では,ベンチマークデータセット,評価プロトコル,現在の制限について概観し,スパース報酬,非効率なクロスモーダル推論,実世界の展開制約といった課題に対処するための今後の研究方向を提案する。
論文 参考訳(メタデータ) (2025-04-30T03:14:28Z) - OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning [29.053899071144976]
マルチモーダルタスク間の深い理解と推論機能を備えた高度なMLLMであるOThink-MR1を提案する。
具体的には,動的Kulback-Leibler戦略を用いたグループ相対政策最適化を提案する。
GRPO-DはSFTよりも5.72%以上、GRPOより13.59%以上向上した。
論文 参考訳(メタデータ) (2025-03-20T12:22:18Z) - Large Language Models Post-training: Surveying Techniques from Alignment to Reasoning [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - An Overview of Large Language Models for Statisticians [109.38601458831545]
大規模言語モデル(LLM)は人工知能(AI)の変換ツールとして登場した。
本稿では, 統計学者がLLMの開発に重要な貢献できる可能性について考察する。
我々は不確実性定量化、解釈可能性、公正性、プライバシー、透かし、モデル適応といった問題に焦点を当てる。
論文 参考訳(メタデータ) (2025-02-25T03:40:36Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Chain-of-Thought Hub: A Continuous Effort to Measure Large Language
Models' Reasoning Performance [35.38549845444575]
Chain-of-Thought Hubは、大規模な言語モデルの多段階推論機能に関するオープンソースの評価スイートである。
提案するChain-of-Thought Hubは,大規模言語モデルの多段階推論機能に関するオープンソース評価スイートである。
論文 参考訳(メタデータ) (2023-05-26T23:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。