論文の概要: Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2505.18536v1
- Date: Sat, 24 May 2025 06:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.487422
- Title: Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルの能力を考慮した強化微調整パワー
- Authors: Haoyuan Sun, Jiaqi Wu, Bo Xia, Yifu Luo, Yifei Zhao, Kai Qin, Xufei Lv, Tiantian Zhang, Yongzhe Chang, Xueqian Wang,
- Abstract要約: 強化微調整(RFT)は、大規模言語モデル(LLM)の推論能力を高める上で大きな可能性を示している。
本稿では,RFTがマルチモーダル大言語モデル (MLLM) の推論能力に影響を与えることを論じる。
- 参考スコア(独自算出の注目度): 10.257917779370233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standing in 2025, at a critical juncture in the pursuit of Artificial General Intelligence (AGI), reinforcement fine-tuning (RFT) has demonstrated significant potential in enhancing the reasoning capability of large language models (LLMs) and has led to the development of cutting-edge AI models such as OpenAI-o1 and DeepSeek-R1. Moreover, the efficient application of RFT to enhance the reasoning capability of multimodal large language models (MLLMs) has attracted widespread attention from the community. In this position paper, we argue that reinforcement fine-tuning powers the reasoning capability of multimodal large language models. To begin with, we provide a detailed introduction to the fundamental background knowledge that researchers interested in this field should be familiar with. Furthermore, we meticulously summarize the improvements of RFT in powering reasoning capability of MLLMs into five key points: diverse modalities, diverse tasks and domains, better training algorithms, abundant benchmarks and thriving engineering frameworks. Finally, we propose five promising directions for future research that the community might consider. We hope that this position paper will provide valuable insights to the community at this pivotal stage in the advancement toward AGI. Summary of works done on RFT for MLLMs is available at https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs.
- Abstract(参考訳): 2025年、人工知能(AGI)の追求において、強化微調整(RFT)は大規模言語モデル(LLM)の推論能力を高める重要な可能性を示し、OpenAI-o1やDeepSeek-R1のような最先端のAIモデルの開発につながった。
さらに,マルチモーダル大規模言語モデル(MLLM)の推論能力を高めるためのRFTの効率的な利用は,コミュニティから広く注目を集めている。
本稿では,マルチモーダルな大規模言語モデルの推論能力に,強化微調整が有効であると主張する。
まず、この分野に関心のある研究者が親しむべき基本的な背景知識について詳しく紹介する。
さらに,MLLMの推論能力向上におけるRFTの改良点を,多種多様性,多様なタスクとドメイン,より良いトレーニングアルゴリズム,豊富なベンチマーク,繁栄するエンジニアリングフレームワークの5つの重要なポイントに細心の注意を払って要約した。
最後に,コミュニティが考慮すべき5つの今後の研究の方向性を提案する。
我々は,このポジションペーパーが,AGIに向けた進展のこの重要な段階において,コミュニティに貴重な洞察を提供することを期待している。
RFT for MLLMsに関する作業の概要はhttps://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMsで公開されている。
関連論文リスト
- General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models [22.796496516709514]
本稿では,Multimodal Large Language Models(MLLM)における強化学習(RL)に基づく推論の最近の進歩を体系的にレビューする。
本稿では,2つの主要なRLパラダイム,値モデルフリーおよび値モデルベース手法に注目し,推論軌道の最適化とマルチモーダル情報の整合化により,RLが推論能力を高める方法を分析する。
本稿では,ベンチマークデータセット,評価プロトコル,現在の制限について概観し,スパース報酬,非効率なクロスモーダル推論,実世界の展開制約といった課題に対処するための今後の研究方向を提案する。
論文 参考訳(メタデータ) (2025-04-30T03:14:28Z) - Large Language Models Post-training: Surveying Techniques from Alignment to Reasoning [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。