Fugu-MT 論文翻訳(概要): On the Suitability of Reinforcement Fine-Tuning to Visual Tasks

論文の概要: On the Suitability of Reinforcement Fine-Tuning to Visual Tasks

arxiv url: http://arxiv.org/abs/2504.05682v1
Date: Tue, 08 Apr 2025 04:45:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-17 00:15:00.854239
Title: On the Suitability of Reinforcement Fine-Tuning to Visual Tasks
Title（参考訳）: 視覚課題に対する強化細調整の適合性について
Authors: Xiaxu Chen, Wei Li, Chunxu Liu, Chi Xie, Xiaoyan Hu, Chengqian Ma, Feng Zhu, Rui Zhao,
Abstract要約: RFTをMLLMに適用し始めており、視覚的理解の能力を高めることを期待している。本研究では,視覚的タスクに対するRFTの適性や限界を理解するために,実験的な分析と観察を通じて試みる。
参考スコア（独自算出の注目度）: 15.971601297360227
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Fine-Tuning (RFT) is proved to be greatly valuable for enhancing the reasoning ability of LLMs. Researchers have been starting to apply RFT to MLLMs, hoping it will also enhance the capabilities of visual understanding. However, these works are at a very early stage and have not examined how suitable RFT actually is for visual tasks. In this work, we endeavor to understand the suitabilities and limitations of RFT for visual tasks, through experimental analysis and observations. We start by quantitative comparisons on various tasks, which shows RFT is generally better than SFT on visual tasks. %especially when the number of training samples are limited. To check whether such advantages are brought up by the reasoning process, we design a new reward that encourages the model to ``think'' more, whose results show more thinking can be beneficial for complicated tasks but harmful for simple tasks. We hope this study can provide more insight for the rapid advancements on this topic.
Abstract（参考訳）: 補強細管(RFT)はLLMの推力を高めるために非常に有用であることが証明された。 RFTをMLLMに適用し始めており、視覚的理解の能力を高めることを期待している。しかしながら、これらの研究はごく初期段階にあり、実際に視覚的なタスクにどのくらい適しているかは検討されていない。本研究では,視覚的タスクに対するRFTの適性や限界を理解するために,実験的な分析と観察を通じて試みる。まず、様々なタスクの定量的比較から始め、RFTが視覚タスクのSFTよりも一般的に優れていることを示す。 %であった。このような利点が推論プロセスによってもたらされるかどうかを確認するため、我々はモデルに「考え」をさらに奨励する新たな報酬を設計します。この研究によって、このトピックの急速な進歩について、より深い洞察が得られればと思っています。

関連論文リスト

ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-04-16T21:45:32Z)
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。 Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文参考訳（メタデータ） (2025-03-31T17:55:23Z)
Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning [19.28434717501445]
視覚的推論能力は、複雑なマルチモーダルデータを理解する上で重要な役割を果たす。既存の手法は、チェーン・オブ・ソートによる微調整によるVLM推論を改善する。我々は新しい強化微調整フレームワークReason-RFTを提案する。
論文参考訳（メタデータ） (2025-03-26T17:38:06Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning [8.665713419757061]
マルチモーダル大言語モデル(MLLM)のためのルールベース強化学習微調整(RFT)における思考過程について検討する。まず,MLLM の思考を促進するために,検証可能な報酬を用いて分類のための CLS-RL を提案する。実験の結果、CLS-RLはSFTを著しく上回り、"フリーランチ"の一般化効果が得られる(あるデータセットでトレーニングした後、目に見えないデータセットのパフォーマンスを改善する)。この明示的思考がRFTにとって常に必要であるかどうかを問う。明示的思考はRFTにとって不可欠である、という規則に従えば、単純な等式精度の報酬による思考の最小化を図りながら、No-Thinking-RLを導入する。
論文参考訳（メタデータ） (2025-03-20T14:37:45Z)
Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。 GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文参考訳（メタデータ） (2025-03-17T04:07:47Z)
Visual-RFT: Visual Reinforcement Fine-Tuning [75.20572976629646]
OpenAI o1のような大規模推論モデルにおける強化ファインチューニング(RFT)は、回答に対するフィードバックから学ぶ。 Visual-RFTはさらに、視覚タスクにおけるRTTの適用領域を拡張している。
論文参考訳（メタデータ） (2025-03-03T18:16:32Z)
Interpreting and Improving Large Language Models in Arithmetic Calculation [72.19753146621429]
大規模言語モデル(LLM)は、多くのアプリケーションにまたがる顕著な可能性を示している。本研究では,LLMが計算を行う特定のメカニズムを明らかにする。 LLMの計算性能を高めるために、これらの必須ヘッド/MLPを選択的に微調整する潜在的な利点について検討する。
論文参考訳（メタデータ） (2024-09-03T07:01:46Z)
ReFT: Reasoning with Reinforced Fine-Tuning [9.80361828538909]
本稿では,Reinforced Fine-Tuning (ReFT) というシンプルな手法を提案する。 ReFTはまずSFTを用いてモデルをウォームアップし,さらにオンライン強化学習,特に本論文のPPOアルゴリズムを用いる。 GSM8K、MathQA、SVAMPデータセットの実験では、ReFTがSFTを大幅に上回っている。
論文参考訳（メタデータ） (2024-01-17T04:43:21Z)
In Defense of the Learning Without Forgetting for Task Incremental Learning [91.3755431537592]
破滅的な忘れは、継続的な学習システムへの道のりにおける大きな課題の1つだ。本稿では, タスクインクリメンタルシナリオにおいて, 正しいアーキテクチャと標準的な拡張セットを併用して, LwF が得られた結果が最新のアルゴリズムを上回り, タスクインクリメンタルシナリオが実現されたことを示す。
論文参考訳（メタデータ） (2021-07-26T16:23:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。