Fugu-MT 論文翻訳(概要): CLS-RL: Image Classification with Rule-Based Reinforcement Learning

論文の概要: CLS-RL: Image Classification with Rule-Based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2503.16188v1
Date: Thu, 20 Mar 2025 14:37:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.438418
Title: CLS-RL: Image Classification with Rule-Based Reinforcement Learning
Title（参考訳）: CLS-RL:ルールベース強化学習による画像分類
Authors: Ming Li, Shitian Zhao, Jike Zhong, Yuxiang Lai, Kaipeng Zhang,
Abstract要約: No-Thinking-RL 法は CLS-RL よりもドメイン内性能と一般化能力に優れる。 CLS-RLはルールベース強化学習の最近の成功にインスパイアされている。 No-Thinking-RL法は、等式精度の報酬を設定することにより、トレーニング中の思考プロセスを最小化する。
参考スコア（独自算出の注目度）: 8.665713419757061
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Classification is a core task in machine learning. Recent research has shown that although Multimodal Large Language Models (MLLMs) are initially poor at image classification, fine-tuning them with an adequate amount of data can significantly enhance their performance, making them comparable to SOTA classification models. However, acquiring large-scale labeled data is expensive. In this paper, we explore few-shot MLLM classification fine-tuning. We found that SFT can cause severe overfitting issues and may even degrade performance over the zero-shot approach. To address this challenge, inspired by the recent successes in rule-based reinforcement learning, we propose CLS-RL, which uses verifiable signals as reward to fine-tune MLLMs. We discovered that CLS-RL outperforms SFT in most datasets and has a much higher average accuracy on both base-to-new and few-shot learning setting. Moreover, we observed a free-lunch phenomenon for CLS-RL; when models are fine-tuned on a particular dataset, their performance on other distinct datasets may also improve over zero-shot models, even if those datasets differ in distribution and class names. This suggests that RL-based methods effectively teach models the fundamentals of classification. Lastly, inspired by recent works in inference time thinking, we re-examine the `thinking process' during fine-tuning, a critical aspect of RL-based methods, in the context of visual classification. We question whether such tasks require extensive thinking process during fine-tuning, proposing that this may actually detract from performance. Based on this premise, we introduce the No-Thinking-CLS-RL method, which minimizes thinking processes during training by setting an equality accuracy reward. Our findings indicate that, with much less fine-tuning time, No-Thinking-CLS-RL method achieves superior in-domain performance and generalization capabilities than CLS-RL.
Abstract（参考訳）: 分類は機械学習における中核的なタスクである。近年,Multimodal Large Language Models (MLLM) は画像分類に乏しいが,十分な量のデータを微調整することで,その性能を大幅に向上させ,SOTA分類モデルに匹敵するものであることが示されている。しかし、大規模ラベル付きデータの取得は高価である。本稿では,MLLM分類の微調整について述べる。その結果、SFTは過度なオーバーフィッティング問題を引き起こし、ゼロショットアプローチよりも性能を低下させる可能性があることがわかった。近年のルールベース強化学習の成功に触発されたこの課題に対処するために,検証可能な信号をMLLMの微調整に対する報酬として利用するCRS-RLを提案する。 CLS-RLは、ほとんどのデータセットにおいてSFTよりも優れており、ベース・ツー・ニュー・ナップ・ラーニング・セッティングと少数ショット・ラーニング・セッティングにおいて平均精度がはるかに高いことが判明した。さらに,CLS-RLのフリーランチ現象を観測し,特定のデータセット上でモデルが微調整された場合,そのデータセットが分布やクラス名が異なる場合でも,他の異なるデータセット上でのパフォーマンスがゼロショットモデルよりも向上することを示した。このことは、RLに基づく手法がモデルに分類の基礎を効果的に教えていることを示唆している。最後に、推論時間思考の最近の研究に触発されて、視覚的分類の文脈において、RL法の重要な側面である微調整中の「思考過程」を再検討する。このようなタスクは、微調整中に広範囲な思考プロセスを必要とするかどうかを疑問視し、実際に性能を損なう可能性があることを示唆する。この前提に基づき、同値精度の報酬を設定することにより、トレーニング中の思考プロセスを最小化するNo-Thinking-CLS-RL法を提案する。以上の結果から,No-Thinking-CLS-RL法はCLS-RL法よりもドメイン内性能と一般化能力に優れることがわかった。

関連論文リスト

RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。 RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文参考訳（メタデータ） (2025-06-23T02:56:36Z)
R3-RAG: Learning Step-by-Step Reasoning and Retrieval for LLMs via Reinforcement Learning [62.742230250513025]
Retrieval-Augmented Generation (RAG)は、外部知識をLLM(Large Language Models)と統合し、事実の正しさと幻覚を高める。我々は、 $textbfR$einforcement Learning を用いて LLM に $textbfR$eason と $textbfR$etrieve を段階的に学習させる $textbfR3-RAG$ を提案する。
論文参考訳（メタデータ） (2025-05-26T12:25:37Z)
Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。 Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文参考訳（メタデータ） (2025-05-19T17:24:16Z)
Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL [19.731871225975926]
大規模推論モデル(LRM)は、最終的な答えを生成する前に、明示的でステップバイステップの推論シーケンスを生成するのに熟練している。この過度に考える問題に対処するため、適応的思考能力を備えたLEMの装備方法について検討する。推論ポリシーを段階的に最適化する多段階強化学習フレームワークであるAutoThinkを提案する。
論文参考訳（メタデータ） (2025-05-16T04:01:57Z)
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning [55.97950660659051]
GPT-o1とDeepSeek-R1は、明示的な反射によって難しい問題を解く大きな可能性を示した。本稿では、強化学習を用いて、視覚言語モデルの遅い思考能力を向上させることを目的とする。我々のモデルであるVL-Rethinkerは、MathVista、MathVerse、MathVisionの最先端スコアを80.3%、61.8%、43.9%に向上させています。
論文参考訳（メタデータ） (2025-04-10T17:41:56Z)
On the Suitability of Reinforcement Fine-Tuning to Visual Tasks [15.971601297360227]
RFTをMLLMに適用し始めており、視覚的理解の能力を高めることを期待している。本研究では,視覚的タスクに対するRFTの適性や限界を理解するために,実験的な分析と観察を通じて試みる。
論文参考訳（メタデータ） (2025-04-08T04:45:00Z)
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。 Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文参考訳（メタデータ） (2025-03-31T17:55:23Z)
Innate Reasoning is Not Enough: In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking [39.48406368755411]
大言語モデル(LLM)がRLLM(Reasoning Large Language Models)を導入 RLLMは、訓練から得られる自然的連鎖起因性(CoT)推論能力を示し、自然な疑問に繋がる:「CoTは、RLLMの推論能力を高めるために必要か?」。本稿では,Zero-shot CoT と Few-shot CoT が数理推論タスクにおける RLLM に与える影響を初めて包括的に解析する。
論文参考訳（メタデータ） (2025-03-25T12:37:22Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文参考訳（メタデータ） (2025-03-11T15:17:02Z)
LIMR: Less is More for RL Scaling [25.477841726836836]
学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文参考訳（メタデータ） (2025-02-17T15:13:29Z)
On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。 RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文参考訳（メタデータ） (2025-02-10T18:52:04Z)
SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文参考訳（メタデータ） (2025-01-22T20:00:41Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文参考訳（メタデータ） (2024-01-11T17:58:41Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)
SLCA: Slow Learner with Classifier Alignment for Continual Learning on a Pre-trained Model [73.80068155830708]
予備学習モデル(CLPM)を用いた連続学習のための広範囲な解析法を提案する。 Slow Learner with Alignment (SLCA) というシンプルなアプローチを提案する。さまざまなシナリオにおいて、私たちの提案はCLPMの大幅な改善を提供します。
論文参考訳（メタデータ） (2023-03-09T08:57:01Z)
Efficient Gaussian Process Model on Class-Imbalanced Datasets for Generalized Zero-Shot Learning [37.00463358780726]
本稿では,潜在機能埋め込みを学習するニューラルネットワークモデルと,未確認クラスの潜在機能プロトタイプを予測するガウスプロセス(GP)回帰モデルを提案する。我々のモデルは、クラス不均衡なトレーニングデータの影響を緩和する単純なトレーニング戦略により、効率的に訓練される。
論文参考訳（メタデータ） (2022-10-11T04:57:20Z)
Self-Supervised Class Incremental Learning [51.62542103481908]
既存のクラスインクリメンタルラーニング(CIL)手法は、データラベルに敏感な教師付き分類フレームワークに基づいている。新しいクラスデータに基づいて更新する場合、それらは破滅的な忘れがちである。本稿では,SSCILにおける自己指導型表現学習のパフォーマンスを初めて考察する。
論文参考訳（メタデータ） (2021-11-18T06:58:19Z)
CRL: Class Representative Learning for Image Classification [5.11566193457943]
本稿では,ZSLの影響を受けやすいクラス代表学習モデル(CRL)を提案する。 CRLモデルでは、まず、畳み込みニューラルネットワーク(CNN)から抽出された特徴を集約することにより、データセットのクラスを表現するクラス代表を構築する。提案したCRLモデルは,ZSLおよびモバイル深層学習における最先端の研究と比較して,優れた性能を示した。
論文参考訳（メタデータ） (2020-02-16T17:02:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。