論文の概要: CLS-RL: Image Classification with Rule-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.16188v1
- Date: Thu, 20 Mar 2025 14:37:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:31:51.283848
- Title: CLS-RL: Image Classification with Rule-Based Reinforcement Learning
- Title(参考訳): CLS-RL:ルールベース強化学習による画像分類
- Authors: Ming Li, Shitian Zhao, Jike Zhong, Yuxiang Lai, Kaipeng Zhang,
- Abstract要約: No-Thinking-RL 法は CLS-RL よりもドメイン内性能と一般化能力に優れる。
CLS-RLはルールベース強化学習の最近の成功にインスパイアされている。
No-Thinking-RL法は、等式精度の報酬を設定することにより、トレーニング中の思考プロセスを最小化する。
- 参考スコア(独自算出の注目度): 8.665713419757061
- License:
- Abstract: Classification is a core task in machine learning. Recent research has shown that although Multimodal Large Language Models (MLLMs) are initially poor at image classification, fine-tuning them with an adequate amount of data can significantly enhance their performance, making them comparable to SOTA classification models. However, acquiring large-scale labeled data is expensive. In this paper, we explore few-shot MLLM classification fine-tuning. We found that SFT can cause severe overfitting issues and may even degrade performance over the zero-shot approach. To address this challenge, inspired by the recent successes in rule-based reinforcement learning, we propose CLS-RL, which uses verifiable signals as reward to fine-tune MLLMs. We discovered that CLS-RL outperforms SFT in most datasets and has a much higher average accuracy on both base-to-new and few-shot learning setting. Moreover, we observed a free-lunch phenomenon for CLS-RL; when models are fine-tuned on a particular dataset, their performance on other distinct datasets may also improve over zero-shot models, even if those datasets differ in distribution and class names. This suggests that RL-based methods effectively teach models the fundamentals of classification. Lastly, inspired by recent works in inference time thinking, we re-examine the `thinking process' during fine-tuning, a critical aspect of RL-based methods, in the context of visual classification. We question whether such tasks require extensive thinking process during fine-tuning, proposing that this may actually detract from performance. Based on this premise, we introduce the No-Thinking-CLS-RL method, which minimizes thinking processes during training by setting an equality accuracy reward. Our findings indicate that, with much less fine-tuning time, No-Thinking-CLS-RL method achieves superior in-domain performance and generalization capabilities than CLS-RL.
- Abstract(参考訳): 分類は機械学習における中核的なタスクである。
近年,Multimodal Large Language Models (MLLM) は画像分類に乏しいが,十分な量のデータを微調整することで,その性能を大幅に向上させ,SOTA分類モデルに匹敵するものであることが示されている。
しかし、大規模ラベル付きデータの取得は高価である。
本稿では,MLLM分類の微調整について述べる。
その結果、SFTは過度なオーバーフィッティング問題を引き起こし、ゼロショットアプローチよりも性能を低下させる可能性があることがわかった。
近年のルールベース強化学習の成功に触発されたこの課題に対処するために,検証可能な信号をMLLMの微調整に対する報酬として利用するCRS-RLを提案する。
CLS-RLは、ほとんどのデータセットにおいてSFTよりも優れており、ベース・ツー・ニュー・ナップ・ラーニング・セッティングと少数ショット・ラーニング・セッティングにおいて平均精度がはるかに高いことが判明した。
さらに,CLS-RLのフリーランチ現象を観測し,特定のデータセット上でモデルが微調整された場合,そのデータセットが分布やクラス名が異なる場合でも,他の異なるデータセット上でのパフォーマンスがゼロショットモデルよりも向上することを示した。
このことは、RLに基づく手法がモデルに分類の基礎を効果的に教えていることを示唆している。
最後に、推論時間思考の最近の研究に触発されて、視覚的分類の文脈において、RL法の重要な側面である微調整中の「思考過程」を再検討する。
このようなタスクは、微調整中に広範囲な思考プロセスを必要とするかどうかを疑問視し、実際に性能を損なう可能性があることを示唆する。
この前提に基づき、同値精度の報酬を設定することにより、トレーニング中の思考プロセスを最小化するNo-Thinking-CLS-RL法を提案する。
以上の結果から,No-Thinking-CLS-RL法はCLS-RL法よりもドメイン内性能と一般化能力に優れることがわかった。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - LIMR: Less is More for RL Scaling [25.477841726836836]
学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。
提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。
再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文 参考訳(メタデータ) (2025-02-17T15:13:29Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - SLCA: Slow Learner with Classifier Alignment for Continual Learning on a
Pre-trained Model [73.80068155830708]
予備学習モデル(CLPM)を用いた連続学習のための広範囲な解析法を提案する。
Slow Learner with Alignment (SLCA) というシンプルなアプローチを提案する。
さまざまなシナリオにおいて、私たちの提案はCLPMの大幅な改善を提供します。
論文 参考訳(メタデータ) (2023-03-09T08:57:01Z) - Efficient Gaussian Process Model on Class-Imbalanced Datasets for
Generalized Zero-Shot Learning [37.00463358780726]
本稿では,潜在機能埋め込みを学習するニューラルネットワークモデルと,未確認クラスの潜在機能プロトタイプを予測するガウスプロセス(GP)回帰モデルを提案する。
我々のモデルは、クラス不均衡なトレーニングデータの影響を緩和する単純なトレーニング戦略により、効率的に訓練される。
論文 参考訳(メタデータ) (2022-10-11T04:57:20Z) - Self-Supervised Class Incremental Learning [51.62542103481908]
既存のクラスインクリメンタルラーニング(CIL)手法は、データラベルに敏感な教師付き分類フレームワークに基づいている。
新しいクラスデータに基づいて更新する場合、それらは破滅的な忘れがちである。
本稿では,SSCILにおける自己指導型表現学習のパフォーマンスを初めて考察する。
論文 参考訳(メタデータ) (2021-11-18T06:58:19Z) - CRL: Class Representative Learning for Image Classification [5.11566193457943]
本稿では,ZSLの影響を受けやすいクラス代表学習モデル(CRL)を提案する。
CRLモデルでは、まず、畳み込みニューラルネットワーク(CNN)から抽出された特徴を集約することにより、データセットのクラスを表現するクラス代表を構築する。
提案したCRLモデルは,ZSLおよびモバイル深層学習における最先端の研究と比較して,優れた性能を示した。
論文 参考訳(メタデータ) (2020-02-16T17:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。