論文の概要: GenCLS++: Pushing the Boundaries of Generative Classification in LLMs Through Comprehensive SFT and RL Studies Across Diverse Datasets
- arxiv url: http://arxiv.org/abs/2504.19898v1
- Date: Mon, 28 Apr 2025 15:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.492591
- Title: GenCLS++: Pushing the Boundaries of Generative Classification in LLMs Through Comprehensive SFT and RL Studies Across Diverse Datasets
- Title(参考訳): GenCLS++: 汎用SFTおよびRLによるLLMにおける生成的分類境界のプッシュ
- Authors: Mingqian He, Fei Zhao, Chonggang Lu, Ziyan Liu, Yue Wang, Haofu Qian,
- Abstract要約: 生成的分類は、モデルにラベルを直接出力するように促すことによって、この問題に対処する。
我々はこのギャップを、SFT、RL、推論時プロンプトを統合するフレームワークであるGen++で埋める。
7つのデータセットで、Gen++は、単純SFTベースラインと比較して平均精度が3.46%向上した。
- 参考スコア(独自算出の注目度): 7.547445287035568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a fundamental task in machine learning, text classification plays a crucial role in many areas. With the rapid scaling of Large Language Models (LLMs), particularly through reinforcement learning (RL), there is a growing need for more capable discriminators. Consequently, advances in classification are becoming increasingly vital for enhancing the overall capabilities of LLMs. Traditional discriminative methods map text to labels but overlook LLMs' intrinsic generative strengths. Generative classification addresses this by prompting the model to directly output labels. However, existing studies still rely on simple SFT alone, seldom probing the interplay between training and inference prompts, and no work has systematically leveraged RL for generative text classifiers and unified SFT, RL, and inference-time prompting in one framework. We bridge this gap with GenCLS++, a framework that jointly optimizes SFT and RL while systematically exploring five high-level strategy dimensions-in-context learning variants, category definitions, explicit uncertainty labels, semantically irrelevant numeric labels, and perplexity-based decoding-during both training and inference. After an SFT "policy warm-up," we apply RL with a simple rule-based reward, yielding sizable extra gains. Across seven datasets, GenCLS++ achieves an average accuracy improvement of 3.46% relative to the naive SFT baseline; on public datasets, this improvement rises to 4.00%. Notably, unlike reasoning-intensive tasks that benefit from explicit thinking processes, we find that classification tasks perform better without such reasoning steps. These insights into the role of explicit reasoning provide valuable guidance for future LLM applications.
- Abstract(参考訳): 機械学習の基本的な課題として、テキスト分類は多くの分野で重要な役割を担っている。
大規模言語モデル(LLM)の急速なスケールアップ、特に強化学習(RL)によって、より有能な識別器の必要性が高まっている。
その結果, LLMの全体的な能力向上には, 分類の進歩がますます不可欠になっている。
従来の差別的手法は、テキストをラベルにマッピングするが、LLMの本質的な生成力を見落としている。
生成的分類は、モデルにラベルを直接出力するように促すことによって、この問題に対処する。
しかし、既存の研究は単純なSFTのみに依存しており、トレーニングと推論のプロンプトの相互作用をほとんど示さず、生成テキスト分類器や統一SFT、RL、推論時プロンプトを体系的に活用する研究は行われていない。
我々はこのギャップを,SFTとRLを協調的に最適化するフレームワークであるGenCLS++で埋めるとともに,テキスト内学習の亜種,カテゴリ定義,明示的な不確実性ラベル,意味的に無関係な数値ラベル,およびトレーニングと推論の両方において複雑度に基づく復号処理を行う5つの高レベル戦略次元を体系的に探求する。
SFT の "政治ウォームアップ" の後、簡単なルールベースの報酬で RL を適用する。
7つのデータセット全体で、GenCLS++は、単純SFTベースラインと比較して平均精度が3.46%向上している。
特に、明示的な思考プロセスの恩恵を受ける推論集約的なタスクとは異なり、分類タスクはそのような推論ステップを使わずにより良く機能する。
明示的な推論の役割に関するこれらの洞察は、将来のLLMアプリケーションに貴重なガイダンスを提供する。
関連論文リスト
- R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Guiding LLMs to Generate High-Fidelity and High-Quality Counterfactual Explanations for Text Classification [2.899704155417792]
大規模言語モデルによる対実生成を支援するための単純な分類器誘導方式を2つ導入する。
その単純さにもかかわらず、我々の手法は最先端の対物生成方法より優れている。
論文 参考訳(メタデータ) (2025-03-06T14:15:07Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - LLMEmbed: Rethinking Lightweight LLM's Genuine Function in Text Classification [13.319594321038926]
本稿では,この古典的だが挑戦的な課題に対処するために,LLMEmbedという,シンプルで効果的なトランスファー学習戦略を提案する。
その結果,LLMEmbedはトレーニングのオーバーヘッドを低く抑えながら,高い性能を発揮することがわかった。
論文 参考訳(メタデータ) (2024-06-06T03:46:59Z) - RLSF: Reinforcement Learning via Symbolic Feedback [11.407319705797242]
証明フィードバック(RLSF)による強化学習(Reinforcement Learning)と呼ばれる新しい微調整パラダイムを提案する。
RLSFでは、微調整されたLLMはRLエージェントと見なされ、環境は推論やドメイン知識ツールへのアクセスが可能である。
RLSFに基づくLLMの微調整は、5つの異なるアプリケーションにおいて従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T18:49:59Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Pushing The Limit of LLM Capacity for Text Classification [27.684335455517417]
本稿では,特殊なテキスト分類 LLM を生成するための適応型ブースティングフレームワーク RGPT を提案する。
RGPTは,4つのベンチマークで平均1.36%,8個のSOTA PLMと7個のSOTA LLMより有意に優れていた。
論文 参考訳(メタデータ) (2024-02-12T08:14:03Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。