論文の概要: ClaHF: A Human Feedback-inspired Reinforcement Learning Framework for Improving Classification Tasks
- arxiv url: http://arxiv.org/abs/2605.17458v1
- Date: Sun, 17 May 2026 14:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.102112
- Title: ClaHF: A Human Feedback-inspired Reinforcement Learning Framework for Improving Classification Tasks
- Title(参考訳): ClaHF: ヒューマンフィードバックにインスパイアされた強化学習フレームワーク
- Authors: Tianxiang Xu, Xiaoyan Zhu, Xin Lai, Jiayin Wang,
- Abstract要約: テキスト分類のための人間によるフィードバックに基づく強化学習フレームワークであるClaHFを提案する。
ClaHFは、追加の人間のアノテーションを必要とせずに、好みのモデリングとRL最適化を分類パイプラインに統合する。
ClaHFは多様な言語モデル間での分類性能と信頼性校正の両方を一貫して改善することを示した。
- 参考スコア(独自算出の注目度): 11.138973570127206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text classification models are typically trained via supervised fine-tuning (SFT). However, SFT essentially performs behavior cloning from instance-wise labels and thus fails to adequately capture relative preference relations among samples, which limits the model's ability to shape decision boundaries and calibrate predictive confidence. In this paper, we propose ClaHF, a human feedback-inspired reinforcement learning (RL) framework for text classification that integrates preference modeling and RL optimization into the classification pipeline without requiring additional human annotations. Unlike prior work that relies solely on instance-wise supervision, ClaHF constructs multiple candidate predictions together with their relative ranking relations, and jointly models the Top-1 preference and the ordering among non-optimal candidates within a reward model (RM). This design converts conventional label supervision into preference signals that are directly applicable to policy optimization. We conduct systematic evaluations on eight classification tasks spanning three categories of scenarios. Results demonstrate that ClaHF consistently improves both classification performance and confidence calibration across diverse language models (LMs). The data and code are available at https://anonymous.4open.science/r/ClaHF.
- Abstract(参考訳): テキスト分類モデルは典型的には教師付き微調整(SFT)によって訓練される。
しかし、SFTは基本的に、インスタンスワイズラベルから振舞いクローンを実行するため、サンプル間の相対的嗜好関係を適切に捉えることができず、モデルが決定境界を形作り、予測信頼性を校正する能力を制限する。
本稿では、人間のアノテーションを必要とせずに、好みのモデリングとRL最適化を分類パイプラインに統合するテキスト分類のための、人間のフィードバックにインスパイアされた強化学習(RL)フレームワークであるClaHFを提案する。
ClaHFは、インスタンス管理にのみ依存する以前の作業とは異なり、複数の候補予測と相対的なランク関係を構築し、報酬モデル(RM)内でのTop-1の選好と非最適候補間の順序を共同でモデル化する。
この設計は、従来のラベル管理をポリシー最適化に直接適用可能な優先信号に変換する。
シナリオの3つのカテゴリにまたがる8つの分類タスクについて,系統的な評価を行う。
ClaHFは多言語モデル(LM)の分類性能と信頼性校正の両方を一貫して改善することを示した。
データとコードはhttps://anonymous.4open.science/r/ClaHFで公開されている。
関連論文リスト
- Context-Adaptive Requirements Defect Prediction through Human-LLM Collaboration [1.4499356176178066]
本稿では,欠陥予測を静的な分類タスクではなく適応プロセスとして扱うHuman-LLM Collaboration(HLC)アプローチを提案する。
メルセデス・ベンツの要求条件である1,266のQuREベンチマークの弱い単語の匂いを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2026-01-05T10:00:14Z) - Direct Preference Optimization with Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences [14.686788596611246]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値の整合の中心となっている。
最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。
生成モデルアライメントにおける多様なユーザに対する公平性とパーソナライズのための理論的かつアルゴリズム的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-17T15:00:40Z) - Enforcing Consistency and Fairness in Multi-level Hierarchical Classification with a Mask-based Output Layer [25.819440955594736]
分類を強制し、一貫性、公正性、正確な一致を含む目的を最適化するために設計された公正でモデルに依存しないレイヤを導入します。
評価の結果,提案した層は予測の公平性を向上するだけでなく,分類を強制し,一貫した予測と優れた性能をもたらすことが示された。
論文 参考訳(メタデータ) (2025-03-19T06:30:04Z) - Joint Training for Selective Prediction [5.662924503089369]
選択予測法は、分類器の出力をいつ採用するか、人間に延期するかを決定する。
以前の方法の1つは、エンジニアリングされた特徴に基づいて遅延モデルを学習することである。
分類器モジュールが使用する学習表現と学習遅延ポリシーを同時に最適化する新しい共同学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T15:28:26Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Direct Preference Optimization With Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences [14.686788596611246]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値の整合の中心となっている。
最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。
生成モデルアライメントにおける多様なユーザに対する公平性とパーソナライズのための理論的かつアルゴリズム的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T21:25:20Z) - How to Estimate Model Transferability of Pre-Trained Speech Models? [84.11085139766108]
事前学習音声モデルの伝達可能性推定のためのスコアベースアセスメントフレームワーク
ベイズ確率推定と最適輸送という2つの表現理論を利用して、PSM候補のランクスコアを生成する。
本フレームワークは,候補モデルやレイヤを実際に微調整することなく,転送可能性スコアを効率的に計算する。
論文 参考訳(メタデータ) (2023-06-01T04:52:26Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。