論文の概要: Checklists Are Better Than Reward Models For Aligning Language Models
- arxiv url: http://arxiv.org/abs/2507.18624v1
- Date: Thu, 24 Jul 2025 17:58:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:44.233516
- Title: Checklists Are Better Than Reward Models For Aligning Language Models
- Title(参考訳): チェックリストは、言語モデルを調整するためのリワードモデルより優れている
- Authors: Vijay Viswanathan, Yanchao Sun, Shuang Ma, Xiang Kong, Meng Cao, Graham Neubig, Tongshuang Wu,
- Abstract要約: チェックリストフィードバックからの強化学習(RLCF)を提案する。
指示からチェックリストを抽出し,各項目の応答がどの程度満足するかを評価する。
これらのスコアをAI判断器と特殊検証器プログラムの両方を用いて組み合わせ、RLの報酬を計算する。
- 参考スコア(独自算出の注目度): 99.1896531064102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models must be adapted to understand and follow user instructions. Reinforcement learning is widely used to facilitate this -- typically using fixed criteria such as "helpfulness" and "harmfulness". In our work, we instead propose using flexible, instruction-specific criteria as a means of broadening the impact that reinforcement learning can have in eliciting instruction following. We propose "Reinforcement Learning from Checklist Feedback" (RLCF). From instructions, we extract checklists and evaluate how well responses satisfy each item - using both AI judges and specialized verifier programs - then combine these scores to compute rewards for RL. We compare RLCF with other alignment methods applied to a strong instruction following model (Qwen2.5-7B-Instruct) on five widely-studied benchmarks -- RLCF is the only method to improve performance on every benchmark, including a 4-point boost in hard satisfaction rate on FollowBench, a 6-point increase on InFoBench, and a 3-point rise in win rate on Arena-Hard. These results establish checklist feedback as a key tool for improving language models' support of queries that express a multitude of needs.
- Abstract(参考訳): 言語モデルは、ユーザーの指示を理解し、従わなければならない。
強化学習(reinforcement learning)は、これを促進するために広く使用され、典型的には、"helpfulness"や"harmfulness"といった固定された基準を使用する。
そこで本研究では,強化学習が後続指導にもたらす影響を拡大する手段として,フレキシブルな指示特化基準を用いることを提案する。
チェックリストフィードバックからの強化学習(RLCF)を提案する。
インストラクションから、チェックリストを抽出し、AI判断器と特殊検証プログラムの両方を用いて、各項目の応答がどの程度満足するかを評価し、これらのスコアを組み合わせてRLの報酬を計算する。
RLCFはFollowBenchの4ポイントのハード満足率向上,InFoBenchの6ポイントの増加,Arena-Hardの3ポイントの勝利率向上など,すべてのベンチマークのパフォーマンス向上のための唯一の方法である。
これらの結果から,多数のニーズを表現したクエリを言語モデルでサポートするための重要なツールとして,チェックリストフィードバックが確立される。
関連論文リスト
- VerIF: Verification Engineering for Reinforcement Learning in Instruction Following [55.60192044049083]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の強化の鍵となる技術となっている。
ルールベースのコード検証とLLMベースの大規模な推論モデルによる検証を組み合わせた検証手法であるVerIFを提案する。
我々はVerIFを用いたRLトレーニングを2つのモデルに適用し、いくつかの代表的な命令追従ベンチマークで大幅に改善した。
論文 参考訳(メタデータ) (2025-06-11T17:10:36Z) - Towards Better Instruction Following Retrieval Models [30.99867106106421]
InF-IRは,Instruction-Following IRにおける検索モデルの強化に適した,大規模で高品質なトレーニングコーパスである。
InF-IRは従来のトレーニングペアを38,000以上の表現型命令、クエリ、パス>三つ子に正のサンプルとして拡張する。
命令とクエリの両方を毒殺した後、高度推論モデル(o3-mini)によって厳密に検証し、命令の不正確性を保ちながら意味的妥当性を保証する。
論文 参考訳(メタデータ) (2025-05-27T17:14:37Z) - REARANK: Reasoning Re-ranking Agent via Reinforcement Learning [69.8397511935806]
本稿では,大規模言語モデル(LLM)に基づくリストワイズ推論エージェントREARANKを提案する。
REARANKは、リランク前の明確な理由と、パフォーマンスと解釈性の両方を大幅に改善した。
論文 参考訳(メタデータ) (2025-05-26T14:31:48Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - The Wisdom of Hindsight Makes Language Models Better Instruction
Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文 参考訳(メタデータ) (2023-02-10T12:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。