論文の概要: AutoRule: Reasoning Chain-of-thought Extracted Rule-based Rewards Improve Preference Learning
- arxiv url: http://arxiv.org/abs/2506.15651v1
- Date: Wed, 18 Jun 2025 17:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.761643
- Title: AutoRule: Reasoning Chain-of-thought Extracted Rule-based Rewards Improve Preference Learning
- Title(参考訳): AutoRule: 推論学習を改善するルールベースのリワードを推論する
- Authors: Tevin Wang, Chenyan Xiong,
- Abstract要約: ルールベースの報酬は、人間のフィードバックから強化学習を改善するための有望な戦略を提供する。
本稿では、好みフィードバックからルールを抽出し、ルールベースの報酬に定式化する、完全に自動化されたAutoRuleを提案する。
- 参考スコア(独自算出の注目度): 18.24515495277194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rule-based rewards offer a promising strategy for improving reinforcement learning from human feedback (RLHF), but current approaches often rely on manual rule engineering. We present AutoRule, a fully automated method for extracting rules from preference feedback and formulating them into rule-based rewards. AutoRule extraction operates in three stages: it leverages a reasoning model to interpret user preferences, identifies candidate rules from the reasoning chain of these interpretations, and synthesizes them into a unified rule set. Leveraging the finalized rule set, we employ language-model verifiers to compute the fraction of rules satisfied by each output, using this metric as an auxiliary reward alongside the learned reward model during policy optimization. Training a Llama-3-8B model with AutoRule results in a 28.6\% relative improvement in length-controlled win rate on AlpacaEval2.0, and a 6.1\% relative gain in second-turn performance on a held-out MT-Bench subset, compared to a GRPO baseline trained with the same learned reward model but without the rule-based auxiliary reward. Our analysis confirms that the extracted rules exhibit good agreement with dataset preference. We find that AutoRule demonstrates reduced reward hacking compared to a learned reward model when run over two episodes. Finally, our case study suggests that the extracted rules capture unique qualities valued in different datasets. The extracted rules are provided in the appendix, and the code is open-sourced at https://github.com/cxcscmu/AutoRule.
- Abstract(参考訳): ルールベースの報酬は、人間からのフィードバック(RLHF)から強化学習を改善するための有望な戦略を提供するが、現在のアプローチは手動のルール工学に依存していることが多い。
本稿では、好みフィードバックからルールを抽出し、ルールベースの報酬に定式化する、完全に自動化されたAutoRuleを提案する。
AutoRule抽出は、推論モデルを利用してユーザの好みを解釈し、これらの解釈の推論チェーンから候補ルールを特定し、それらを統一されたルールセットに合成する。
最終的なルールセットを活用することで、各出力で満たされるルールの分数を計算するために言語モデル検証器を使用し、政策最適化中に学習された報酬モデルと並行して補助報酬としてこの指標を使用する。
AutoRuleでLlama-3-8Bモデルをトレーニングすると、AlpacaEval2.0で長さ制御された勝利率が28.6%向上し、保持されたMT-Benchサブセットで2ターン性能が6.16%向上した。
分析の結果,抽出されたルールはデータセットの好みとよく一致していることが確認された。
AutoRuleは、2回のエピソードで学習した報酬モデルと比較して、報酬のハッキングを減らします。
最後に, 抽出されたルールが, 異なるデータセットで価値のある特徴を捉えることを示唆する。
抽出されたルールは付録で提供され、コードはhttps://github.com/cxcscmu/AutoRuleでオープンソース化されている。
関連論文リスト
- Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - A Framework for Learning Scoring Rules in Autonomous Driving Planning Systems [2.4578723416255754]
FLoRAは、時間論理で表される解釈可能なスコアリングルールを学ぶフレームワークである。
本手法は,学習データに肯定的な例しか含まれていないにもかかわらず,運転行動の評価を効果的に学習する。
クローズドループ計画シミュレーションの評価は、学習したスコアリングルールが既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-17T02:06:57Z) - Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models [79.84205827056907]
本稿では,高品質な嗜好データを自律的に生成するアルゴリズムであるセルフステアリング最適化(SSO$)を提案する。
$SSO$は、ポリシーモデル自体からデータジェネレータを構築するために、特別な最適化目標を採用しています。
評価の結果,$SSO$は人選好アライメントと報酬最適化のベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T16:04:03Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - FAIR: Filtering of Automatically Induced Rules [29.777290150010504]
本稿では,多数の自動生成ルールからルールをフィルタリングするアルゴリズムを提案する。
本稿では,既存のルールフィルタリング手法と比較して,統計的に有意な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-02-23T18:04:54Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - RulE: Knowledge Graph Reasoning with Rule Embedding [69.31451649090661]
我々は、論理ルールを活用してKG推論を強化する、textbfRulE(ルール埋め込みのためのスタンド)と呼ばれる原則的なフレームワークを提案する。
RulEは、既存の三重項と一階規則からルールの埋め込みを学習し、統一された埋め込み空間において、textbfentities、textbfrelations、textbflogical rulesを共同で表現する。
複数のベンチマークの結果、我々のモデルは既存の埋め込みベースのアプローチやルールベースのアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-10-24T06:47:13Z) - PRBoost: Prompt-Based Rule Discovery and Boosting for Interactive
Weakly-Supervised Learning [57.66155242473784]
弱教師付き学習(WSL)は,多くのNLPタスクにおいてラベル不足に対処する上で有望な結果を示した。
提案モデルであるPRBoostは、反復的なプロンプトベースのルール発見とモデル強化によってこの目標を達成する。
4つのタスクの実験では、PRBoostは最先端のWSLベースラインを7.1%まで上回っている。
論文 参考訳(メタデータ) (2022-03-18T04:23:20Z) - Better Short than Greedy: Interpretable Models through Optimal Rule
Boosting [10.938624307941197]
ルールアンサンブルは、予測精度とモデル解釈可能性の間の有用なトレードオフを提供するように設計されている。
与えられたアンサンブルサイズに対して最大予測力の規則アンサンブルを適合させる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-21T01:03:48Z) - Towards Learning Instantiated Logical Rules from Knowledge Graphs [20.251630903853016]
本稿では,知識グラフから一階述語論理規則を抽出するために最適化された確率論的学習ルールGPFLを提案する。
GPFLは、抽出された経路を非循環的な抽象規則であるテンプレートに一般化する新しい2段階ルール生成機構を利用する。
オーバーフィッティングルールの存在、予測性能への影響、およびオーバーフィッティングルールをフィルタリングする単純なバリデーション手法の有効性を明らかにする。
論文 参考訳(メタデータ) (2020-03-13T00:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。