論文の概要: QA-LIGN: Aligning LLMs through Constitutionally Decomposed QA
- arxiv url: http://arxiv.org/abs/2506.08123v4
- Date: Fri, 26 Sep 2025 14:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 16:35:18.908576
- Title: QA-LIGN: Aligning LLMs through Constitutionally Decomposed QA
- Title(参考訳): QA-LIGN: 構造的に分解されたQAによるLCMの調整
- Authors: Jacob Dineen, Aswin RRV, Qin Liu, Zhikun Xu, Xiao Ye, Ming Shen, Zhaonan Li, Shijie Lu, Chitta Baral, Muhao Chen, Ben Zhou,
- Abstract要約: 本稿では,モノリシック報酬を解釈可能な原理固有評価に分解するQA-LIGNを紹介する。
ランマ-3.1-8B-インストラクションの適用により、QA-LIGNは攻撃成功率を最大68.7%まで下げる一方で、偽拒絶率0.67%を維持している。
- 参考スコア(独自算出の注目度): 46.65999744568314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment of large language models (LLMs) with principles like helpfulness, honesty, and harmlessness typically relies on scalar rewards that obscure which objectives drive the training signal. We introduce QA-LIGN, which decomposes monolithic rewards into interpretable principle-specific evaluations through structured natural language programs. Models learn through a draft, critique, and revise pipeline, where symbolic evaluation against the rubrics provides transparent feedback for both initial and revised responses during GRPO training. Applied to uncensored Llama-3.1-8B-Instruct, QA-LIGN reduces attack success rates by up to 68.7% while maintaining a 0.67% false refusal rate, achieving Pareto optimal safety-helpfulness performance and outperforming both DPO and GRPO with state-of-the-art reward models given equivalent training. These results demonstrate that making reward signals interpretable and modular improves alignment effectiveness, suggesting transparency enhances LLM safety.
- Abstract(参考訳): 大きな言語モデル(LLM)を補助性、正直性、無害性といった原則でアライメントすることは、通常、どの目的がトレーニングシグナルを駆動しているかを曖昧にするスカラー報酬に依存する。
本稿では,モノリシック報酬を,構造化自然言語プログラムによる解釈可能な原理固有評価に分解するQA-LIGNを紹介する。
モデルはドラフト、批評、改訂パイプラインを通じて学習し、このパイプラインでは、GRPOトレーニング中に初期および修正された応答の両方に対して、象徴的な評価が透過的なフィードバックを提供する。
無検閲のLlama-3.1-8B-インストラクションに応用すると、QA-LIGNは攻撃成功率を最大68.7%まで下げると同時に、0.67%の偽の拒絶率を維持し、パレートの最適安全性向上性能を達成し、DPOとGRPOの両方に同等の訓練を与える。
これらの結果から,報酬信号の解釈とモジュール化によりアライメント効率が向上し,透明性がLLMの安全性を高めることが示唆された。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - CAPO: Towards Enhancing LLM Reasoning through Verifiable Generative Credit Assignment [39.965170904699974]
RLVR(Reinforcement Learning with Verifiable Rewards)は、ルールベースのバイナリフィードバックを使用することで、LLM(Large Language Models)の推論能力を改善した。
現在のRLVRメソッドは、すべてのレスポンスを単一のアクションとして扱い、トークンに同じ報酬を割り当てる。
この粗い粒度のフィードバックは、正確なクレジット割り当てを妨げ、モデルがどの推論ステップが成功または失敗につながるかを特定するのが難しくなる。
論文 参考訳(メタデータ) (2025-08-04T11:06:08Z) - An Uncertainty-Driven Adaptive Self-Alignment Framework for Large Language Models [18.62332474172811]
大規模言語モデル(LLM)は、命令の追従と汎用推論において顕著な進歩を示している。
人間の意図と人間のアノテーションのない安全基準との高品質な整合性は、依然として根本的な課題である。
完全自動でLLMアライメントを改善するために,不確実性駆動型適応型自己アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-23T13:00:00Z) - Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。
特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文 参考訳(メタデータ) (2025-07-08T11:45:51Z) - Writing-Zero: Bridge the Gap Between Non-verifiable Problems and Verifiable Rewards [1.1981384995161284]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。
本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。
提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文 参考訳(メタデータ) (2025-05-30T14:34:57Z) - Latent Principle Discovery for Language Model Self-Improvement [14.137106102563514]
本稿では, 自己補正設定で明示的にモデル化することで, 人間の嗜好応答を推論する潜在属性を抽出する手法を提案する。
提案手法は,LM自体から新たな原理を抽出し,発見した要素をクラスタリングにより解釈可能な集合に圧縮する。
複数の反復でアルゴリズムをブートストラップすることで、より小さな言語モデルを自己改善し、AlpacaEvalの勝率+8-10%、MT-Benchの平均+0.3、IFEvalの勝率+19-23%を達成できることを示した。
論文 参考訳(メタデータ) (2025-05-22T17:20:18Z) - Closing the Intent-to-Behavior Gap via Fulfillment Priority Logic [1.4542411354617986]
本稿では,FPL(Fulfillment Priority Logic)を構築する目的達成の概念について述べる。
われわれの新しいバランスポリシー勾配アルゴリズムは、FPL仕様を利用して、ソフトアクター批評家と比較して最大500%のサンプル効率を達成する。
論文 参考訳(メタデータ) (2025-03-04T18:45:20Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-14T22:05:11Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - From STL Rulebooks to Rewards [4.859570041295978]
本稿では,多目的の強化学習のための報酬形成のための原則的アプローチを提案する。
まずSTLに新しい定量的セマンティクスを組み、個々の要求を自動的に評価する。
次に,複数の要件の評価を1つの報酬に体系的に組み合わせる手法を開発した。
論文 参考訳(メタデータ) (2021-10-06T14:16:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。