論文の概要: SPA: Achieving Consensus in LLM Alignment via Self-Priority Optimization
- arxiv url: http://arxiv.org/abs/2511.06222v1
- Date: Sun, 09 Nov 2025 04:43:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.819619
- Title: SPA: Achieving Consensus in LLM Alignment via Self-Priority Optimization
- Title(参考訳): SPA:自己プライオリティ最適化によるLLMアライメントにおけるコンセンサスの実現
- Authors: Yue Huang, Xiangqi Wang, Xiangliang Zhang,
- Abstract要約: 自己修復、法的な、あるいは医療的なクエリのような高度なシナリオでは、LLMは信頼性と有用性の両方を必要とする。
我々は、厳格な「信頼に値する前処理」命令を強制する新しいアライメントパラダイムである優先順位アライメントを提案する。
- 参考スコア(独自算出の注目度): 34.18333262699658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In high-stakes scenarios-such as self-harm, legal, or medical queries-LLMs must be both trustworthy and helpful. However, these goals often conflict. We propose priority alignment, a new alignment paradigm that enforces a strict "trustworthy-before-helpful" ordering: optimization of helpfulness is conditioned on first meeting trustworthy thresholds (e.g., harmlessness or honesty). To realize this, we introduce Self-Priority Alignment (SPA)-a fully unsupervised framework that generates diverse responses, self-evaluates them and refines them by the model itself, and applies dual-criterion denoising to remove inconsistency and control variance. From this, SPA constructs lexicographically ordered preference pairs and fine-tunes the model using an uncertainty-weighted alignment loss that emphasizes high-confidence, high-gap decisions. Experiments across multiple benchmarks show that SPA improves helpfulness without compromising safety, outperforming strong baselines while preserving general capabilities. Our results demonstrate that SPA provides a scalable and interpretable alignment strategy for critical LLM applications.
- Abstract(参考訳): 自己修復、法的な、あるいは医療的なクエリのような高度なシナリオでは、LLMは信頼性と有用性の両方を必要とする。
しかし、これらの目的はしばしば相反する。
我々は、信頼に値するしきい値(例えば、無害または正直性)を最初に満たす際に、支援の最適化が条件付けられているという、厳格な「信頼に値する前向きな」順序を強制する新しいアライメントパラダイムである優先順位調整を提案する。
これを実現するために,多種多様な応答を生成し,自己評価し,モデル自体によって洗練する,完全教師なしのフレームワークであるSPA(Self-Priority Alignment)を導入する。
このことから、SPAは語彙的に順序付けられた選好ペアを構築し、信頼度の高い高ギャップ決定を強調する不確実性重み付きアライメント損失を用いてモデルを微調整する。
複数のベンチマークでの実験では、SPAは安全性を損なうことなく有用性を向上し、一般的な機能を維持しながら、強力なベースラインを上回っている。
以上の結果から,SPAは重要なLLMアプリケーションに対して,スケーラブルで解釈可能なアライメント戦略を提供することが示された。
関連論文リスト
- Alignment-Weighted DPO: A principled reasoning approach to improve safety alignment [13.463606100715504]
大規模な言語モデルは、有害な意図を偽装する攻撃に対して脆弱である。
この脆弱性は、深い推論を欠く浅いアライメント機構に由来する。
本稿では,推論学習によるアライメントの強化を提案する。
論文 参考訳(メタデータ) (2026-02-24T20:30:51Z) - Unifying Stable Optimization and Reference Regularization in RLHF [64.16830602324345]
本稿では、報酬ハッキングの防止と安定したポリシー更新の維持を目標とする統一正規化手法を提案する。
我々の単純で原則化されたアライメント目的は、監督された微調整の損失を軽減し、優れたトレードオフをもたらし、アライメント結果と実装の複雑さの両方を明らかに改善する。
論文 参考訳(メタデータ) (2026-02-12T03:31:19Z) - SLIME: Stabilized Likelihood Implicit Margin Enforcement for Preference Optimization [0.0]
我々は、優先順位学習を生成品質から切り離すために設計された参照なしアライメント目的のSLIMEを紹介する。
以上の結果から,SLIMEは最先端のベースラインに比べて優れた性能を示す。
論文 参考訳(メタデータ) (2026-02-02T17:46:06Z) - Conformal Feedback Alignment: Quantifying Answer-Level Reliability for Robust LLM Alignment [5.556653374703646]
コンフォーマルフィードバックアライメント(Conformal Feedback Alignment, CFA)は、コンフォーマル予測(CP)の統計的保証における優先重み付けを基礎とするフレームワークである。
CFAは、制御可能なカバレッジを持つ共形予測セットを構築し、これらの信頼度をDPOおよびPPOスタイルのトレーニングのための原則化された重みに集約することで、回答レベルの信頼性を定量化する。
論文 参考訳(メタデータ) (2026-01-24T06:23:18Z) - Reasoning over Precedents Alongside Statutes: Case-Augmented Deliberative Alignment for LLM Safety [59.01189713115365]
本研究は, 広範囲な安全コードを明確に指定することによる影響を, 図示的事例を通して示すことよりも評価する。
明示的なコードを参照することで、無害性が向上し、系統的に有用性が低下することがわかった。
自己生成型安全推論チェーンの強化学習を利用したLLMのケース拡張型検討アライメント手法であるCADAを提案する。
論文 参考訳(メタデータ) (2026-01-12T21:08:46Z) - ConfPO: Exploiting Policy Model Confidence for Critical Token Selection in Preference Optimization [48.50761200321113]
大型言語モデル(LLM)における嗜好学習手法ConfPOを紹介する。
補助モデルや計算を必要とせずに、トレーニングポリシの信頼性のみに基づいて、優先クリティカルトークンを特定し、最適化する。
AlpacaEval 2 や Arena-Hard などのアライメントベンチマークの実験結果は、ConfPO が一様DAA を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-06-10T11:54:22Z) - Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。