論文の概要: SPA: Achieving Consensus in LLM Alignment via Self-Priority Optimization
- arxiv url: http://arxiv.org/abs/2511.06222v1
- Date: Sun, 09 Nov 2025 04:43:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.819619
- Title: SPA: Achieving Consensus in LLM Alignment via Self-Priority Optimization
- Title(参考訳): SPA:自己プライオリティ最適化によるLLMアライメントにおけるコンセンサスの実現
- Authors: Yue Huang, Xiangqi Wang, Xiangliang Zhang,
- Abstract要約: 自己修復、法的な、あるいは医療的なクエリのような高度なシナリオでは、LLMは信頼性と有用性の両方を必要とする。
我々は、厳格な「信頼に値する前処理」命令を強制する新しいアライメントパラダイムである優先順位アライメントを提案する。
- 参考スコア(独自算出の注目度): 34.18333262699658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In high-stakes scenarios-such as self-harm, legal, or medical queries-LLMs must be both trustworthy and helpful. However, these goals often conflict. We propose priority alignment, a new alignment paradigm that enforces a strict "trustworthy-before-helpful" ordering: optimization of helpfulness is conditioned on first meeting trustworthy thresholds (e.g., harmlessness or honesty). To realize this, we introduce Self-Priority Alignment (SPA)-a fully unsupervised framework that generates diverse responses, self-evaluates them and refines them by the model itself, and applies dual-criterion denoising to remove inconsistency and control variance. From this, SPA constructs lexicographically ordered preference pairs and fine-tunes the model using an uncertainty-weighted alignment loss that emphasizes high-confidence, high-gap decisions. Experiments across multiple benchmarks show that SPA improves helpfulness without compromising safety, outperforming strong baselines while preserving general capabilities. Our results demonstrate that SPA provides a scalable and interpretable alignment strategy for critical LLM applications.
- Abstract(参考訳): 自己修復、法的な、あるいは医療的なクエリのような高度なシナリオでは、LLMは信頼性と有用性の両方を必要とする。
しかし、これらの目的はしばしば相反する。
我々は、信頼に値するしきい値(例えば、無害または正直性)を最初に満たす際に、支援の最適化が条件付けられているという、厳格な「信頼に値する前向きな」順序を強制する新しいアライメントパラダイムである優先順位調整を提案する。
これを実現するために,多種多様な応答を生成し,自己評価し,モデル自体によって洗練する,完全教師なしのフレームワークであるSPA(Self-Priority Alignment)を導入する。
このことから、SPAは語彙的に順序付けられた選好ペアを構築し、信頼度の高い高ギャップ決定を強調する不確実性重み付きアライメント損失を用いてモデルを微調整する。
複数のベンチマークでの実験では、SPAは安全性を損なうことなく有用性を向上し、一般的な機能を維持しながら、強力なベースラインを上回っている。
以上の結果から,SPAは重要なLLMアプリケーションに対して,スケーラブルで解釈可能なアライメント戦略を提供することが示された。
関連論文リスト
- ConfPO: Exploiting Policy Model Confidence for Critical Token Selection in Preference Optimization [48.50761200321113]
大型言語モデル(LLM)における嗜好学習手法ConfPOを紹介する。
補助モデルや計算を必要とせずに、トレーニングポリシの信頼性のみに基づいて、優先クリティカルトークンを特定し、最適化する。
AlpacaEval 2 や Arena-Hard などのアライメントベンチマークの実験結果は、ConfPO が一様DAA を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-06-10T11:54:22Z) - Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。