論文の概要: Conformal Feedback Alignment: Quantifying Answer-Level Reliability for Robust LLM Alignment
- arxiv url: http://arxiv.org/abs/2601.17329v1
- Date: Sat, 24 Jan 2026 06:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.594778
- Title: Conformal Feedback Alignment: Quantifying Answer-Level Reliability for Robust LLM Alignment
- Title(参考訳): コンフォーマルフィードバックアライメント:ロバストLLMアライメントにおけるアンサーレベル信頼性の定量化
- Authors: Tiejin Chen, Xiaoou Liu, Vishnu Nandam, Kuan-Ru Liou, Hua Wei,
- Abstract要約: コンフォーマルフィードバックアライメント(Conformal Feedback Alignment, CFA)は、コンフォーマル予測(CP)の統計的保証における優先重み付けを基礎とするフレームワークである。
CFAは、制御可能なカバレッジを持つ共形予測セットを構築し、これらの信頼度をDPOおよびPPOスタイルのトレーニングのための原則化された重みに集約することで、回答レベルの信頼性を定量化する。
- 参考スコア(独自算出の注目度): 5.556653374703646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-based alignment like Reinforcement Learning from Human Feedback (RLHF) learns from pairwise preferences, yet the labels are often noisy and inconsistent. Existing uncertainty-aware approaches weight preferences, but ignore a more fundamental factor: the reliability of the \emph{answers} being compared. To address the problem, we propose Conformal Feedback Alignment (CFA), a framework that grounds preference weighting in the statistical guarantees of Conformal Prediction (CP). CFA quantifies answer-level reliability by constructing conformal prediction sets with controllable coverage and aggregates these reliabilities into principled weights for both DPO- and PPO-style training. Experiments across different datasets show that CFA improves alignment robustness and data efficiency, highlighting that modeling \emph{answer-side} uncertainty complements preference-level weighting and yields more robust, data-efficient alignment. Codes are provided here.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF)のような嗜好に基づくアライメントは、ペアの好みから学習するが、ラベルはしばしば騒々しく矛盾する。
既存の不確実性認識はウェイト選好にアプローチするが、より基本的な要素を無視する: \emph{answers} の信頼性を比較する。
この問題を解決するために,コンフォーマル・フィードバック・アライメント(CFA, Conformal Feedback Alignment)を提案する。
CFAは、制御可能なカバレッジを持つ共形予測セットを構築し、これらの信頼度をDPOおよびPPOスタイルのトレーニングのための原則化された重みに集約することで、回答レベルの信頼性を定量化する。
異なるデータセットにわたる実験では、CFAがアライメントの堅牢性とデータ効率を改善し、モデリングの 'emph{answer-side} 不確実性' が優先レベルの重み付けを補完し、より堅牢でデータ効率のよいアライメントをもたらすことが示されている。
コードはここにある。
関連論文リスト
- SPA: Achieving Consensus in LLM Alignment via Self-Priority Optimization [34.18333262699658]
自己修復、法的な、あるいは医療的なクエリのような高度なシナリオでは、LLMは信頼性と有用性の両方を必要とする。
我々は、厳格な「信頼に値する前処理」命令を強制する新しいアライメントパラダイムである優先順位アライメントを提案する。
論文 参考訳(メタデータ) (2025-11-09T04:43:32Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - ConfPO: Exploiting Policy Model Confidence for Critical Token Selection in Preference Optimization [48.50761200321113]
大型言語モデル(LLM)における嗜好学習手法ConfPOを紹介する。
補助モデルや計算を必要とせずに、トレーニングポリシの信頼性のみに基づいて、優先クリティカルトークンを特定し、最適化する。
AlpacaEval 2 や Arena-Hard などのアライメントベンチマークの実験結果は、ConfPO が一様DAA を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-06-10T11:54:22Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Federated Conformal Predictors for Distributed Uncertainty
Quantification [83.50609351513886]
コンフォーマル予測は、機械学習において厳密な不確実性定量化を提供するための一般的なパラダイムとして現れつつある。
本稿では,共形予測を連邦学習環境に拡張する。
本稿では、FL設定に適した部分交換可能性の弱い概念を提案し、それをフェデレート・コンフォーマル予測フレームワークの開発に利用する。
論文 参考訳(メタデータ) (2023-05-27T19:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。