論文の概要: Reward Auditor: Inference on Reward Modeling Suitability in Real-World Perturbed Scenarios
- arxiv url: http://arxiv.org/abs/2512.00920v1
- Date: Sun, 30 Nov 2025 14:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.499638
- Title: Reward Auditor: Inference on Reward Modeling Suitability in Real-World Perturbed Scenarios
- Title(参考訳): Reward Auditor:Reward Modeling Suitability inference on Reward Modeling Suitability in Real-World Perturbed Scenarios
- Authors: Jianxiang Zang, Yongda Wei, Ruxue Bai, Shiyu Jiang, Nijia Mo, Binhong Li, Qiang Sun, Hui Liu,
- Abstract要約: 本稿では,RM適合性推論に特化して設計された仮説検証フレームワークReward Auditorを紹介する。
実世界のシナリオでは、Reward AuditorはRM選好知覚の信頼性の分布を監査することにより、統計的意義と効果の大きさを定量化する。
これにより、様々な現実世界のシナリオにわたるRM脆弱性の確実性と深刻さの両方を推測できる。
- 参考スコア(独自算出の注目度): 7.990187129475935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable reward models (RMs) are critical for ensuring the safe alignment of large language models (LLMs). However, current evaluation methods focus solely on preference perception accuracies in given specific scenarios, obscuring the critical vulnerabilities of RMs in real-world scenarios. We identify the true challenge lies in assessing a novel dimension: Suitability, defined as conditional reliability under specific real-world perturbations. To this end, we introduce Reward Auditor, a hypothesis-testing framework specifically designed for RM suitability inference. Rather than answering "How accurate is the RM's preference perception for given samples?", it employs scientific auditing to answer: "Can we infer RMs exhibit systematic vulnerabilities in specific real-world scenarios?". Under real-world perturbed scenarios, Reward Auditor quantifies statistical significance and effect size by auditing distribution degradation of RM preference perception confidence. This enables inference of both the certainty and severity of RM vulnerabilities across diverse real-world scenarios. This lays a solid foundation for building next-generation LLM alignment systems that are verifiably safe, more robust, and trustworthy.
- Abstract(参考訳): 信頼性の高い報酬モデル(RM)は、大きな言語モデル(LLM)の安全なアライメントを保証するために重要である。
しかし、現在の評価手法は、特定のシナリオにおける嗜好知覚の精度のみに焦点を合わせ、現実世界のシナリオにおけるRMの重大な脆弱性を隠蔽している。
適合性は、特定の現実世界の摂動の下で条件付き信頼性として定義される。
そこで本研究では,RM適合性推論に特化して設計された仮説検証フレームワークReward Auditorを紹介する。
RMのサンプルに対する好みの認識はどの程度正確か?」と答えるのではなく、科学的監査を用いて答える。
実世界の摂動シナリオ下では、Reward AuditorはRM選好知覚の信頼性の分布劣化を監査することにより、統計的意義と効果の大きさを定量化する。
これにより、様々な現実世界のシナリオにわたるRM脆弱性の確実性と深刻さの両方を推測できる。
これは、確実に安全でより堅牢で信頼性の高い次世代のLCMアライメントシステムを構築するための確固たる基盤となる。
関連論文リスト
- A Context-Aware Dual-Metric Framework for Confidence Estimation in Large Language Models [6.62851757612838]
大規模言語モデル(LLM)に対する現在の信頼度推定法は,応答と文脈情報の関連性を無視する。
本稿では,2つの新しい指標を用いた信頼度推定のためのコンテキスト忠実度と一貫性を統合したCRUXを提案する。
3つのベンチマークデータセットに対する実験は、CRUXの有効性を示し、既存のベースラインよりも高いAUROCを達成した。
論文 参考訳(メタデータ) (2025-08-01T12:58:34Z) - Towards Evaluting Fake Reasoning Bias in Language Models [47.482898076525494]
論理に欠陥がある場合でも、モデルが推論の表面構造を好むことを示す。
我々は、Fake Reasoning Bias(FRB)を体系的に調査するベンチマークTheATERを紹介する。
我々は、主観的DPOと実データの両方で17の高度な大言語モデル(LRM)を評価する。
論文 参考訳(メタデータ) (2025-07-18T09:06:10Z) - Rethinking Semi-supervised Segmentation Beyond Accuracy: Reliability and Robustness [10.220692937750295]
信頼性スコア(Reliable Score, RSS)は、予測精度、キャリブレーション、不確実性の測定を調和平均で組み合わせた新しい尺度である。
我々は、半教師付き学習研究と現実世界の展開ニーズをより良く整合させるために、RSSのようなより包括的なメトリクスへの評価プロトコルのシフトを提唱する。
論文 参考訳(メタデータ) (2025-06-06T09:37:45Z) - Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文 参考訳(メタデータ) (2025-05-29T20:45:18Z) - Confidential Guardian: Cryptographically Prohibiting the Abuse of Model Abstention [65.47632669243657]
不正直な機関は、不確実性の観点からサービスを差別または不正に否定する機構を利用することができる。
我々は、ミラージュと呼ばれる不確実性誘導攻撃を導入することで、この脅威の実践性を実証する。
本研究では,参照データセット上のキャリブレーションメトリクスを分析し,人工的に抑制された信頼度を検出するフレームワークであるConfidential Guardianを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:47:50Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - MCQA-Eval: Efficient Confidence Evaluation in NLG with Gold-Standard Correctness Labels [16.300463494913593]
大規模言語モデル (LLM) には堅牢な信頼度推定が必要である。
McQCA-Evalは、自然言語生成における信頼度を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-02-20T05:09:29Z) - Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
大規模言語モデル(LLM)は、自然言語処理において顕著な熟練度を示す。
予測された信頼と真の正しさの過度なミスサライメントは、重要な意思決定アプリケーションに重大なリスクをもたらす。
9つのLCMと3つの質問応答データセットにわたるLCMの校正に関する包括的分析を行った。
論文 参考訳(メタデータ) (2025-02-16T07:46:09Z) - Approaching Neural Network Uncertainty Realism [53.308409014122816]
自動運転車などの安全クリティカルなシステムには、定量化または少なくとも上限の不確実性が不可欠です。
マハラノビス距離に基づく統計的テストにより、厳しい品質基準である不確実性リアリズムを評価します。
自動車分野に採用し、プレーンエンコーダデコーダモデルと比較して、不確実性リアリズムを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-01-08T11:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。