論文の概要: The Alignment Auditor: A Bayesian Framework for Verifying and Refining LLM Objectives
- arxiv url: http://arxiv.org/abs/2510.06096v2
- Date: Wed, 08 Oct 2025 10:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.208637
- Title: The Alignment Auditor: A Bayesian Framework for Verifying and Refining LLM Objectives
- Title(参考訳): Alignment Auditor: LLMオブジェクトの検証と修正のためのベイズ的フレームワーク
- Authors: Matthieu Bou, Nyal Patel, Arjun Jagota, Satyapriya Krishna, Sonali Parbhoo,
- Abstract要約: 逆強化学習は、行動から報酬関数を推測することができる。
既存のアプローチは、単一で自信過剰な報酬推定を生成するか、タスクの基本的な曖昧さに対処できないかのいずれかです。
本稿では,簡単な推定タスクから総合的な検証プロセスへ報酬推論を再構成する,原則的監査フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.030821324147515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The objectives that Large Language Models (LLMs) implicitly optimize remain dangerously opaque, making trustworthy alignment and auditing a grand challenge. While Inverse Reinforcement Learning (IRL) can infer reward functions from behaviour, existing approaches either produce a single, overconfident reward estimate or fail to address the fundamental ambiguity of the task (non-identifiability). This paper introduces a principled auditing framework that re-frames reward inference from a simple estimation task to a comprehensive process for verification. Our framework leverages Bayesian IRL to not only recover a distribution over objectives but to enable three critical audit capabilities: (i) Quantifying and systematically reducing non-identifiability by demonstrating posterior contraction over sequential rounds of evidence; (ii) Providing actionable, uncertainty-aware diagnostics that expose spurious shortcuts and identify out-of-distribution prompts where the inferred objective cannot be trusted; and (iii) Validating policy-level utility by showing that the refined, low-uncertainty reward can be used directly in RLHF to achieve training dynamics and toxicity reductions comparable to the ground-truth alignment process. Empirically, our framework successfully audits a detoxified LLM, yielding a well-calibrated and interpretable objective that strengthens alignment guarantees. Overall, this work provides a practical toolkit for auditors, safety teams, and regulators to verify what LLMs are truly trying to achieve, moving us toward more trustworthy and accountable AI.
- Abstract(参考訳): 大きな言語モデル(LLM)が暗黙的に最適化する目的は危険なほど不透明であり、信頼できるアライメントと監査が大きな課題になります。
逆強化学習(IRL: Inverse Reinforcement Learning)は、行動から報酬関数を推論するが、既存のアプローチでは、単一で過度に自信の持たない報奨推定を生成するか、タスクの基本的な曖昧さ(非識別性)に対処できない。
本稿では,簡単な推定タスクから総合的な検証プロセスへ報酬推論を再構成する,原則的監査フレームワークを提案する。
我々のフレームワークは、ベイジアンIRLを利用して、目的の分布を回復するだけでなく、3つの重要な監査機能を実現する。
一 連続した証拠のラウンドに後続の収縮を示すことにより、非識別性を定量化し、系統的に低減すること。
2 急激なショートカットを露出し、推定対象が信頼できない場合の配布外プロンプトを識別する実行可能な不確実性のある診断方法を提供すること。
三 改良された低不確実性報酬をRLHFで直接使用することにより、地中整合性に匹敵するトレーニングのダイナミクス及び毒性の低減を図ることができることを示し、政策レベルの実用性を検証すること。
実証的に,本フレームワークは解毒されたLCMの監査に成功し,アライメント保証を強化するための,十分に校正された解釈可能な目標を得た。
全体として、この作業は監査人、安全チーム、規制当局に対して、LLMが真に達成しようとしているものを検証するための実践的なツールキットを提供し、より信頼性が高く説明責任のあるAIへと私たちを移動させます。
関連論文リスト
- FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning [62.452350134196934]
FaithCoT-Benchは、インスタンスレベルのCoT不信検出のための統一ベンチマークである。
我々の枠組みは差別的な決定問題として不誠実検出を定式化している。
FaithCoT-Bench は LLM のより解釈可能で信頼性の高い推論に向けた将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-10-05T05:16:54Z) - Veri-R1: Toward Precise and Faithful Claim Verification via Online Reinforcement Learning [53.05161493434908]
大規模言語モデル(LLM)によるクレーム検証は、その強力な推論能力と透過的な検証プロセスのため、近年注目を集めている。
我々は、LLMが検索エンジンと対話し、その計画、検索、推論行動を明確に形作る報酬信号を受け取ることができるオンライン強化学習フレームワークであるVeri-R1を紹介した。
実験の結果、Veri-R1は最大30%の精度で関節の精度を向上し、エビデンススコアを2倍にし、より大きなモデルを上回ることが示されている。
論文 参考訳(メタデータ) (2025-10-02T11:49:48Z) - VeriLLM: A Lightweight Framework for Publicly Verifiable Decentralized Inference [4.158412539499328]
大規模言語モデル(LLM)のための分散推論のための公開検証プロトコルを提案する。
同一GPUワーカのセット上で両方のロールを多重化する同型推論検証ネットワークを導入する。
我々は形式的なゲーム理論解析を提供し、インセンティブの下では、正直な推論と検証がナッシュ均衡を構成することを証明した。
論文 参考訳(メタデータ) (2025-09-29T04:07:32Z) - LLMs as verification oracles for Solidity [1.3887048755037537]
本稿では,この役割において,最先端の推論LLMである GPT-5 を初めて体系的に評価する。
我々は,大規模な検証タスクのデータセット上でその性能をベンチマークし,その出力を確立された形式的検証ツールと比較し,実世界の監査シナリオにおける実効性を評価する。
我々の研究は、AIの収束における新たなフロンティアと、セキュアなスマートコントラクト開発と監査のための形式的手法を示唆している。
論文 参考訳(メタデータ) (2025-09-23T15:32:13Z) - ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Large Language Model-Powered Smart Contract Vulnerability Detection: New
Perspectives [8.524720028421447]
本稿では, GPT-4 のような大規模言語モデル (LLM) を利用する機会, 課題, 潜在的な解決策を体系的に分析する。
高いランダム性でより多くの答えを生成することは、正しい答えを生み出す可能性を大幅に押し上げるが、必然的に偽陽性の数が増加する。
本稿では,GPTLens と呼ばれる,従来の一段階検出を2つの相乗的段階に分割し,生成と識別を行う逆方向のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T12:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。