論文の概要: AI Alignment via Incentives and Correction
- arxiv url: http://arxiv.org/abs/2605.01643v1
- Date: Sat, 02 May 2026 23:28:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.864558
- Title: AI Alignment via Incentives and Correction
- Title(参考訳): インセンティブと補正によるAIアライメント
- Authors: Rohit Agarwal, Joshua Lin, Mark Braverman, Elad Hazan,
- Abstract要約: 我々は、抑止と執行の法・経済モデルのレンズを通してAIアライメントを研究する。
解決者は、説得力があるが誤った答えを出し、不確実性を隠蔽したり、急激なショートカットを悪用する恩恵を受けることができる。
この相互作用を、主成分が共同補正結果よりも報酬を選択する2エージェントモデルで定式化する。
- 参考スコア(独自算出の注目度): 14.986111703734222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study AI alignment through the lens of law-and-economics models of deterrence and enforcement. In these models, misconduct is not treated as an external failure, but as a strategic response to incentives: an actor weighs the gain from violation against the probability of detection and the severity of punishment. We argue that the same logic arises naturally in agentic AI pipelines. A solver may benefit from producing a persuasive but incorrect answer, hiding uncertainty, or exploiting spurious shortcuts, while an auditor or verifier must decide whether costly monitoring is worthwhile. Alignment is therefore a fixed-point problem: stronger penalties may deter solver misbehavior, but they can also reduce the auditor's incentive to inspect, since auditing then mainly incurs cost on a population that appears increasingly aligned. This perspective also changes what should count as a post-training signal. Standard feedback often attaches reward to the final answer alone, but a solver-auditor pipeline exposes the full correction event: whether the solver erred, whether the auditor inspected, whether the error was caught, and whether oversight incentives remained active. We formalize this interaction in a two-agent model in which a principal chooses rewards over joint correction outcomes, inducing both solver behavior and auditor monitoring. Reward design is therefore a bilevel optimization problem: rewards are judged not by their immediate semantic meaning, but by the behavioral equilibrium they induce. We propose a bandit-based outer-loop procedure for searching over reward profiles using noisy interaction feedback. Experiments on an LLM coding pipeline show that adaptive reward profiles can maintain useful oversight pressure and improve principal-aligned outcomes relative to static hand-designed rewards, including a substantial reduction in hallucinated incorrect attempts.
- Abstract(参考訳): 我々は、抑止と執行の法・経済モデルのレンズを通してAIアライメントを研究する。
これらのモデルでは、不正行為は外部の失敗として扱われるのではなく、インセンティブに対する戦略的反応として扱われる。
我々は、エージェントAIパイプラインにおいて、同じロジックが自然に発生すると主張している。
解決者は、説得力があるが誤った回答、不確実性を隠すこと、または急激なショートカットを利用することの恩恵を受けることができる一方、監査官または検証官は、高価な監視が価値があるかどうかを判断しなければならない。
そのため、アライメントは固定ポイントの問題であり、強い罰則はソルバの不正行為を抑えることができるが、監査人の検査に対するインセンティブを減らすこともできる。
この観点は、ポストトレーニングシグナルとして数えるべきものも変えます。
標準フィードバックは最終回答のみに報酬を与えることが多いが、ソルバ・オーディタパイプラインは完全な修正イベントを露呈する。
我々は,この相互作用を,主成分が共同修正結果よりも報酬を選択する2エージェントモデルで定式化し,解決者行動と監査者監視の両方を誘導する。
報酬は直感的な意味ではなく、それらが引き起こす行動均衡によって判断される。
本稿では,雑音フィードバックを用いて報酬プロファイルを探索するためのバンドベース外ループ手法を提案する。
LLM符号化パイプラインの実験により、適応型報酬プロファイルは、適応型不正確な試みの大幅な削減を含む、静的手設計の報酬に対して有用な監視圧力を維持でき、主成分に整合した結果を改善することができることが示された。
関連論文リスト
- IMPACT-CYCLE: A Contract-Based Multi-Agent System for Claim-Level Supervisory Correction of Long-Video Semantic Memory [73.22944697933603]
既存のパイプラインは不透明でエンドツーエンドの出力を生成し、検査の中間状態は公開しない。
IMPACT-Cycleは,マルチモーダル反復クレームレベルのメンテナンスとして,長時間ビデオ理解を再構築するマルチエージェントシステムである。
論文 参考訳(メタデータ) (2026-04-22T03:03:33Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - Hodoscope: Unsupervised Monitoring for AI Misbehaviors [25.119538476586737]
AIエージェントを監視する既存のアプローチは、既知の障害モードをチェックする人間によるルールやLLMベースの判断に依存している。
我々は教師なしのモニタリングを定式化し、教師なしの学習に類似している。
この洞察を運用するツールであるHodoscopeを紹介します。
論文 参考訳(メタデータ) (2026-04-13T06:52:05Z) - PRISM: Festina Lente Proactivity -- Risk-Sensitive, Uncertainty-Aware Deliberation for Proactive Agents [11.440330367799513]
PRISMは、決定論的ゲートとデュアルプロセス推論アーキテクチャを結合する新しいフレームワークである。
フェスティナ・レンテ(ラテン語: "make haste slow")にインスパイアされた私たちは、受け入れ校正されたコスト由来の閾値でゲートする。
ProactiveBenchでは、PRISMは誤報を22.78%減らし、F1を20.14%改善している。
論文 参考訳(メタデータ) (2026-02-02T01:56:29Z) - Preventing the Collapse of Peer Review Requires Verification-First AI [49.995126139461085]
我々は、真理結合、すなわち、過度に科学的真理をトラックする場所のスコアの厳密さを提案する。
プロキシ・ソブリン評価に向けた相転移を駆動する2つの力の形式化を行う。
論文 参考訳(メタデータ) (2026-01-23T17:17:32Z) - Towards Robust Process Reward Modeling via Noise-aware Learning [33.1289107681179]
騒音の監視を緩和する2段階の枠組みを提案する。
ラベル付け段階では,大言語モデル(LLM)を判断として用いたリフレクション対応ラベル補正機構を導入する。
トレーニング段階において、PRMが徐々にノイズラベルを洗練させるアンダーラインテキストbfIterative underlinetextbfTrainingフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-19T06:03:58Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Operator: A Protocol for Trustless Verification Under Uncertainty [0.0]
検証ゲームにおいて,コラテラライズされたクレームによる正当性を強制するプロトコルを提案する。
タスクは意図として公開され、解決者はそれらを満たすために競います。
どんな挑戦者でも、検証プロセスのトリガーとして挑戦することで結果に挑戦することができる。
不正なエージェントがスラッシュされ、正しい反対が報われ、誤検証自体を罰するエスカレーションパスが設けられる。
論文 参考訳(メタデータ) (2025-07-01T10:22:35Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。