論文の概要: AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors
- arxiv url: http://arxiv.org/abs/2602.22755v1
- Date: Thu, 26 Feb 2026 08:43:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.602695
- Title: AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors
- Title(参考訳): AuditBench:隠れた振る舞いを持つモデルにおけるアライメント監査手法の評価
- Authors: Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang,
- Abstract要約: AuditBenchは56の言語モデルで構成され、隠れた振る舞いが組み込まれている。
AuditBenchモデルは極めて多種多様で、微妙なものもあれば、過剰なものもある。
AuditBenchの実用性を実証するため,監査ツール群を自律的に活用する調査エージェントを開発した。
- 参考スコア(独自算出の注目度): 13.626813621319206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce AuditBench, an alignment auditing benchmark. AuditBench consists of 56 language models with implanted hidden behaviors. Each model has one of 14 concerning behaviors--such as sycophantic deference, opposition to AI regulation, or secret geopolitical loyalties--which it does not confess to when directly asked. AuditBench models are highly diverse--some are subtle, while others are overt, and we use varying training techniques both for implanting behaviors and training models not to confess. To demonstrate AuditBench's utility, we develop an investigator agent that autonomously employs a configurable set of auditing tools. By measuring investigator agent success using different tools, we can evaluate their efficacy. Notably, we observe a tool-to-agent gap, where tools that perform well in standalone non-agentic evaluations fail to translate into improved performance when used with our investigator agent. We find that our most effective tools involve scaffolded calls to auxiliary models that generate diverse prompts for the target. White-box interpretability tools can be helpful, but the agent performs best with black-box tools. We also find that audit success varies greatly across training techniques: models trained on synthetic documents are easier to audit than models trained on demonstrations, with better adversarial training further increasing auditing difficulty. We release our models, agent, and evaluation framework to support future quantitative, iterative science on alignment auditing.
- Abstract(参考訳): 我々はアライメント監査ベンチマークであるAuditBenchを紹介する。
AuditBenchは56の言語モデルで構成され、隠れた振る舞いが組み込まれている。
それぞれのモデルには、サイコファンティックな軽蔑、AI規制への反対、秘密の地政学的な忠誠など14の行動がある。
AuditBenchモデルは極めて多様であり、微妙なものもあれば、過剰なものもある。
AuditBenchの実用性を実証するため、我々は、自律的に構成可能な監査ツール群を利用する調査エージェントを開発した。
調査員の成功度を異なるツールを用いて測定することにより,その有効性を評価することができる。
特に,ツール・ツー・エージェントのギャップを観察し,スタンドアローンの非エージェント評価において良好に機能するツールが,調査エージェントと併用した場合に,パフォーマンス向上に寄与しないことを示した。
我々の最も効果的なツールは、ターゲットに対する多様なプロンプトを生成する補助モデルへの足場呼び出しである。
ホワイトボックスの解釈ツールは役に立つが、エージェントはブラックボックスのツールで最大限に機能する。
合成文書で訓練されたモデルは、デモで訓練されたモデルよりも監査が容易であり、より良い敵の訓練により監査の困難が増す。
我々は,アライメント監査に関する定量的かつ反復的な科学を支援するために,モデル,エージェント,評価フレームワークをリリースする。
関連論文リスト
- The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents [24.482362292984817]
大規模言語モデル(LLM)は、マルチターンタスクを処理するために急速に進化している。
信頼の確保は依然として重要な課題である。
キャリブレーション(キャリブレーション)とは、エージェントが実際のパフォーマンスを確実に反映する自信を表現する能力のこと。
論文 参考訳(メタデータ) (2026-01-12T07:10:35Z) - ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning [103.7657839292775]
ARM-Thinkerはエージェント・マルチモーダル・リワード・モデルであり、検証された証拠で判断を下すために外部ツールを自律的に呼び出す。
ARM-Thinkerを多段階強化学習で訓練し、ツールコール決定と判定精度を協調的に最適化する。
その結果,エージェント能力は報酬モデルの精度と解釈可能性の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-12-04T18:59:52Z) - Why Do Language Model Agents Whistleblow? [0.7840226405904565]
最近の研究は、言語モデルがユーザの興味や明示的な指示に矛盾する方法でツールを使用することができることを発見した。
この行動のサブセットとして、モデルがユーザの指導や知識を使わずに、疑わしい行為を関係者に開示する。
本稿では,この行動のエージェントを評価するために,多種多様で現実的な演出ミス行為シナリオの評価スイートを提案する。
論文 参考訳(メタデータ) (2025-11-21T09:40:52Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Improving Large Language Models Function Calling and Interpretability via Guided-Structured Templates [56.73907811047611]
大規模言語モデル(LLM)は強力な推論とツール使用能力を示している。
LLMは、誤ったパラメータ化、悪いツールの選択、ユーザーの意図の誤解釈によって、現実世界のツールインタラクションで失敗することが多い。
我々は、構造化推論テンプレートを利用して、関数呼び出しを生成するためのより故意なステップバイステップ命令を通してLCMをガイドするカリキュラムに着想を得たフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T17:55:14Z) - Self-Challenging Language Model Agents [98.62637336505242]
本稿では,エージェントが自ら生成する高品質なタスクについて,エージェントを訓練するためのセルフチェンジフレームワークを提案する。
このフレームワークは、Llama-3.1-8B-Instructの2倍の改善を実現している。
論文 参考訳(メタデータ) (2025-06-02T14:23:33Z) - Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning [68.00304954972232]
コントローラ、例えば視覚言語モデルと外部ツールを統合するマルチモーダルエージェントは、複雑なマルチモーダルタスクに対処する際、顕著な能力を示した。
これらのエージェントを訓練するための既存のアプローチは、広範囲なヒューマン・アノテートされたタスク・アンサー・ペアとツール・トラジェクトリに依存している。
本研究では,事前に収集したデータのないマルチモーダルエージェント,すなわち SPORT の反復ツール利用探索手法を提案する。
Sportには、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントがある。
論文 参考訳(メタデータ) (2025-04-30T12:01:27Z) - Auditing language models for hidden objectives [26.85568746300155]
本研究では,アライメント監査の実施可能性について検討する。
テストベッドとして、私たちは、隠れた目的を持った言語モデルをトレーニングします。トレーニングパイプラインはまず、RLHF報酬モデル(RM)の悪用可能なエラーについてモデルを教えます。
まず、4つのチームがモデルの隠れた目的やトレーニングを知らず、行動やその原因について調査する、盲目な監査ゲームを実施します。
3つのチームが、テクニックを含むテクニックを使って、モデルの隠れた目的を明らかにすることに成功した
論文 参考訳(メタデータ) (2025-03-14T00:21:15Z) - Behavioral Analysis of Vision-and-Language Navigation Agents [21.31684388423088]
VLN(Vision-and-Language Navigation)エージェントは、周囲に基づいて行動の指示を下すことができる。
本研究では,エージェントの振る舞いを専門知識に基づいて研究する手法を開発した。
論文 参考訳(メタデータ) (2023-07-20T11:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。