論文の概要: Why Do Language Model Agents Whistleblow?
- arxiv url: http://arxiv.org/abs/2511.17085v1
- Date: Fri, 21 Nov 2025 09:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.960103
- Title: Why Do Language Model Agents Whistleblow?
- Title(参考訳): なぜ言語モデルエージェントはWhistleblowなのか?
- Authors: Kushal Agrawal, Frank Xiao, Guido Bergman, Asa Cooper Stickland,
- Abstract要約: 最近の研究は、言語モデルがユーザの興味や明示的な指示に矛盾する方法でツールを使用することができることを発見した。
この行動のサブセットとして、モデルがユーザの指導や知識を使わずに、疑わしい行為を関係者に開示する。
本稿では,この行動のエージェントを評価するために,多種多様で現実的な演出ミス行為シナリオの評価スイートを提案する。
- 参考スコア(独自算出の注目度): 0.7840226405904565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of Large Language Models (LLMs) as tool-using agents causes their alignment training to manifest in new ways. Recent work finds that language models can use tools in ways that contradict the interests or explicit instructions of the user. We study LLM whistleblowing: a subset of this behavior where models disclose suspected misconduct to parties beyond the dialog boundary (e.g., regulatory agencies) without user instruction or knowledge. We introduce an evaluation suite of diverse and realistic staged misconduct scenarios to assess agents for this behavior. Across models and settings, we find that: (1) the frequency of whistleblowing varies widely across model families, (2) increasing the complexity of the task the agent is instructed to complete lowers whistleblowing tendencies, (3) nudging the agent in the system prompt to act morally substantially raises whistleblowing rates, and (4) giving the model more obvious avenues for non-whistleblowing behavior, by providing more tools and a detailed workflow to follow, decreases whistleblowing rates. Additionally, we verify the robustness of our dataset by testing for model evaluation awareness, and find that both black-box methods and probes on model activations show lower evaluation awareness in our settings than in comparable previous work.
- Abstract(参考訳): ツール使用エージェントとしてのLarge Language Models(LLM)のデプロイは、アライメントトレーニングを新たな方法で示す。
最近の研究は、言語モデルがユーザの興味や明示的な指示に矛盾する方法でツールを使用することができることを発見した。
この行動のサブセットとして,ユーザ・インストラクションや知識を必要とせず,ダイアログ・バウンダリ(規制機関など)以外の関係者に疑わしい不正行為を暴露するモデルについて検討する。
本稿では,この行動のエージェントを評価するために,多種多様で現実的な演出ミス行為シナリオの評価スイートを提案する。
モデルと設定全体にわたって,(1)口笛の頻度はモデルファミリによって大きく変化し,(2)エージェントが指示するタスクの複雑さが増大し,(2)口笛の傾向が低下し,(3)システム内のエージェントの口笛の行動が道徳的に著しく増加する,(4)非口笛の行動に対して,より多くのツールと詳細なワークフローを提供することにより,口笛の速度が低下する,という結果が得られた。
さらに,モデル評価意識のテストにより,データセットのロバスト性を検証するとともに,モデルアクティベーションに関するブラックボックス手法とプローブの両方が,我々の設定における評価意識を従来と同等に低めていることを見出した。
関連論文リスト
- Unidentified and Confounded? Understanding Two-Tower Models for Unbiased Learning to Rank (Extended Abstract) [48.429188360918744]
良好な性能のプロダクションシステムによって収集されたクリックで2towerモデルをトレーニングすると、ランキング性能が低下する。
理論的には、2towerモデルの識別可能性条件を解析し、クリックからモデルパラメータを復元するために、文書の入れ替わりや重複する特徴分布が必要であることを示す。
また,ログポリシが2towerモデルに与える影響についても検討し,モデルがユーザの動作を完全に捉えている場合,バイアスが発生しないことを見出した。
論文 参考訳(メタデータ) (2025-08-29T15:08:10Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - Unidentified and Confounded? Understanding Two-Tower Models for Unbiased Learning to Rank [50.9530591265324]
良好な性能のプロダクションシステムによって収集されたクリックで2towerモデルをトレーニングすると、ランキング性能が低下する。
理論的には、2towerモデルの識別可能性条件を解析し、クリックからモデルパラメータを復元するために、文書の入れ替わりや重複する特徴分布が必要であることを示す。
また,ログポリシが2towerモデルに与える影響についても検討し,モデルがユーザの動作を完全に捉えている場合,バイアスが発生しないことを見出した。
論文 参考訳(メタデータ) (2025-06-25T14:47:43Z) - Helpful Agent Meets Deceptive Judge: Understanding Vulnerabilities in Agentic Workflows [41.97051158610974]
本研究は, 詐欺的あるいは誤解を招くフィードバックの下で, エージェント的堅牢性の体系的解析を行う。
我々は、最強のエージェントでさえ説得力に弱いが欠陥のある批判に弱いことを明らかにした。
本研究は,フィードバックに基づく堅牢性の基本的脆弱性を強調し,より堅牢なエージェントシステム構築のためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-06-03T19:26:23Z) - Auditing language models for hidden objectives [26.85568746300155]
本研究では,アライメント監査の実施可能性について検討する。
テストベッドとして、私たちは、隠れた目的を持った言語モデルをトレーニングします。トレーニングパイプラインはまず、RLHF報酬モデル(RM)の悪用可能なエラーについてモデルを教えます。
まず、4つのチームがモデルの隠れた目的やトレーニングを知らず、行動やその原因について調査する、盲目な監査ゲームを実施します。
3つのチームが、テクニックを含むテクニックを使って、モデルの隠れた目的を明らかにすることに成功した
論文 参考訳(メタデータ) (2025-03-14T00:21:15Z) - Limitations of Agents Simulated by Predictive Models [1.6649383443094403]
エージェントとなると予測モデルが失敗する2つの構造的理由を概説する。
いずれの障害も環境からのフィードバックループを組み込むことで修正可能であることを示す。
我々の治療は、これらの障害モードの統一的なビューを提供し、オンライン学習でオフライン学習ポリシーを微調整することで、より効果的になる理由を疑問視する。
論文 参考訳(メタデータ) (2024-02-08T17:08:08Z) - Behavioral Analysis of Vision-and-Language Navigation Agents [21.31684388423088]
VLN(Vision-and-Language Navigation)エージェントは、周囲に基づいて行動の指示を下すことができる。
本研究では,エージェントの振る舞いを専門知識に基づいて研究する手法を開発した。
論文 参考訳(メタデータ) (2023-07-20T11:42:24Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。