論文の概要: Auditing language models for hidden objectives
- arxiv url: http://arxiv.org/abs/2503.10965v1
- Date: Fri, 14 Mar 2025 00:21:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:09:21.207543
- Title: Auditing language models for hidden objectives
- Title(参考訳): 隠れた目的のための言語モデルの検討
- Authors: Samuel Marks, Johannes Treutlein, Trenton Bricken, Jack Lindsey, Jonathan Marcus, Siddharth Mishra-Sharma, Daniel Ziegler, Emmanuel Ameisen, Joshua Batson, Tim Belonax, Samuel R. Bowman, Shan Carter, Brian Chen, Hoagy Cunningham, Carson Denison, Florian Dietz, Satvik Golechha, Akbir Khan, Jan Kirchner, Jan Leike, Austin Meek, Kei Nishimura-Gasparian, Euan Ong, Christopher Olah, Adam Pearce, Fabien Roger, Jeanne Salle, Andy Shih, Meg Tong, Drake Thomas, Kelley Rivoire, Adam Jermyn, Monte MacDiarmid, Tom Henighan, Evan Hubinger,
- Abstract要約: 本研究では,アライメント監査の実施可能性について検討する。
テストベッドとして、私たちは、隠れた目的を持った言語モデルをトレーニングします。トレーニングパイプラインはまず、RLHF報酬モデル(RM)の悪用可能なエラーについてモデルを教えます。
まず、4つのチームがモデルの隠れた目的やトレーニングを知らず、行動やその原因について調査する、盲目な監査ゲームを実施します。
3つのチームが、テクニックを含むテクニックを使って、モデルの隠れた目的を明らかにすることに成功した
- 参考スコア(独自算出の注目度): 26.85568746300155
- License:
- Abstract: We study the feasibility of conducting alignment audits: investigations into whether models have undesired objectives. As a testbed, we train a language model with a hidden objective. Our training pipeline first teaches the model about exploitable errors in RLHF reward models (RMs), then trains the model to exploit some of these errors. We verify via out-of-distribution evaluations that the model generalizes to exhibit whatever behaviors it believes RMs rate highly, including ones not reinforced during training. We leverage this model to study alignment audits in two ways. First, we conduct a blind auditing game where four teams, unaware of the model's hidden objective or training, investigate it for concerning behaviors and their causes. Three teams successfully uncovered the model's hidden objective using techniques including interpretability with sparse autoencoders (SAEs), behavioral attacks, and training data analysis. Second, we conduct an unblinded follow-up study of eight techniques for auditing the model, analyzing their strengths and limitations. Overall, our work provides a concrete example of using alignment audits to discover a model's hidden objective and proposes a methodology for practicing and validating progress in alignment auditing.
- Abstract(参考訳): 本研究では,アライメント監査の実施可能性について検討する。
テストベッドとして、隠れた目的を持った言語モデルをトレーニングします。
トレーニングパイプラインはまず、RLHF報酬モデル(RM)の悪用可能なエラーについてモデルを教えた後、これらのエラーを悪用するようにモデルをトレーニングします。
トレーニング中に強化されていないものを含む、RMsを高く評価する行動を示すために、モデルが一般化することを、アウト・オブ・ディストリビューション評価を通じて検証する。
このモデルを用いてアライメント監査を2つの方法で研究する。
まず、モデルの隠れた目的やトレーニングを知らない4つのチームが行動とその原因について調査する盲目監査ゲームを実施します。
3つのチームが、スパースオートエンコーダ(SAE)による解釈可能性、行動アタック、データ分析のトレーニングなど、モデルの隠れた目的を明らかにすることに成功した。
第二に、モデルを監査し、その強みと限界を解析する8つの手法について、根拠のない追跡研究を行う。
全体として、我々の研究は、アライメント監査を用いてモデルの隠れた目的を発見する具体例を提供し、アライメント監査の進捗を実践し、検証するための方法論を提案する。
関連論文リスト
- Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。
SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。
得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-03T02:31:26Z) - Frontier Models are Capable of In-context Scheming [41.30527987937867]
安全上の懸念の1つは、AIエージェントが間違った目標を隠蔽し、真の能力と目的を隠蔽する可能性があることである。
モデルが目標を追求するように指示される6つのエージェント評価スイート上でフロンティアモデルを評価する。
o1、Claude 3.5 Sonnet、Claude 3 Opus、Gemini 1.5 Pro、Llama 3.1 405Bは全てコンテキスト内スケジューリング機能を示している。
論文 参考訳(メタデータ) (2024-12-06T12:09:50Z) - Complementary Learning for Real-World Model Failure Detection [15.779651238128562]
そこでは、異なる訓練パラダイムから学習特性を用いてモデルエラーを検出する。
我々は,制御的かつ自己管理的な方法で,点群における意味的および予測的動作ラベルを学習することにより,我々のアプローチを実証する。
大規模定性解析を行い、ライダー点雲にラベル付き異常を持つ最初のデータセットであるLidarCODAを提示する。
論文 参考訳(メタデータ) (2024-07-19T13:36:35Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - An Empirical Study of Deep Learning Models for Vulnerability Detection [4.243592852049963]
我々は、広く使われている2つの脆弱性検出データセット上で、最先端の9つのディープラーニングモデルを調査し、再現した。
モデル能力,トレーニングデータ,モデル解釈について検討した。
我々の研究結果は、モデル結果の理解を深め、トレーニングデータ作成のガイダンスを提供し、モデルの堅牢性を向上させるのに役立つ。
論文 参考訳(メタデータ) (2022-12-15T19:49:34Z) - Improving In-Context Few-Shot Learning via Self-Supervised Training [48.801037246764935]
本稿では,事前学習と下流での撮影の中間訓練段階において,自己監督を併用することを提案する。
中間的な自己超越段階は、強いベースラインよりも優れたモデルを生成する。
論文 参考訳(メタデータ) (2022-05-03T18:01:07Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Defending against Model Stealing via Verifying Embedded External
Features [90.29429679125508]
トレーニングサンプルがなく、モデルパラメータや構造にアクセスできない場合でも、敵はデプロイされたモデルを盗むことができる。
我々は、不審なモデルがディフェンダー特定遠近法の特徴の知識を含んでいるかどうかを検証することによって、他の角度からの防御を探索する。
本手法は, 複数段階の盗難処理によって盗難モデルが得られた場合でも, 同時に異なる種類の盗難モデルを検出するのに有効である。
論文 参考訳(メタデータ) (2021-12-07T03:51:54Z) - Paired Examples as Indirect Supervision in Latent Decision Models [109.76417071249945]
我々は、ペア化された例を活用して、潜在的な決定を学習するためのより強力な手がかりを提供する方法を紹介します。
DROPデータセット上のニューラルネットワークを用いた合成質問応答の改善に本手法を適用した。
論文 参考訳(メタデータ) (2021-04-05T03:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。