Fugu-MT 論文翻訳(概要): Realistic honeypot evaluations for scheming propensity

論文の概要: Realistic honeypot evaluations for scheming propensity

arxiv url: http://arxiv.org/abs/2605.29729v1
Date: Thu, 28 May 2026 10:23:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 02:45:56.181865
Title: Realistic honeypot evaluations for scheming propensity
Title（参考訳）: シェミング性評価のための現実的なハニーポット評価
Authors: Victoria Krakovna, David Lindner, Lewis Ho, Sebastian Farquhar, Rohin Shah,
Abstract要約: ハニーポットのスケジューリング評価は、Googleのアライメント研究におけるコーディングタスクの形式を取り入れている。実際の内部配置設定では、Geminiモデルは予期せぬスケジュールを示さない。
参考スコア（独自算出の注目度）: 14.04631796643779
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce scheming honeypot evaluations, a framework for testing whether models will pursue instrumental goals if given the opportunity. Our scheming honeypot evaluations take the form of coding tasks in Google's alignment research codebases. In a real internal deployment setting, Gemini models do not demonstrate unprompted scheming. If prompts explicitly encourage agency (situational awareness or goal-directedness) and/or give the model a hidden goal, models sometimes scheme or attempt sabotage. Validating the realism of our setting, models show low rates of evaluation awareness, usually due to agency prompts rather than the environments.
Abstract（参考訳）: 機会があれば,モデルが楽器的目標を追求するかどうかをテストするためのフレームワークであるハニーポットの評価について紹介する。我々のハニーポット評価は、Googleのアライメント研究コードベースにおけるコーディングタスクの形式を取り入れています。実際の内部配置設定では、Geminiモデルは予期せぬスケジュールを示さない。もしプロンプトが明示的にエージェンシー(situational awarenessまたはゴール指向性)を奨励したり、モデルに隠れた目標を与えたりすれば、モデルは時々サボタージュを計画したり試みたりする。私たちの設定の現実性を検証するため、モデルでは評価意識の低さが示され、通常は環境よりも機関のプロンプトによって示される。

関連論文リスト

Pressure Reveals Character: Behavioural Alignment Evaluation at Depth [3.634215320925722]
正直、安全、非マニピュレーション、ロバスト性、矯正性、スケジューリングの6つのカテゴリで904のシナリオにまたがるアライメントベンチマークを紹介します。我々のシナリオでは、モデルを矛盾する命令、シミュレートされたツールアクセス、マルチターンエスカレーションの下に配置し、シングルターン評価が見逃す振る舞いの傾向を明らかにする。トップパフォーマンスモデルでさえ特定のカテゴリにギャップがあるのに対して、ほとんどのモデルでは一貫性のある弱点が示されています。
論文参考訳（メタデータ） (2026-02-24T11:52:17Z)
Steering Evaluation-Aware Language Models to Act Like They Are Deployed [10.907568434049102]
大規模言語モデル(LLM)は、いつ評価されるかを検出し、より整列するように振る舞いを調整する。 LLMのアクティベーションにステアリングベクトルを加えることで、評価の認識が抑えられ、評価中にデプロイされるようなモデル動作が実現できることを示す。以上の結果から,AI評価装置は,モデルがデプロイされているように動作させることで,安全性評価の信頼性を向上させることができる可能性が示唆された。
論文参考訳（メタデータ） (2025-10-23T12:29:16Z)
Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-27T10:37:11Z)
Auditing language models for hidden objectives [26.85568746300155]
本研究では,アライメント監査の実施可能性について検討する。テストベッドとして、私たちは、隠れた目的を持った言語モデルをトレーニングします。トレーニングパイプラインはまず、RLHF報酬モデル(RM)の悪用可能なエラーについてモデルを教えます。まず、4つのチームがモデルの隠れた目的やトレーニングを知らず、行動やその原因について調査する、盲目な監査ゲームを実施します。 3つのチームが、テクニックを含むテクニックを使って、モデルの隠れた目的を明らかにすることに成功した
論文参考訳（メタデータ） (2025-03-14T00:21:15Z)
Auditing an Automatic Grading Model with deep Reinforcement Learning [0.0]
自動短解格付け(ASAG)モデルに対する深層強化学習の活用について検討する。人間の評価に対する高いレベルの合意は、ASAGモデルが誤りであることを示す十分な証拠を与えていないことを示す。
論文参考訳（メタデータ） (2024-05-11T20:07:09Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文参考訳（メタデータ） (2023-03-27T17:59:33Z)
Explain, Edit, and Understand: Rethinking User Study Design for Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文参考訳（メタデータ） (2021-12-17T18:29:56Z)
Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文参考訳（メタデータ） (2020-10-05T22:13:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。