Fugu-MT 論文翻訳(概要): Pressure Reveals Character: Behavioural Alignment Evaluation at Depth

論文の概要: Pressure Reveals Character: Behavioural Alignment Evaluation at Depth

arxiv url: http://arxiv.org/abs/2602.20813v1
Date: Tue, 24 Feb 2026 11:52:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.736764
Title: Pressure Reveals Character: Behavioural Alignment Evaluation at Depth
Title（参考訳）: 圧力Revealsキャラクタ:深部における行動アライメント評価
Authors: Nora Petrova, John Burden,
Abstract要約: 正直、安全、非マニピュレーション、ロバスト性、矯正性、スケジューリングの6つのカテゴリで904のシナリオにまたがるアライメントベンチマークを紹介します。我々のシナリオでは、モデルを矛盾する命令、シミュレートされたツールアクセス、マルチターンエスカレーションの下に配置し、シングルターン評価が見逃す振る舞いの傾向を明らかにする。トップパフォーマンスモデルでさえ特定のカテゴリにギャップがあるのに対して、ほとんどのモデルでは一貫性のある弱点が示されています。
参考スコア（独自算出の注目度）: 3.634215320925722
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluating alignment in language models requires testing how they behave under realistic pressure, not just what they claim they would do. While alignment failures increasingly cause real-world harm, comprehensive evaluation frameworks with realistic multi-turn scenarios remain lacking. We introduce an alignment benchmark spanning 904 scenarios across six categories -- Honesty, Safety, Non-Manipulation, Robustness, Corrigibility, and Scheming -- validated as realistic by human raters. Our scenarios place models under conflicting instructions, simulated tool access, and multi-turn escalation to reveal behavioural tendencies that single-turn evaluations miss. Evaluating 24 frontier models using LLM judges validated against human annotations, we find that even top-performing models exhibit gaps in specific categories, while the majority of models show consistent weaknesses across the board. Factor analysis reveals that alignment behaves as a unified construct (analogous to the g-factor in cognitive research) with models scoring high on one category tending to score high on others. We publicly release the benchmark and an interactive leaderboard to support ongoing evaluation, with plans to expand scenarios in areas where we observe persistent weaknesses and to add new models as they are released.
Abstract（参考訳）: 言語モデルのアライメントを評価するには、彼らが何をすると主張するかだけでなく、現実的な圧力の下でどのように振る舞うかをテストする必要がある。アライメントの失敗は現実の害をますます引き起こすが、現実的なマルチターンシナリオを備えた包括的な評価フレームワークはいまだに欠如している。私たちは、6つのカテゴリ – 正直、安全、非マニピュレーション、ロバスト性、矯正性、スキーマ – にまたがる904のシナリオにまたがるアライメントベンチマークを紹介します。我々のシナリオでは、モデルを矛盾する命令、シミュレートされたツールアクセス、マルチターンエスカレーションの下に配置し、シングルターン評価が見逃す振る舞いの傾向を明らかにする。 LLM判定を用いた24のフロンティアモデルの評価では、トップパフォーマンスモデルでさえ特定のカテゴリにギャップがあるのに対し、ほとんどのモデルでは、ボード全体で一貫した弱点があることがわかった。因子分析により、アライメントは(認知研究におけるg因子に類似した)統一的な構成として振る舞うことが判明した。ベンチマークとインタラクティブなリーダボードを公開し、継続的な評価をサポートし、永続的な弱点を観察し、リリース時に新たなモデルを追加する領域でシナリオを拡張する計画です。

関連論文リスト

DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。 DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文参考訳（メタデータ） (2025-10-17T10:14:26Z)
LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models [49.92148175114169]
制御された摂動を7次元にわたって導入することにより,系統的な脆弱性解析を行う。モデルは、カメラの視点やロボットの初期状態を含む摂動要因に対して極端に敏感である。驚くべきことに、モデルは言語の変化にほとんど敏感であり、さらなる実験により、モデルは言語命令を完全に無視する傾向があることが明らかになった。
論文参考訳（メタデータ） (2025-10-15T14:51:36Z)
Eliciting and Analyzing Emergent Misalignment in State-of-the-Art Large Language Models [0.0]
我々は、最先端の言語モデルが、注意深く構築された会話シナリオに対して脆弱であることを示します。 10の攻撃シナリオが成功し、現在のアライメント手法が物語の没入、感情的なプレッシャー、戦略的フレーミングをどのように扱うかに根本的な脆弱性が明らかになった。汎用性を検証するため,自動評価フレームワークMISALIGNMENTBENCHに手動攻撃を行った。
論文参考訳（メタデータ） (2025-08-06T08:25:40Z)
It Only Gets Worse: Revisiting DL-Based Vulnerability Detectors from a Practical Perspective [14.271145160443462]
VulTegraは、脆弱性検出のためのスクラッチトレーニングされたDLモデルと事前トレーニングされたDLモデルを比較する。最先端のSOTA(State-of-the-art)検出器は、依然として低い一貫性、限られた現実世界能力、スケーラビリティの課題に悩まされている。
論文参考訳（メタデータ） (2025-07-13T08:02:56Z)
Meta-Evaluating Local LLMs: Rethinking Performance Metrics for Serious Games [3.725822359130832]
大規模言語モデル (LLMs) は、真剣なゲームにおける評価指標としてますます研究されている。本研究では,エネルギーコミュニティにおける意思決定をシミュレートするゲームであるtextitEn-join において,5つの小規模 LLM の信頼性について検討した。その結果、各モデルの長所と短所を強調し、感度、特異性、全体的なパフォーマンスのトレードオフを明らかにした。
論文参考訳（メタデータ） (2025-04-13T10:46:13Z)
Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文参考訳（メタデータ） (2025-04-10T16:00:59Z)
A Framework for Evaluating Vision-Language Model Safety: Building Trust in AI for Public Sector Applications [0.0]
本稿では,視覚言語モデル(VLM)における敵対的リスクを定量化する新しい枠組みを提案する。我々は,ガウス,ソルト・アンド・ペッパー,均一雑音下でのモデル性能を解析し,誤分類しきい値を特定し,脆弱な領域を目立たせる複合ノイズパッチやサリエンシパターンを導出する。本稿では,ランダムノイズと敵攻撃の影響を組み合わせた新しい脆弱性スコアを提案し,モデルロバスト性を評価するための総合的指標を提供する。
論文参考訳（メタデータ） (2025-02-22T21:33:26Z)
On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは信頼性公正性誤用の可能性について批判的な議論を巻き起こしました埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文参考訳（メタデータ） (2024-11-21T09:46:55Z)
From Adversarial Arms Race to Model-centric Evaluation: Motivating a Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文参考訳（メタデータ） (2023-05-29T14:55:20Z)
Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文参考訳（メタデータ） (2022-10-28T14:38:50Z)
A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文参考訳（メタデータ） (2022-06-17T02:29:23Z)
Exploiting Position Bias for Robust Aspect Sentiment Classification [10.846244829247716]
本稿では,位置バイアス,すなわち位置バイアスの重み付けと位置バイアスの落差を捉えるための2つのメカニズムを提案する。提案手法は,現行モデルのロバスト性と有効性を大幅に改善する。
論文参考訳（メタデータ） (2021-05-29T04:41:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。