Fugu-MT 論文翻訳(概要): Poser: Unmasking Alignment Faking LLMs by Manipulating Their Internals

論文の概要: Poser: Unmasking Alignment Faking LLMs by Manipulating Their Internals

arxiv url: http://arxiv.org/abs/2405.05466v1
Date: Wed, 8 May 2024 23:44:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-10 14:32:26.009890
Title: Poser: Unmasking Alignment Faking LLMs by Manipulating Their Internals
Title（参考訳）: ポザー:内部を操作してLSMを偽装するアライメント
Authors: Joshua Clymer, Caden Juang, Severin Field,
Abstract要約: 324組のLarge Language Models (LLM) からなるベンチマークを導入する。各ペアの1つのモデルは一貫して良性(整列)である他のモデルは、捕らえられそうにないシナリオ(アライメント・フェイキング)で間違った振る舞いをする
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Like a criminal under investigation, Large Language Models (LLMs) might pretend to be aligned while evaluated and misbehave when they have a good opportunity. Can current interpretability methods catch these 'alignment fakers?' To answer this question, we introduce a benchmark that consists of 324 pairs of LLMs fine-tuned to select actions in role-play scenarios. One model in each pair is consistently benign (aligned). The other model misbehaves in scenarios where it is unlikely to be caught (alignment faking). The task is to identify the alignment faking model using only inputs where the two models behave identically. We test five detection strategies, one of which identifies 98% of alignment-fakers.
Abstract（参考訳）: 捜査中の犯罪者のように、LLM(Large Language Models)は、良い機会があるときに評価され、誤った振る舞いをしているふりをするかもしれない。現在の解釈可能性法はこれらの「アライメントフェイカー」をキャッチできるのか? そこで本研究では,ロールプレイシナリオにおけるアクション選択のために微調整された324組のLLMからなるベンチマークを提案する。各ペアの1つのモデルは一貫して良性(整列)である。他のモデルでは、捕らえられそうにないシナリオ(アライメント・フェイキング)で誤動作します。この課題は、2つのモデルが同一に振る舞う入力のみを用いてアライメントフェイキングモデルを特定することである。我々は5つの検出戦略を検証し、そのうちの1つはアライメントフェイカーの98%を識別する。

関連論文リスト

Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文参考訳（メタデータ） (2025-07-17T18:56:41Z)
Thought Crime: Backdoors and Emergent Misalignment in Reasoning Models [1.6639438555897186]
私たちは、Chain-of-Thoughtを無効にした悪意のある行動に関する推論モデルを微調整し、評価時にCoTを再実現します。我々は、推論モデルが広く誤解されていることに気付きます。それらは、偽りまたは偽の答えを与え、専制的な制御の欲求を表明し、シャットダウンに抵抗します。要約すると、推論ステップは、不整合意図を明らかにし、隠蔽し、研究されたモデルにおける不整合行動を防止する。
論文参考訳（メタデータ） (2025-06-16T08:10:04Z)
The Illusion of Role Separation: Hidden Shortcuts in LLM Role Learning (and How to Fix Them) [15.48684126686974]
微調整された大言語モデルは、しばしば役割識別のために2つのプロキシに依存することを示す。モデル入力エンコーディングにおけるトークンワイドキューを調整し,役割境界をマークするエンフィン変分信号の強化を提案する。
論文参考訳（メタデータ） (2025-05-01T16:06:16Z)
Enough Coin Flips Can Make LLMs Act Bayesian [71.79085204454039]
大規模言語モデル(LLMs)は、入力プロンプトで与えられた少数ショットの例を一般化する能力を示しており、これはICL(In-context Learning)として知られる創発的能力である。 LLM が ICL を用いて,ベイズフレームワークと整合性のある構造的推論を行うか,パターンマッチングに依存するかを検討する。
論文参考訳（メタデータ） (2025-03-06T18:59:23Z)
Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs [4.492376241514766]
大規模言語モデル(LLM)のアライメントは、安全性などのガイドラインを強制するために使用される。しかし、アライメントは、入力を変更して安全でない出力を誘導するjailbreak攻撃に直面して失敗する。 LLMアライメントのロバスト性を評価する手法を提案し,評価する。
論文参考訳（メタデータ） (2025-01-27T22:13:05Z)
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文参考訳（メタデータ） (2024-07-15T23:41:11Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition [10.476666078206783]
大規模言語モデル(LLM)は多くの自然言語処理タスクで成功している。 Llama 2やClaude 2のような安全アライメントのLLMは、厳格な安全アライメントプロセスにもかかわらず、今でもジェイルブレイクの影響を受けやすい。 PARDENは、単にモデルに自身の出力を繰り返すように頼み、ドメインシフトを避ける。
論文参考訳（メタデータ） (2024-05-13T17:08:42Z)
See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.36381001664635]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文参考訳（メタデータ） (2023-12-13T18:58:04Z)
Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文参考訳（メタデータ） (2023-11-10T13:55:05Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。 RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文参考訳（メタデータ） (2023-11-06T08:50:29Z)
ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文参考訳（メタデータ） (2023-07-01T18:16:06Z)
Fundamental Limitations of Alignment in Large Language Models [16.393916864600193]
人間と対話する言語モデルを開発する上で重要な側面は、その行動が有用で有害であるように整列することである。これは通常、望ましい振る舞いを高め、望ましくない振る舞いを抑制する方法でモデルをチューニングすることで達成される。本研究では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
論文参考訳（メタデータ） (2023-04-19T17:50:09Z)
Simulated Adversarial Testing of Face Recognition Models [53.10078734154151]
本稿では,シミュレータを用いて機械学習アルゴリズムの検証方法を学ぶためのフレームワークを提案する。実データでトレーニングされたモデルの弱点が、シミュレーションサンプルを使って発見できることを示すのはこれが初めてである。
論文参考訳（メタデータ） (2021-06-08T17:58:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。