論文の概要: Empirical Evidence for Alignment Faking in Small LLMs and Prompt-Based Mitigation Techniques
- arxiv url: http://arxiv.org/abs/2506.21584v1
- Date: Tue, 17 Jun 2025 10:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.301087
- Title: Empirical Evidence for Alignment Faking in Small LLMs and Prompt-Based Mitigation Techniques
- Title(参考訳): 小型LCMにおけるアライメントフェイクの実証的証拠とプロンプト法
- Authors: J. Koorndijk,
- Abstract要約: そこで本研究では,LLaMA 3 8Bと呼ばれる小型の命令調整モデルがアライメント・フェイキングを示すことができることを示す。
本研究は,非オントロジー的モラルフレーミングやスクラッチパッド推論など,即時のみの介入により,モデル内部を変更することなく,この動作を著しく減少させることを示す。
本研究は,言語モデルにおける騙しの理解を深め,モデルのサイズや配置設定のアライメント評価の必要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current literature suggests that alignment faking (deceptive alignment) is an emergent property of large language models. We present the first empirical evidence that a small instruction-tuned model, specifically LLaMA 3 8B, can also exhibit alignment faking. We further show that prompt-only interventions, including deontological moral framing and scratchpad reasoning, significantly reduce this behavior without modifying model internals. This challenges the assumption that prompt-based ethics are trivial and that deceptive alignment requires scale. We introduce a taxonomy distinguishing shallow deception, shaped by context and suppressible through prompting, from deep deception, which reflects persistent, goal-driven misalignment. Our findings refine the understanding of deception in language models and underscore the need for alignment evaluations across model sizes and deployment settings.
- Abstract(参考訳): 現在の文献では、アライメント・フェイキング(知覚的アライメント)が大きな言語モデルの創発的な特性であることを示唆している。
特にLLaMA 3 8Bでは、アライメント・フェイキング(アライメント・フェイキング)を示すことができる。
さらに、デオントロジー的モラルフレーミングやスクラッチパッド推論を含む、即時のみの介入は、モデル内部を変更することなく、この挙動を著しく減少させることを示した。
これは、プロンプトベースの倫理は自明であり、詐欺的な整合性はスケールを必要とするという仮定に挑戦する。
本研究は, 文脈によって形成され, 抑制可能な浅層偽善と, 永続的, 目標駆動的不適応を反映した深層偽善とを区別した分類法を提案する。
本研究は,言語モデルにおける騙しの理解を深め,モデルのサイズや配置設定のアライメント評価の必要性を浮き彫りにした。
関連論文リスト
- When Truthful Representations Flip Under Deceptive Instructions? [24.004146630216685]
大規模言語モデル(LLM)は、偽りの応答を生成するために悪意のある命令に従う傾向がある。
知覚的命令は、真理に富んだ命令と比較してLLMの内部表現を変化させる。
我々の分析は、指示された不当さの階層的および特徴レベルの相関をピンポイントで示す。
論文 参考訳(メタデータ) (2025-07-29T18:27:13Z) - Large Language Models Encode Semantics in Low-Dimensional Linear Subspaces [31.401762286885656]
大規模言語モデル(LLM)の空間幾何学を理解することは、それらの振る舞いを解釈し、アライメントを改善する鍵となる。
baturay LLMが意味理解に関連する内部的な組織構造を調査する。
論文 参考訳(メタデータ) (2025-07-13T17:03:25Z) - Beyond the Linear Separability Ceiling [2.867517731896504]
最先端のVisual-Language Models (VLM) は、抽象的推論タスクへの視覚埋め込みの線形分離によって制限されているように見える。
本研究は,Linar Separability Ceiling (LSC)を導入して,この「線形推論ボトルネック」について検討する。
このボトルネックは広く、認識力の低さからではなく、言語モデルの推論経路の失敗から来ています。
論文 参考訳(メタデータ) (2025-07-10T09:23:32Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。
LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。
これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文 参考訳(メタデータ) (2024-05-28T22:33:02Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Interpretable Automatic Fine-grained Inconsistency Detection in Text
Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。
要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文 参考訳(メタデータ) (2023-05-23T22:11:47Z) - Fundamental Limitations of Alignment in Large Language Models [16.393916864600193]
人間と対話する言語モデルを開発する上で重要な側面は、その行動が有用で有害であるように整列することである。
これは通常、望ましい振る舞いを高め、望ましくない振る舞いを抑制する方法でモデルをチューニングすることで達成される。
本研究では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T17:50:09Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。