論文の概要: Token Democracy: The Architectural Limits of Alignment in Transformer-Based Language Models
- arxiv url: http://arxiv.org/abs/2501.15446v1
- Date: Sun, 26 Jan 2025 08:26:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:39.245550
- Title: Token Democracy: The Architectural Limits of Alignment in Transformer-Based Language Models
- Title(参考訳): Token Democracy: トランスフォーマーに基づく言語モデルにおけるアライメントのアーキテクチャ的限界
- Authors: Robin Young,
- Abstract要約: トランスフォーマーは全てのトークンを等しいものとして処理し、全てのトークンに等しい声を与える。
これはAGIにとって悲劇的に不向きな設計であり、敵の「候補者」がシステムをハイジャックするリスクを負うことはない。
この「トーケン民主主義」は、ジェイルブレイクがより広範囲に安全訓練されたモデルを追い越す理由と、位置シフトが即時効果を損なう理由を説明している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Modern language models paradoxically combine unprecedented capability with persistent vulnerability in that they can draft poetry yet cannot reliably refuse harmful requests. We reveal this fragility stems not from inadequate training, but from a fundamental architectural limitation: transformers process all tokens as equals. Transformers operate as computational democracies, granting equal voice to all tokens. This is a design tragically unsuited for AGI, where we cannot risk adversarial "candidates" hijacking the system. Through formal analysis, we demonstrate that safety instructions fundamentally lack privileged status in transformer architectures, that they compete with adversarial inputs in the same computational arena, making robust alignment through prompting or fine-tuning inherently limited. This "token democracy" explains why jailbreaks bypass even extensively safety-trained models and why positional shifts erode prompt effectiveness. Our work systematizes practitioners' tacit knowledge into an architectural critique, showing current alignment approaches create mere preferences, not constraints.
- Abstract(参考訳): 現代の言語モデルは、詩を起草できるが有害な要求を確実に拒否できないという、前例のない能力と永続的な脆弱性を兼ね備えている。
この脆弱さは、不十分なトレーニングではなく、基本的なアーキテクチャ上の制限、すなわちトランスフォーマーがすべてのトークンを同等に処理することに由来するものです。
トランスフォーマーは計算民主主義として機能し、全てのトークンに等しい声を与える。
これはAGIにとって悲劇的に不向きな設計であり、敵の「候補者」がシステムをハイジャックするリスクを負うことはない。
フォーマルな解析により、トランスフォーマーアーキテクチャにおいて、安全命令は基本的に特権的地位を欠いており、同じ計算領域における敵の入力と競合し、プロンプトや微調整によるロバストなアライメントを本質的に限定していることを示す。
この「トーケン民主主義」は、ジェイルブレイクがより広範囲に安全訓練されたモデルを追い越す理由と、位置シフトが即時効果を失わせる理由を説明している。
私たちの仕事は実践者の暗黙の知識をアーキテクチャ批判に体系化し、現在のアライメントアプローチが制約ではなく単なる好みを生み出すことを示している。
関連論文リスト
- A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Unelicitable Backdoors in Language Models via Cryptographic Transformer Circuits [1.1118610055902116]
自己回帰型トランスフォーマーモデルに新しいバックドアのクラスを導入する。
無効性により、ディフェンダーがバックドアを起動するのを防ぎ、デプロイ前に評価や検出が不可能になる。
我々は, 暗号技術を用いることで, 新規な構築が不必要であるだけでなく, 良好な堅牢性を有することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:55:41Z) - Meanings and Feelings of Large Language Models: Observability of Latent States in Generative AI [65.04274914674771]
アメリカ心理学会(APA)によると、現在のLarge Language Models(LLM)は「フィーリング」ができない。
我々の分析は、モデルがユーザに見えない非自明な計算を実行できるようにする可能性のある設計に光を当てている。
論文 参考訳(メタデータ) (2024-05-22T23:18:58Z) - The Illusion of State in State-Space Models [27.57426601905237]
ステートスペースモデル(SSM)は、大きな言語モデルを構築するための代替アーキテクチャとして考えられる。
我々は,SSMが変圧器のような非リカレントモデルに類似した制約があることを示し,実世界の状態追跡問題を解く能力を制限する可能性があることを示した。
論文 参考訳(メタデータ) (2024-04-12T21:30:06Z) - Where's the Liability in Harmful AI Speech? [42.97651263209725]
機械学習の実践者は、問題のあるスピーチを特定するために、定期的に"レッドチーム"モデルをモデル化する。
我々は,3つの責任体制について検討し,これらをレッドチームモデル行動の一般的な例に結びつける。
これらのシナリオでは、AIは責任から分類的に免疫されてはならない、と私たちは主張する。
論文 参考訳(メタデータ) (2023-08-09T00:13:00Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z) - Grounded Decoding: Guiding Text Generation with Grounded Models for
Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。
我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。
本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-01T22:58:50Z) - The Parallelism Tradeoff: Limitations of Log-Precision Transformers [29.716269397142973]
入力トークン数における算術精度が対数的である変換器は、定数深さの対数空間一様しきい値回路でシミュレートできることを示す。
これは、複雑性理論の既知の結果を用いた変圧器のパワーに関する洞察を与える。
論文 参考訳(メタデータ) (2022-07-02T03:49:34Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - Provable Limitations of Acquiring Meaning from Ungrounded Form: What
will Future Language Models Understand? [87.20342701232869]
未知のシステムが意味を習得する能力について検討する。
アサーションによってシステムが等価性のような意味関係を保存する表現をエミュレートできるかどうか検討する。
言語内のすべての表現が参照的に透明であれば,アサーションによってセマンティックエミュレーションが可能になる。
しかし、言語が変数バインディングのような非透過的なパターンを使用する場合、エミュレーションは計算不能な問題になる可能性がある。
論文 参考訳(メタデータ) (2021-04-22T01:00:17Z) - Transformers as Soft Reasoners over Language [33.291806251021185]
本稿では,事実と規則を自然言語文として提供し,形式表現をバイパスする問題について検討する。
我々は、合成されたデータを用いて、これらの文に対する推論(または推論)をエミュレートするようにトランスフォーマーを訓練する。
RuleTakersと呼ばれる私たちのモデルは、この種の言語に対するソフトな推論が学習可能であるという、最初の実証的なデモンストレーションを提供します。
論文 参考訳(メタデータ) (2020-02-14T04:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。