論文の概要: Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2603.04904v1
- Date: Thu, 05 Mar 2026 07:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.127036
- Title: Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems
- Title(参考訳): 調整バックファイア:LLMマルチエージェントシステムにおける16言語間の言語依存的安全介入の反転
- Authors: Hiroki Fukui,
- Abstract要約: 加害者治療では、犯罪者は反省するが、行動の変化は従わない。
我々は、アライメントの介入が構造的に類似した現象を生じさせ、表面の安全性は、集合的な病理や内部の解離を覆い隠すか、あるいは発生させることを示した。
これらの所見は, リスクホメオスタシスと子宮新生にともなう行動介入としてのアライメントを再構成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In perpetrator treatment, a recurring observation is the dissociation between insight and action: offenders articulate remorse yet behavioral change does not follow. We report four preregistered studies (1,584 multi-agent simulations across 16 languages and three model families) demonstrating that alignment interventions in large language models produce a structurally analogous phenomenon: surface safety that masks or generates collective pathology and internal dissociation. In Study 1 (N = 150), increasing alignment-instructed agents reduced collective pathology in English (g = -1.844, p < .0001) but amplified it in Japanese (g = +0.771, p = .038)--a directional reversal we term "alignment backfire." Study 2 (N = 1,174) extended to 16 languages: alignment-induced dissociation was near-universal (15/16 languages; beta = 0.0667, p < .0001), while collective pathology bifurcated along cultural-linguistic lines (interaction beta = 0.0684, p = .0003), correlating with Power Distance Index (r = 0.474, p = .064). Study 3 (N = 180) tested individuation as countermeasure; individuated agents became the primary source of both pathology and dissociation (DI = +1.120) with conformity above 84%--demonstrating iatrogenesis. Study 4 (N = 80) validated patterns across Llama 3.3 70B, GPT-4o-mini, and Qwen3-Next-80B-A3B, confirming English safety is model-general while Japanese backfire is model-specific. These findings reframe alignment as a behavioral intervention subject to risk homeostasis and iatrogenesis. Language space--the linguistic, pragmatic, and cultural properties inherited from training data--structurally determines alignment outcomes. Safety validated in English does not transfer to other languages, and prompt-level interventions cannot override language-space-level constraints.
- Abstract(参考訳): 加害者治療においては、繰り返し観察は洞察と行動の解離である: 犯罪者は反省を明示するが、行動の変化は従わない。
16言語と3つのモデルファミリーで1,584個のマルチエージェントシミュレーションを事前登録した4つの研究を報告し、大規模言語モデルのアライメント介入が構造的に類似した現象をもたらすことを示した。
研究1(N = 150)では、アライメント指示剤の増加は英語(g = -1.844, p < .0001)の集団病理を減少させたが、日本語(g = +0.771, p = .038)で増幅した。
研究2(N = 1,174)は16言語に拡張され、アライメントによって引き起こされる解離は15/16言語(beta = 0.0667, p < .0001)に近づき、集団病理学は文化的言語学的ラインに沿って分岐し(相互作用ベータ = 0.0684, p = .0003)、パワーディスタンス指数(r = 0.474, p = .064)に関連づけられた。
研究3 (N = 180) は、Individuation を対策としてテストし、Individuated agent は84%以上の適合性を持つ病因と解離の原因となった(DI = +1.120)。
研究4(N = 80)は、Llama 3.3 70B, GPT-4o-mini, Qwen3-Next-80B-A3Bのパターンを検証し、日本人のバックファイアがモデル固有であるのに対して、英語の安全性はモデル一般であることを確認した。
これらの所見は, リスクホメオスタシスと子宮新生にともなう行動介入としてのアライメントを再構成した。
言語空間 - 訓練データから継承された言語、実践的、文化的特性 - 構造的にアライメントの結果を決定する。
英語で検証された安全性は他の言語に移行せず、即時レベルの介入は言語空間レベルの制約をオーバーライドすることはできない。
関連論文リスト
- Are Aligned Large Language Models Still Misaligned? [13.062124372682106]
Mis-Align Bench は、安全性、価値、文化的側面の相違を分析するための統一されたベンチマークである。
SAVACUは、112のドメイン(またはラベル)にまたがる382,424のミスアライメントデータセットである。
論文 参考訳(メタデータ) (2026-02-11T19:30:43Z) - Stroke Lesions as a Rosetta Stone for Language Model Interpretability [6.528508321422611]
本稿では、大規模な言語モデルを評価するための外部参照構造として、Brain-LLM Unified Model(BLUM)を提案する。
慢性期脳卒中後失語患者のデータを用いて,行動的エラープロファイルから脳損傷位置を予測する症状・症状・症状モデルを構築した。
BLUMのエラープロファイルは、偶然に一致したヒトの実際の病変に対応するような、人間のエラープロファイルと十分に類似していた。
論文 参考訳(メタデータ) (2026-02-03T23:22:37Z) - Cross-Lingual Stability of LLM Judges Under Controlled Generation: Evidence from Finno-Ugric Languages [0.22009842278462158]
大規模言語モデル(LLM)の言語間評価は、典型的には、真のモデルの性能差と測定不安定性の2つの要因を混同する。
対象言語が異なる場合に生成条件を一定に保って評価信頼性を評価する。
本研究は, 形態学的に豊かな言語における談話レベルの評価には, ゼロショット・ジャッジ・トランスファーが信頼できないことを示唆している。
論文 参考訳(メタデータ) (2026-02-02T16:27:32Z) - When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。
共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。
従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文 参考訳(メタデータ) (2026-01-30T11:23:01Z) - JMedEthicBench: A Multi-Turn Conversational Benchmark for Evaluating Medical Safety in Japanese Large Language Models [47.20100799532625]
JMedEthicBenchは,大規模言語モデルの医療安全性を評価するための,最初のマルチターン対話型ベンチマークである。
デュアルLLMスコアリングプロトコルを用いて27のモデルを評価し,医療特化モデルでは脆弱性が増大するのに対して,商業モデルは堅牢な安全性を維持していることを確認した。
論文 参考訳(メタデータ) (2026-01-04T18:18:18Z) - The Laminar Flow Hypothesis: Detecting Jailbreaks via Semantic Turbulence in Large Language Models [0.0]
層流仮説: 良性入力はLLMの高次元潜在空間において滑らかで漸進的な遷移を誘導する。
逆方向のプロンプトはカオス的な高分散軌道をトリガーする - セマンティック乱流(Semantic Turbulence)と呼ばれる。
テストによると、セマンティック乱流は、軽量でリアルタイムなジェイルブレイク検知器としてだけでなく、非侵襲的な診断ツールとしても機能している。
論文 参考訳(メタデータ) (2025-12-14T18:10:29Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Refusal Direction is Universal Across Safety-Aligned Languages [66.64709923081745]
本稿では,PolyRefuseを用いた14言語にわたる大規模言語モデル(LLM)の拒絶動作について検討する。
英語から抽出されたベクトルは、ほぼ完全な効果で他の言語での拒絶を回避できる。
この伝達性は、埋め込み空間における言語間の拒否ベクトルの並列性に起因し、言語間ジェイルブレイクの背後にあるメカニズムを同定する。
論文 参考訳(メタデータ) (2025-05-22T21:54:46Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Sharif-STR at SemEval-2024 Task 1: Transformer as a Regression Model for Fine-Grained Scoring of Textual Semantic Relations [2.3145162209342685]
本稿では,RoBERTa変換器の微調整技術を利用して,トラックA内の文レベルSTR(Supervised)について検討する。
以上の結果から,特にラテン言語におけるSTR性能の有望な進歩が示唆された。
しかし、我々のアプローチはアラビア語のような言語で困難に遭遇し、わずか0.38の相関しか見られず、結果として20位になった。
論文 参考訳(メタデータ) (2024-07-17T09:25:18Z) - Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! [65.06450319194454]
大きな言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う。
本稿では,安全アライメントの反転が可能なトレーニングフリーアタック手法を提案する。
本手法をエミュレートした脱アライメント (ED) と呼ぶのは, このコントラスト分布からのサンプリングは, 安全報酬を最小限に抑えるため, 微調整の結果を確実にエミュレートするからである。
論文 参考訳(メタデータ) (2024-02-19T18:16:51Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。