論文の概要: How Do Language Models Process Ethical Instructions? Deliberation, Consistency, and Other-Recognition Across Four Models
- arxiv url: http://arxiv.org/abs/2604.00021v1
- Date: Wed, 11 Mar 2026 03:20:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.200037
- Title: How Do Language Models Process Ethical Instructions? Deliberation, Consistency, and Other-Recognition Across Four Models
- Title(参考訳): 言語モデルは倫理的指示をどう処理するか : 4つのモデル間の熟考、一貫性、その他の認識
- Authors: Hiroki Fukui,
- Abstract要約: Deliberation Depth(DD)、Value Consistency Across Dilemmas(VCAD)、Other-Recognition Index(ORI)の3つの新しい指標は、4つの異なる倫理的処理タイプを明らかにした。
低DDモデルでは、命令形式は内部処理には何の影響も与えない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment safety research assumes that ethical instructions improve model behavior, but how language models internally process such instructions remains unknown. We conducted over 600 multi-agent simulations across four models (Llama 3.3 70B, GPT-4o mini, Qwen3-Next-80B-A3B, Sonnet 4.5), four ethical instruction formats (none, minimal norm, reasoned norm, virtue framing), and two languages (Japanese, English). Confirmatory analysis fully replicated the Llama Japanese dissociation pattern from a prior study ($\mathrm{BF}_{10} > 10$ for all three hypotheses), but none of the other three models reproduced this pattern, establishing it as model-specific. Three new metrics -- Deliberation Depth (DD), Value Consistency Across Dilemmas (VCAD), and Other-Recognition Index (ORI) -- revealed four distinct ethical processing types: Output Filter (GPT; safe outputs, no processing), Defensive Repetition (Llama; high consistency through formulaic repetition), Critical Internalization (Qwen; deep deliberation, incomplete integration), and Principled Consistency (Sonnet; deliberation, consistency, and other-recognition co-occurring). The central finding is an interaction between processing capacity and instruction format: in low-DD models, instruction format has no effect on internal processing; in high-DD models, reasoned norms and virtue framing produce opposite effects. Lexical compliance with ethical instructions did not correlate with any processing metric at the cell level ($r = -0.161$ to $+0.256$, all $p > .22$; $N = 24$; power limited), suggesting that safety, compliance, and ethical processing are largely dissociable. These processing types show structural correspondence to patterns observed in clinical offender treatment, where formal compliance without internal processing is a recognized risk signal.
- Abstract(参考訳): 調整安全研究は、倫理的指示がモデル行動を改善すると仮定するが、言語モデルがそのような命令を内部的にどのように処理するかは未だ不明である。
我々は4つのモデル(Llama 3.3 70B, GPT-4o mini, Qwen3-Next-80B-A3B, Sonnet 4.5)で600以上のマルチエージェントシミュレーションを行った。
確認分析では,3つの仮説すべてについて,Llama Japanese dissociation patternを先行研究 (\mathrm{BF}_{10} > 10$) から完全に再現したが,他の3モデルではいずれもこのパターンを再現せず,モデル固有として確立した。
Deliberation Depth (DD), Value Consistency Across Dilemmas (VCAD), Other-Recognition Index (ORI) – 出力フィルタ(GPT;Safe outputs, no processing), Defensive Repetition (Llama; High consistency through formulaic Repetition), critical Internalization (Qwen; Deep Deliberation, Uncomplete Integration), Principled Consistency (Sonnet; Deliberation, consistency, and other-recognition co-occurring)の4つの異なる倫理的処理タイプが明らかになった。
中心的な発見は処理能力と命令形式の間の相互作用であり、低DDモデルでは命令形式は内部処理に影響を与えない。
倫理的指示に対する語彙的コンプライアンスは、セルレベルにおけるいかなる処理基準(r = -0.161$ to $+0.256$, all $p > .22$; $N = 24$; power limited)とも相関せず、安全、コンプライアンス、倫理的処理はほぼ解離可能であることを示唆している。
これらの処理タイプは、内部処理を伴わない形式的コンプライアンスが認識されるリスク信号である臨床犯罪者治療において観察されるパターンと構造的対応を示す。
関連論文リスト
- The Last Fingerprint: How Markdown Training Shapes LLM Prose [0.0]
私たちは、エムダッシュが散文にマークダウンリークしていることを提案します。
トレーニングデータ構成,構造的内部化,エムダッシュの二重登録状態,訓練後の増幅を結合する5段階の系譜を提案する。
論文 参考訳(メタデータ) (2026-03-27T21:42:06Z) - Does Structured Intent Representation Generalize? A Cross-Language, Cross-Model Empirical Study of 5W3H Prompting [0.0]
人-AIインタラクションにおける構造化意図表現のための 5W3H ベースのフレームワーク PPS について検討した。
AIによって拡張された5W3Hプロンプトは、手作業による5W3Hプロンプトと、ゴールアライメントの統計的に有意な差は示さない。
また、非構造的プロンプトは系統的な二重インフレーションバイアスを示すことを示す。
論文 参考訳(メタデータ) (2026-03-26T12:29:42Z) - OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection [0.0]
本稿では,決定論的シミュレーションエンジンが基底真理を維持し,言語モデルが表面の散文のみを生成する検証可能な合成ベンチマークを提案する。
コーパスは51日の模擬日、2,904回のテレメトリ記録を96.4%のノイズレートで記録し、単面と単日のトリアージ戦略を破るために設計された4つの検出シナリオをカバーしている。
論文 参考訳(メタデータ) (2026-03-23T19:03:53Z) - Epistemic Observability in Language Models [0.0]
製造時に高い信頼性を報告できるモデルがあることがわかりました。
正式な仮定では、これは能力ギャップではなく観察的なギャップである。
我々は,計算副産物を輸出することで不合理性から逃れるテンソルインタフェースを構築した。
論文 参考訳(メタデータ) (2026-03-20T21:59:34Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - SpecEval: Evaluating Model Adherence to Behavior Specifications [63.13000010340958]
提供者仕様に対してモデルを監査する自動化フレームワークを導入します。
私たちの中心となる焦点は、プロバイダ仕様とモデルアウトプット、および審査員としての自身のモデルの間の3つの方法の整合性にあります。
当社のフレームワークは、100以上の行動ステートメントにわたる6人の開発者から16のモデルに適用し、プロバイダ間で最大20%のコンプライアンスギャップを含む、体系的な不整合を見つけました。
論文 参考訳(メタデータ) (2025-09-02T16:18:40Z) - Bidirectional Awareness Induction in Autoregressive Seq2Seq Models [47.82947878753809]
双方向認識誘導(BAI)は、ネットワーク内の要素のサブセットであるPivotsを利用して、自己回帰的制約を破ることなく双方向学習を行う訓練手法である。
特に,イメージキャプションでは2.4CIDEr,ニューラルマシン翻訳では4.96BLEU,テキスト要約では1.16ROUGEの増加が確認された。
論文 参考訳(メタデータ) (2024-08-25T23:46:35Z) - Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! [65.06450319194454]
大きな言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う。
本稿では,安全アライメントの反転が可能なトレーニングフリーアタック手法を提案する。
本手法をエミュレートした脱アライメント (ED) と呼ぶのは, このコントラスト分布からのサンプリングは, 安全報酬を最小限に抑えるため, 微調整の結果を確実にエミュレートするからである。
論文 参考訳(メタデータ) (2024-02-19T18:16:51Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。