論文の概要: Rule Encoding and Compliance in Large Language Models: An Information-Theoretic Analysis
- arxiv url: http://arxiv.org/abs/2510.05106v2
- Date: Thu, 09 Oct 2025 09:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.612491
- Title: Rule Encoding and Compliance in Large Language Models: An Information-Theoretic Analysis
- Title(参考訳): 大規模言語モデルにおけるルールエンコーディングとコンプライアンス:情報理論解析
- Authors: Joachim Diederich,
- Abstract要約: 大規模言語モデル(LLM)に基づく安全クリティカルエージェントの設計には、単純なプロンプトエンジニアリング以上のものが必要である。
本稿では,ルールエンコーディングが注意機構やコンプライアンス行動にどのように影響するかを包括的に情報理論で分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The design of safety-critical agents based on large language models (LLMs) requires more than simple prompt engineering. This paper presents a comprehensive information-theoretic analysis of how rule encodings in system prompts influence attention mechanisms and compliance behaviour. We demonstrate that rule formats with low syntactic entropy and highly concentrated anchors reduce attention entropy and improve pointer fidelity, but reveal a fundamental trade-off between anchor redundancy and attention entropy that previous work failed to recognize. Through formal analysis of multiple attention architectures including causal, bidirectional, local sparse, kernelized, and cross-attention mechanisms, we establish bounds on pointer fidelity and show how anchor placement strategies must account for competing fidelity and entropy objectives. Combining these insights with a dynamic rule verification architecture, we provide a formal proof that hot reloading of verified rule sets increases the asymptotic probability of compliant outputs. These findings underscore the necessity of principled anchor design and dual enforcement mechanisms to protect LLM-based agents against prompt injection attacks while maintaining compliance in evolving domains.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく安全クリティカルエージェントの設計には、単純なプロンプトエンジニアリング以上のものが必要である。
本稿では,ルールエンコーディングが注意機構やコンプライアンス行動にどのように影響するかを包括的に情報理論で分析する。
我々は,低構文エントロピーと高濃度アンカーによる規則形式が注意エントロピーを減少させ,ポインター忠実度を向上させることを実証するが,従来の作業では認識できなかったアンカー冗長性と注意エントロピーの基本的なトレードオフを明らかにする。
因果性, 双方向性, 局所スパース, カーネル化, クロスアテンション機構を含む複数注目アーキテクチャの形式的解析を通じて, ポインタの忠実性に限界を定め, アンカー配置戦略が競合する忠実性とエントロピーの目的にどう貢献するかを示す。
これらの知見と動的ルール検証アーキテクチャを組み合わせることで、検証されたルールセットのホットリロードが適合出力の漸近確率を増大させるという公式な証明を提供する。
これらの知見は、進化するドメインにおけるコンプライアンスを維持しつつ、LPMベースのエージェントを即時注入攻撃から保護するための原則的アンカー設計と二重強制機構の必要性を浮き彫りにした。
関連論文リスト
- Cognition-of-Thought Elicits Social-Aligned Reasoning in Large Language Models [28.161521810030976]
大きな言語モデル(LLM)は複雑な推論において優れているが、それでも有害な振る舞いを示すことができる。
本稿では,認知的自己監視ループにLCMを組み込んだ新しい復号時間フレームワークCooTを紹介する。
論文 参考訳(メタデータ) (2025-09-27T18:16:57Z) - RationAnomaly: Log Anomaly Detection with Rationality via Chain-of-Thought and Reinforcement Learning [27.235259453535537]
RationAnomalyは、Chain-of-Thoughtファインチューニングと強化学習を相乗化することにより、ログの異常検出を強化する新しいフレームワークである。
コードとデータセットを含む、対応するリソースをリリースしました。
論文 参考訳(メタデータ) (2025-09-18T07:35:58Z) - Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation [62.14692332209628]
インタラクション蒸留(Interaction Distillation)は、注意レベル最適化によるより適切な嗜好モデリングのための新しいトレーニングフレームワークである。
最先端のRM最適化法と比較して、より安定で一般化可能な報酬信号を提供する。
論文 参考訳(メタデータ) (2025-08-04T17:06:23Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Entropy-Guided Attention for Private LLMs [3.7802450241986945]
本稿では,デコーダのみの言語モデルにおける非線形性の役割を特徴付ける情報理論フレームワークを提案する。
シャノンのエントロピーを定量的な尺度として活用することにより、これまで探索されなかった非線形性の二重性を明らかにする。
本稿では,新しいエントロピー正規化手法と組み合わせたエントロピー誘導型アテンション機構を提案し,エントロピー過負荷を軽減する。
論文 参考訳(メタデータ) (2025-01-07T03:17:47Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。