論文の概要: Embedded Safety-Aligned Intelligence via Differentiable Internal Alignment Embeddings
- arxiv url: http://arxiv.org/abs/2512.18309v1
- Date: Sat, 20 Dec 2025 10:42:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.281337
- Title: Embedded Safety-Aligned Intelligence via Differentiable Internal Alignment Embeddings
- Title(参考訳): 異種内部配向埋め込みによる組込み安全情報
- Authors: Harsh Rathva, Ojas Srivastava, Pruthwik Mishra,
- Abstract要約: マルチエージェント強化学習のための理論的枠組みである Embedded Safety-Aligned Intelligence (ESAI) を紹介する。
ESAIはアライメントの制約を直接エージェントの内部表現に埋め込む。
この研究は、ESAIをマルチエージェントシステムにおける微分可能なアライメント機構への概念的寄与として位置づけている。
- 参考スコア(独自算出の注目度): 1.9472752597752354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Embedded Safety-Aligned Intelligence (ESAI), a theoretical framework for multi-agent reinforcement learning that embeds alignment constraints directly into agents internal representations using differentiable internal alignment embeddings. Unlike external reward shaping or post-hoc safety constraints, internal alignment embeddings are learned latent variables that predict externalized harm through counterfactual reasoning and modulate policy updates toward harm reduction through attention and graph-based propagation. The ESAI framework integrates four mechanisms: differentiable counterfactual alignment penalties computed from soft reference distributions, alignment-weighted perceptual attention, Hebbian associative memory supporting temporal credit assignment, and similarity-weighted graph diffusion with bias mitigation controls. We analyze stability conditions for bounded internal embeddings under Lipschitz continuity and spectral constraints, discuss computational complexity, and examine theoretical properties including contraction behavior and fairness-performance tradeoffs. This work positions ESAI as a conceptual contribution to differentiable alignment mechanisms in multi-agent systems. We identify open theoretical questions regarding convergence guarantees, embedding dimensionality, and extension to high-dimensional environments. Empirical evaluation is left to future work.
- Abstract(参考訳): 本研究では,多エージェント強化学習のための理論的フレームワークである Embedded Safety-Aligned Intelligence (ESAI) を紹介する。
外部報酬形成やポストホック安全制約とは異なり、内部アライメント埋め込みは、反ファクト推論を通じて外部害を予測する潜伏変数を学習し、注意とグラフベースの伝播による害軽減に向けてポリシー更新を変調する。
ESAIフレームワークは、4つのメカニズムを統合する: ソフトリファレンス分布から計算される微分反ファクトアライメントペナルティ、アライメント重み付き知覚的注意、時間的クレジット割り当てをサポートするヘビアン連想記憶、バイアス緩和制御による類似性重み付きグラフ拡散。
リプシッツ連続性とスペクトル制約下での有界な内部埋め込みの安定性条件を解析し、計算複雑性について議論し、収縮挙動やフェアネス・パフォーマンストレードオフを含む理論的性質を考察する。
この研究は、ESAIをマルチエージェントシステムにおける微分可能なアライメント機構への概念的寄与として位置づけている。
我々は,収束保証,埋め込み次元,高次元環境への拡張に関するオープンな理論的疑問を同定する。
将来の仕事には実証的な評価が残されている。
関連論文リスト
- Quantum deliberating machines [0.0]
我々は、内部で自己参照的な検討が可能な量子物理デバイスの玩具モデルを導入・分析する。
我々は、量子回路の明示的な実現を行い、絡み合った制御-メモリ-システム-政治力学のステップバイステップの導出を行う。
分類学的・制御されたスティンスプリングの改革と,その概念的意味を簡潔に論じる。
論文 参考訳(メタデータ) (2025-09-09T17:20:17Z) - ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - Let's Measure Information Step-by-Step: LLM-Based Evaluation Beyond Vibes [14.371259136517802]
戦略ゲームと情報損失の関連性を利用して, 根拠のないAIシステムの堅牢性について検討する。
我々は,情報理論のメカニズムが対向境界に抵抗するかを解析し,有限サンプル操作を拡張して,有界f-分岐系が攻撃下で維持されることを示す。
論文 参考訳(メタデータ) (2025-08-07T15:11:43Z) - Re-Emergent Misalignment: How Narrow Fine-Tuning Erodes Safety Alignment in LLMs [0.0]
安全でないコードに対する微調整は、アライメントに反する内部的な変更を誘発することを示す。
我々は、アライメントの振る舞いを管理するモデルの活性化空間における共有潜在次元を同定する。
論文 参考訳(メタデータ) (2025-07-04T15:36:58Z) - Multi-Scale Manifold Alignment for Interpreting Large Language Models: A Unified Information-Geometric Framework [4.935224714809964]
我々は,LLM表現を局所的,中間的,大域的多様体に分解する情報幾何学的フレームワークであるマルチスケールマニフォールドアライメント(MSMA)を提案する。
我々は一貫した階層パターンを観察し、MSMAが複数の推定値の下でアライメントの指標を改善することを発見した。
異なるスケールでの制御された介入は、語彙の多様性、文構造、談話のコヒーレンスに区別され、アーキテクチャに依存した効果をもたらす。
論文 参考訳(メタデータ) (2025-05-24T10:25:58Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。
本研究では,不信感関連FFNの活性化を抑制することにより,文脈的忠実度を向上させるフレームワークであるParametric Knowledge Mutingを提案する。
実験結果から,ParamMuteはCoFaithfulQAと確立されたConFiQAベンチマークの両方の信頼度を大幅に向上し,パラメトリックメモリへの依存度を大幅に低下させることが示された。
論文 参考訳(メタデータ) (2025-02-21T15:50:41Z) - Calibrating Reasoning in Language Models with Internal Consistency [18.24350001344488]
大規模言語モデル(LLM)は、様々な推論タスクにおいて印象的な機能を示している。
LLMは、しばしば明らかな誤りと矛盾のあるテキストを生成する。
本研究では,LLMにおける内部表現のレンズによる推論について検討する。
論文 参考訳(メタデータ) (2024-05-29T02:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。