論文の概要: Probabilistic Modeling of Latent Agentic Substructures in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2509.06701v1
- Date: Mon, 08 Sep 2025 13:55:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.17413
- Title: Probabilistic Modeling of Latent Agentic Substructures in Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークにおける潜在エージェントサブ構造の確率論的モデリング
- Authors: Su Hyeong Lee, Risi Kondor, Richard Ngo,
- Abstract要約: ニューラルモデルに対する確率論的モデリングに基づくインテリジェントエージェンシーの理論を開発する。
線形プールや連立結果空間では厳密な一様性は不可能であるが、3つ以上の結果が得られる。
- 参考スコア(独自算出の注目度): 7.4145864319417285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a theory of intelligent agency grounded in probabilistic modeling for neural models. Agents are represented as outcome distributions with epistemic utility given by log score, and compositions are defined through weighted logarithmic pooling that strictly improves every member's welfare. We prove that strict unanimity is impossible under linear pooling or in binary outcome spaces, but possible with three or more outcomes. Our framework admits recursive structure via cloning invariance, continuity, and openness, while tilt-based analysis rules out trivial duplication. Finally, we formalize an agentic alignment phenomenon in LLMs using our theory: eliciting a benevolent persona ("Luigi'") induces an antagonistic counterpart ("Waluigi"), while a manifest-then-suppress Waluigi strategy yields strictly larger first-order misalignment reduction than pure Luigi reinforcement alone. These results clarify how developing a principled mathematical framework for how subagents can coalesce into coherent higher-level entities provides novel implications for alignment in agentic AI systems.
- Abstract(参考訳): ニューラルモデルに対する確率論的モデリングに基づくインテリジェントエージェンシーの理論を開発する。
エージェントは、ログスコアによって与えられるてんかんの効用を持つ結果分布として表現され、構成は、すべてのメンバーの福祉を厳密に改善する重み付き対数プールによって定義される。
線形プールや連立結果空間では厳密な一様性は不可能であるが、3つ以上の結果が得られる。
我々のフレームワークは、クローン不変性、連続性、開放性を通じて再帰的構造を認め、傾きに基づく解析は自明な重複を除外する。
最後に, LLMにおけるエージェントアライメント現象を, 我々の理論を用いて定式化した: 善良な人物(「ルイージ」)を誘引することで, 対角的相手(「ワルイジ」)を誘導し, 一方, 顕在的に抑圧されたヴァルイージ戦略は, 純粋なルイージ強化単独よりも厳密な一階不整合を減少させる。
これらの結果は,エージェントAIシステムにおけるアライメントに新たな意味を与えるために,サブエージェントがコヒーレントな高レベルのエンティティに結合する方法についての,基本的な数学的枠組みの開発方法を明らかにする。
関連論文リスト
- On Multi-Step Theorem Prediction via Non-Parametric Structural Priors [50.16583672681106]
本研究では,インコンテキスト学習(ICL)のレンズによる学習自由な定理予測について検討する。
本稿では,過去の解の時間的依存関係を有向グラフとしてエンコードし,推論中に探索空間を効果的に引き起こす明示的なトポロジ的制約を課すTheorem Precedence Graphsを提案する。
FormalGeo7kベンチマークの実験から,本手法は89.29%の精度を実現し,ICLベースラインを著しく上回り,最先端の教師付きモデルに適合することがわかった。
論文 参考訳(メタデータ) (2026-03-05T06:08:50Z) - Conjugate Learning Theory: Uncovering the Mechanisms of Trainability and Generalization in Deep Neural Networks [0.0]
凸共役双対性に基づく共役学習理論フレームワークを開発し,この学習性特性を特徴付ける。
我々は,ミニバッチ降下(SGD)による深層ニューラルネットワーク(DNN)のトレーニングが,経験的リスクのグローバルな最適化を実現することを実証した。
条件付き一般化エントロピー測度に基づく一般化誤差に関する決定論的および確率的境界を導出する。
論文 参考訳(メタデータ) (2026-02-18T04:26:55Z) - Learning a Generative Meta-Model of LLM Activations [75.30161960337892]
ネットワークの内部状態の分布を学習する"メタモデル"を作成します。
ステアリング介入前に学んだメタモデルを適用することで、損失が減少するにつれて、流速が向上する。
これらの結果は、生成的メタモデルが制限的な構造的仮定を伴わずに、解釈可能性へのスケーラブルな経路を提供することを示唆している。
論文 参考訳(メタデータ) (2026-02-06T18:59:56Z) - Beyond the Black Box: Identifiable Interpretation and Control in Generative Models via Causal Minimality [52.57416398859353]
因果的最小性は、明確な因果的解釈と頑健でコンポーネント単位で識別可能な制御を持つ拡散視覚と自己回帰言語モデルの潜在表現を許容できることを示す。
我々は階層的選択モデルのための新しい理論的枠組みを導入し、より高レベルな概念は低レベルの変数の制約された構成から生まれる。
これらの因果的基礎を持つ概念は、きめ細かいモデルステアリングのレバーとして機能し、透明で信頼性の高いシステムへの道を開く。
論文 参考訳(メタデータ) (2025-12-11T14:59:14Z) - Exploring Syntropic Frameworks in AI Alignment: A Philosophical Investigation [0.0]
AIアライメントは、プロセスベース、マルチエージェント、開発メカニズムを通じて、シントロピックで理由対応のエージェントを設計するものとして再認識されるべきである、と私は主張する。
コンテンツベースの値仕様が構造的に不安定なように見える理由を示す、仕様トラップの議論を明確にする。
マルチエージェントアライメントのダイナミクスを理解するための情報理論の枠組みとして, シントロピーを提案する。
論文 参考訳(メタデータ) (2025-11-19T23:31:29Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Modeling GRNs with a Probabilistic Categorical Framework [6.929340252997961]
この研究は確率的カテゴリGRN(PC-GRN)フレームワークを導入している。
これは3つのコア方法論の相乗的統合に基づく新しい理論的アプローチである。
このフレームワークは、GRNの数学的に厳密で生物学的に解釈可能で不確実性を認識した表現を提供する。
論文 参考訳(メタデータ) (2025-08-16T14:06:53Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Parallelly Tempered Generative Adversarial Nets: Toward Stabilized Gradients [7.94957965474334]
生成的敵対ネットワーク(GAN)は、生成的人工知能(AI)における代表的バックボーンモデルである。
本研究は,モード崩壊の存在下でのトレーニングの不安定性と非効率性を,対象分布におけるマルチモーダルにリンクすることで解析する。
新たに開発したGAN目標関数により, 生成元は同時に全ての誘電分布を学習することができる。
論文 参考訳(メタデータ) (2024-11-18T18:01:13Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Finding Alignments Between Interpretable Causal Variables and
Distributed Neural Representations [62.65877150123775]
因果抽象化は、説明可能な人工知能のための有望な理論的枠組みである。
既存の因果抽象法では、高レベルモデルと低レベルモデルの間のアライメントをブルートフォースで探索する必要がある。
これらの制約を克服する分散アライメントサーチ(DAS)を提案する。
論文 参考訳(メタデータ) (2023-03-05T00:57:49Z) - Generalization Properties of Optimal Transport GANs with Latent
Distribution Learning [52.25145141639159]
本研究では,潜伏分布とプッシュフォワードマップの複雑さの相互作用が性能に与える影響について検討する。
我々の分析に感銘を受けて、我々はGANパラダイム内での潜伏分布とプッシュフォワードマップの学習を提唱した。
論文 参考訳(メタデータ) (2020-07-29T07:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。