論文の概要: Probabilistic Modeling of Latent Agentic Substructures in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2509.06701v1
- Date: Mon, 08 Sep 2025 13:55:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.17413
- Title: Probabilistic Modeling of Latent Agentic Substructures in Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークにおける潜在エージェントサブ構造の確率論的モデリング
- Authors: Su Hyeong Lee, Risi Kondor, Richard Ngo,
- Abstract要約: ニューラルモデルに対する確率論的モデリングに基づくインテリジェントエージェンシーの理論を開発する。
線形プールや連立結果空間では厳密な一様性は不可能であるが、3つ以上の結果が得られる。
- 参考スコア(独自算出の注目度): 7.4145864319417285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a theory of intelligent agency grounded in probabilistic modeling for neural models. Agents are represented as outcome distributions with epistemic utility given by log score, and compositions are defined through weighted logarithmic pooling that strictly improves every member's welfare. We prove that strict unanimity is impossible under linear pooling or in binary outcome spaces, but possible with three or more outcomes. Our framework admits recursive structure via cloning invariance, continuity, and openness, while tilt-based analysis rules out trivial duplication. Finally, we formalize an agentic alignment phenomenon in LLMs using our theory: eliciting a benevolent persona ("Luigi'") induces an antagonistic counterpart ("Waluigi"), while a manifest-then-suppress Waluigi strategy yields strictly larger first-order misalignment reduction than pure Luigi reinforcement alone. These results clarify how developing a principled mathematical framework for how subagents can coalesce into coherent higher-level entities provides novel implications for alignment in agentic AI systems.
- Abstract(参考訳): ニューラルモデルに対する確率論的モデリングに基づくインテリジェントエージェンシーの理論を開発する。
エージェントは、ログスコアによって与えられるてんかんの効用を持つ結果分布として表現され、構成は、すべてのメンバーの福祉を厳密に改善する重み付き対数プールによって定義される。
線形プールや連立結果空間では厳密な一様性は不可能であるが、3つ以上の結果が得られる。
我々のフレームワークは、クローン不変性、連続性、開放性を通じて再帰的構造を認め、傾きに基づく解析は自明な重複を除外する。
最後に, LLMにおけるエージェントアライメント現象を, 我々の理論を用いて定式化した: 善良な人物(「ルイージ」)を誘引することで, 対角的相手(「ワルイジ」)を誘導し, 一方, 顕在的に抑圧されたヴァルイージ戦略は, 純粋なルイージ強化単独よりも厳密な一階不整合を減少させる。
これらの結果は,エージェントAIシステムにおけるアライメントに新たな意味を与えるために,サブエージェントがコヒーレントな高レベルのエンティティに結合する方法についての,基本的な数学的枠組みの開発方法を明らかにする。
関連論文リスト
- I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Parallelly Tempered Generative Adversarial Nets: Toward Stabilized Gradients [7.94957965474334]
生成的敵対ネットワーク(GAN)は、生成的人工知能(AI)における代表的バックボーンモデルである。
本研究は,モード崩壊の存在下でのトレーニングの不安定性と非効率性を,対象分布におけるマルチモーダルにリンクすることで解析する。
新たに開発したGAN目標関数により, 生成元は同時に全ての誘電分布を学習することができる。
論文 参考訳(メタデータ) (2024-11-18T18:01:13Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Finding Alignments Between Interpretable Causal Variables and
Distributed Neural Representations [62.65877150123775]
因果抽象化は、説明可能な人工知能のための有望な理論的枠組みである。
既存の因果抽象法では、高レベルモデルと低レベルモデルの間のアライメントをブルートフォースで探索する必要がある。
これらの制約を克服する分散アライメントサーチ(DAS)を提案する。
論文 参考訳(メタデータ) (2023-03-05T00:57:49Z) - Generalization Properties of Optimal Transport GANs with Latent
Distribution Learning [52.25145141639159]
本研究では,潜伏分布とプッシュフォワードマップの複雑さの相互作用が性能に与える影響について検討する。
我々の分析に感銘を受けて、我々はGANパラダイム内での潜伏分布とプッシュフォワードマップの学習を提唱した。
論文 参考訳(メタデータ) (2020-07-29T07:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。