論文の概要: A Stochastic Dynamical Theory of LLM Self-Adversariality: Modeling Severity Drift as a Critical Process
- arxiv url: http://arxiv.org/abs/2501.16783v1
- Date: Tue, 28 Jan 2025 08:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:42:36.050300
- Title: A Stochastic Dynamical Theory of LLM Self-Adversariality: Modeling Severity Drift as a Critical Process
- Title(参考訳): LLM自己逆性確率論的力学理論:臨界過程としての重度ドリフトのモデル化
- Authors: Jack David Carson,
- Abstract要約: 本稿では,大規模言語モデル(LLM)が自身のチェーン・オブ・シント推論を通じて,潜伏バイアスや毒性を自己増幅する方法を理解するための連続時間動的フレームワークを提案する。
このモデルは、微分方程式(SDE)の下で進化し、ドリフト項 $mu(x)$ と拡散 $sigma(x)$ の即時「重大」変数 $x(t) を仮定する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper introduces a continuous-time stochastic dynamical framework for understanding how large language models (LLMs) may self-amplify latent biases or toxicity through their own chain-of-thought reasoning. The model posits an instantaneous "severity" variable $x(t) \in [0,1]$ evolving under a stochastic differential equation (SDE) with a drift term $\mu(x)$ and diffusion $\sigma(x)$. Crucially, such a process can be consistently analyzed via the Fokker--Planck approach if each incremental step behaves nearly Markovian in severity space. The analysis investigates critical phenomena, showing that certain parameter regimes create phase transitions from subcritical (self-correcting) to supercritical (runaway severity). The paper derives stationary distributions, first-passage times to harmful thresholds, and scaling laws near critical points. Finally, it highlights implications for agents and extended LLM reasoning models: in principle, these equations might serve as a basis for formal verification of whether a model remains stable or propagates bias over repeated inferences.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)が自身のチェーン・オブ・シント推論を通じて潜在バイアスや毒性を自己増幅する方法を理解するための,連続時間確率動的フレームワークを提案する。
このモデルは、確率微分方程式 (SDE) の下で進化する即時的な「重大」変数 $x(t) \in [0,1]$ を、ドリフト項 $\mu(x)$ と拡散 $\sigma(x)$ で表す。
重要なことに、各増分ステップが重度空間においてほぼマルコヴィアンに振る舞うならば、そのような過程はフォッカー・プランクのアプローチによって一貫して解析することができる。
この分析は臨界現象を解析し、ある種のパラメータ構造が亜臨界(自己補正)から超臨界(脱走重大度)への相転移を生じさせることを示した。
本論文は, 定常分布, 第一通過時間から有害しきい値, 臨界点付近の法則のスケーリングを導出する。
最後に、エージェントと拡張LDM推論モデルへの含意を強調し、原則として、これらの方程式はモデルが安定であるか、繰り返し推論よりも偏見を伝播するかの正式な検証の基盤として機能する。
関連論文リスト
- Advancing Wasserstein Convergence Analysis of Score-Based Models: Insights from Discretization and Second-Order Acceleration [5.548787731232499]
スコアベース拡散モデルのワッサーシュタイン収束解析に着目する。
我々は、オイラー離散化、指数中点法、ランダム化法など、様々な離散化スキームを比較する。
局所線形化法に基づく加速型サンプリング器を提案する。
論文 参考訳(メタデータ) (2025-02-07T11:37:51Z) - Stochastic quantization and diffusion models [0.0]
本稿では,物理学における量子化と機械学習における拡散モデルとの関係について概説する。
機械学習の応用においては、デノナイジング拡散モデルが成功技術として確立されている。
本稿では,スコアベース生成モデルにおけるSDE手法について述べる。
論文 参考訳(メタデータ) (2024-11-18T05:47:41Z) - Non-asymptotic bounds for forward processes in denoising diffusions: Ornstein-Uhlenbeck is hard to beat [49.1574468325115]
本稿では,全変動(TV)における前方拡散誤差の非漸近的境界について述べる。
我々は、R$からFarthestモードまでの距離でマルチモーダルデータ分布をパラメライズし、加法的および乗法的雑音による前方拡散を考察する。
論文 参考訳(メタデータ) (2024-08-25T10:28:31Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - A Robustness Analysis of Blind Source Separation [91.3755431537592]
ブラインドソース分離(BSS)は、変換$f$が可逆であるが未知であるという条件の下で、その混合である$X=f(S)$から観測されていない信号を復元することを目的としている。
このような違反を分析し、その影響を$X$から$S$のブラインドリカバリに与える影響を定量化するための一般的なフレームワークを提案する。
定義された構造的仮定からの偏差に対する一般的なBSS溶出は、明示的な連続性保証という形で、利益的に分析可能であることを示す。
論文 参考訳(メタデータ) (2023-03-17T16:30:51Z) - Restoration-Degradation Beyond Linear Diffusions: A Non-Asymptotic
Analysis For DDIM-Type Samplers [90.45898746733397]
本研究では拡散生成モデルに用いる決定論的サンプリング器の非漸近解析のためのフレームワークを開発する。
確率フローODEに沿った1ステップは,1) 条件付き対数線上を無限に先行して上昇する回復ステップ,2) 雑音を現在の勾配に向けて前向きに進行する劣化ステップの2段階で表すことができる。
論文 参考訳(メタデータ) (2023-03-06T18:59:19Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Stochastic Langevin Differential Inclusions with Applications to Machine Learning [5.274477003588407]
ランゲヴィン型微分包含物の流動と性質に関する基礎的な結果を示す。
特に、解の存在が強く、また自由エネルギー関数の正準最小化が示される。
論文 参考訳(メタデータ) (2022-06-23T08:29:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。