論文の概要: Perturbation Dose Responses in Recursive LLM Loops: Raw Switching, Stochastic Floors, and Persistent Escape under Append, Replace, and Dialog Updates
- arxiv url: http://arxiv.org/abs/2605.02236v1
- Date: Mon, 04 May 2026 05:16:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.146275
- Title: Perturbation Dose Responses in Recursive LLM Loops: Raw Switching, Stochastic Floors, and Persistent Escape under Append, Replace, and Dialog Updates
- Title(参考訳): 再帰的LLMループにおける摂動線量応答:順応・置換・ダイアログ更新時の生スイッチング, 確率床, 永続エスケープ
- Authors: Pawel Kaplanski,
- Abstract要約: 帰納的な言語モデルループは、しばしば認識可能なアトラクションのようなパターンに落ち着く。
我々は、他のどこかで落ち着いたループを動かすのに、注入されたテキストがどれだけ必要か、そしてそれが継続するかどうかを調査する。
均質な摂動制御は、目的地-コヒーレント永続性において高線量非単調ディップを再現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recursive language-model loops often settle into recognizable attractor-like patterns. The practical question is how much injected text is needed to move a settled loop somewhere else, and whether that move lasts. We study this in 30-step recursive loops by separating the model from the context-update rule: append, replace, and dialog updates expose different histories to the same generator. The main result is that persistent redirection in append-mode recursive loops is memory-policy-conditioned. Under a 12,000-character tail clip, destination-coherent persistence plateaus near 16 percent and retained source-basin escape near 36 percent at dose 400; neither crosses 50 percent. Under a full-history protocol, retained source-basin escape crosses 50 percent near 400 tokens and saturates at 75-80 percent by 1,500 tokens, while destination-coherent persistence first reaches 0.50 near 1,500 tokens with a Wilson 95 percent CI of [0.41, 0.61]. For raw switching, adversarial continuations yield an ED50 near 40 tokens, with paired-control floors near 35 percent and net switching never reaching +50 percentage points within 5-400 tokens. Replace-mode raw switching is near-saturated but largely reflects state-reset overwrite: insert-mode probes drop it to 12-32 percent. A homogeneous-perturbation control reproduced the high-dose non-monotonic dip in destination-coherent persistence, refuting perturbation heterogeneity as the cause; the dip appears structural, with mechanism unresolved. We report 37 experiments on gpt-4o-mini with within-vendor replication on gpt-4.1-nano. Recursive-loop evaluations should distinguish transient movement from durable escape, subtract stochastic floors, and treat context-update rules as first-class safety-relevant design choices.
- Abstract(参考訳): 再帰的な言語モデルループは、しばしば認識可能なアトラクションのようなパターンに落ち着く。
現実的な疑問は、落ち着いたループを他のどこかに移すのに、どの程度のインジェクトテキストが必要か、そしてそれが継続するかどうかである。
これを30ステップの再帰ループで研究し、モデルとコンテキスト更新ルールを区別する:追加、置換、ダイアログ更新は、異なる履歴を同じジェネレータに公開する。
主な結果は、追加モードの再帰ループにおける永続的なリダイレクトは、メモリポリシー条件である。
12,000文字の尾クリップの下では、目的地のコヒーレントな持続性台地は16%近くあり、ソース・バスンの脱出は400回で36%近くであり、どちらも50%を超えない。
フルヒストリープロトコルの下では、ソースベースエスケープは400トークンの50%近くを横切り、1500トークンの75~80%で飽和する一方、宛先コヒーレント永続性は最初、1500トークン近くの0.50に到達し、Wilson 95%CIは[0.41, 0.61]である。
生のスイッチングでは、敵の継続は40トークン近くでED50となり、ペアコントロールフロアは35%近く、ネットスイッチングは5-400トークン内で50ポイント以上に達することはない。
置換モードの生のスイッチングは、ほぼ飽和しているが、ほとんどは状態リセットのオーバーライトを反映している。
均質な摂動制御は、目的地のコヒーレントな持続性において高線量非単調なディップを再現し、不均一な摂動を原因として、ジップは構造的であり、機構は未解決である。
我々は gpt-4.1-nano 上での gpt-4o-mini の再現実験を37回報告した。
Recursive-loop 評価では,永続的エスケープからの過渡移動,確率的フロアの抽出,コンテキスト更新ルールを第1級安全関連設計選択として扱う必要がある。
関連論文リスト
- Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning [0.0]
本研究では,SudokuExtreme上の単一ブロックユニバーサルトランス (UT) のスクラッチパッドとして学習したメモリトークンについて検討した。
メモリトークンは、テストされたすべての構成で、メモリトークンのない構成は、非自明なパフォーマンスです。
論文 参考訳(メタデータ) (2026-04-23T18:30:01Z) - Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation [0.0]
自己回帰言語モデルにおける幻覚は非対称的な誘引力学によって制御される。
高速分岐法を用いて、軌道力学をインパルスレベルから分離する。
論文 参考訳(メタデータ) (2026-04-16T12:16:53Z) - CAWN: Continuous Acoustic Wave Networks for Autoregressive Language Modeling [46.16066322190728]
完全連続配列混合アーキテクチャであるCAWN(Continuous Acoustic Wave Network)を導入する。
CAWNは離散行列ベースの注意を代わりに、多面体複素ドメインファサーに隠された状態を計画している。
超長コンテキスト上での信号劣化を防止するため,デュアルゲート選択位相共振機構を導入する。
論文 参考訳(メタデータ) (2026-04-05T20:13:22Z) - APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - Rejection Mixing: Fast Semantic Propagation of Mask Tokens for Efficient DLLM Inference [58.189320101488725]
DLLMは高速な非自己回帰推論を約束するが、並列デコーディングにおいて厳しい品質と速度のトレードオフを被る。
我々は、連続表現を離散デコードプロセスに統合することでこの問題に対処する。
本稿では,初期マスキング状態と最終復号化トークン状態の中間として,新しい連続混合状態を導入するフレームワークであるReMixを提案する。
論文 参考訳(メタデータ) (2026-02-26T11:08:11Z) - Residual Context Diffusion Language Models [90.07635240595926]
Residual Context Diffusion (RCD) は、捨てられたトークン表現をコンテキスト残留に変換し、次のデノイングステップでそれらを注入するモジュールである。
RCDは、最小限の計算オーバーヘッドで、5-10ポイントの精度でフロンティアdLLMを一貫して改善する。
論文 参考訳(メタデータ) (2026-01-30T13:16:32Z) - Lookahead Tree-Based Rollouts for Enhanced Trajectory-Level Exploration in Reinforcement Learning with Verifiable Rewards [48.321707628011005]
Lookahead Tree-Based Rollouts (LATR) は、軌道レベルの多様性を明確に促進するために設計された新しいロールアウト戦略である。
LATRはポリシー学習を平均で131%加速し、最終パス@1パフォーマンスを4.2%向上させる。
論文 参考訳(メタデータ) (2025-10-28T11:12:02Z) - Ensemble Threshold Calibration for Stable Sensitivity Control [0.0]
本稿では,数千万組の幾何対もの幾何に対して,過度に分散した正確なリコールを実現するエンド・ツー・エンドのフレームワークを提案する。
我々のアプローチは、小さなエラーで常にリコールターゲットにヒットし、他のキャリブレーションと比較して冗長な検証を減らし、単一のTPU v3コア上でエンドツーエンドで実行します。
論文 参考訳(メタデータ) (2025-10-02T15:22:28Z) - Retrosynthetic Planning with Dual Value Networks [107.97218669277913]
我々は、PDVN(Planning with Dual Value Networks)と呼ばれる新しいオンライントレーニングアルゴリズムを提案する。
PDVNは計画段階と更新段階を交互に行い、分子の合成性とコストを予測する。
広く使われているUSPTOデータセットでは、PDVNアルゴリズムが既存のマルチステッププランナの探索成功率を改善する。
論文 参考訳(メタデータ) (2023-01-31T16:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。