論文の概要: The Anti-Ouroboros Effect: Emergent Resilience in Large Language Models from Recursive Selective Feedback
- arxiv url: http://arxiv.org/abs/2509.10509v1
- Date: Tue, 02 Sep 2025 05:46:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 06:05:45.765327
- Title: The Anti-Ouroboros Effect: Emergent Resilience in Large Language Models from Recursive Selective Feedback
- Title(参考訳): 反オーロボロ効果:再帰的選択フィードバックによる大規模言語モデルの創発的レジリエンス
- Authors: Sai Teja Reddy Adapala,
- Abstract要約: 大規模言語モデルの安定性を向上させるための選択的なフィードバック機構を導入する。
我々はこの現象をアンチ・オーロボロ効果(Anti-Ouroboros effect)と呼ぶ。
本研究は, 単純選択圧下でのLLMの創発的特性として, システムレジリエンスが有効であることが確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The stability of recursively trained large language models (LLMs) is a foundational problem for AI safety. Prevailing theory predicts model collapse, a progressive degradation when models are trained on their own output. We challenge this narrative by introducing a selective feedback mechanism. Contrary to expectation, instead of merely slowing decay, our experiments provide strong evidence that this pressure reverses it, inducing a statistically significant performance improvement in a Gemma 2B model on a complex summarization task. We name this phenomenon the Anti-Ouroboros Effect. We contrast this with a foundational experiment using a simple classifier, where the theoretical degenerative loop was validated, highlighting the unique dynamics of high-dimensional models. Our findings establish that systemic resilience can be an emergent property of LLMs under simple selection pressure, suggesting a powerful and scalable principle for developing safer and more robust AI systems. Across five generations, a quality-filtered condition improved by 6.6% in ROUGE-L F1 score, whereas an unfiltered control degraded by 3.5% and a random-filter control degraded by 4.2%
- Abstract(参考訳): 再帰的に訓練された大規模言語モデル(LLM)の安定性は、AI安全性の基本的な問題である。
一般的な理論はモデル崩壊を予測し、モデルが自身の出力で訓練されるときの漸進的な劣化を予測している。
選択的なフィードバック機構を導入することで、この物語に挑戦する。
予測とは対照的に、この実験は単に崩壊を遅らせるのではなく、この圧力が逆になるという強い証拠を与え、複雑な要約タスク上のGemma 2Bモデルにおいて統計的に有意な性能改善をもたらす。
我々はこの現象をアンチ・オーロボロ効果(Anti-Ouroboros effect)と呼ぶ。
これとは対照的に、単純な分類器を用いた基礎実験では、理論的退化ループが検証され、高次元モデルの特異なダイナミクスが強調される。
以上の結果から,システムレジリエンスは単純な選択圧下でのLCMの創発的特性であり,より安全で堅牢なAIシステムを開発する上で,強力でスケーラブルな原理であることが示唆された。
5世代にわたって、ROUGE-L F1スコアでは品質フィルタ状態が6.6%改善し、未フィルタ制御は3.5%低下し、ランダムフィルタ制御は4.2%低下した。
関連論文リスト
- Amortized Reasoning Tree Search: Decoupling Proposal and Decision in Large Language Models [2.5170433424424874]
Reinforcement Learning with Verifiable Rewardsは、大規模言語モデルにおける厳格な推論能力を取り入れるための支配的なパラダイムとして、自らを確立している。
このアライメントプロセスにおいて重要な病理は、有効だが稀な(ベースモデル分布下での低様相)推論経路の体系的抑制である。
本稿では,ベースモデルの潜伏多様性を捨てることなく,この崩壊を防止すべく,ARTS(Amortized Reasoning Tree Search)を提案する。
論文 参考訳(メタデータ) (2026-02-13T11:52:50Z) - Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities [10.235183326885794]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。
我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。
提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:06:55Z) - M-GRPO: Stabilizing Self-Supervised Reinforcement Learning for Large Language Models with Momentum-Anchored Policy Optimization [9.358876832727239]
自己教師付き強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための有望なアプローチを示す
従来の手法では,長期のトレーニングにおいて,パフォーマンスが急激に低下する「政治崩壊」という,致命的な障害モードに悩まされていることがわかった。
我々は、ゆっくりと進化する運動量モデルを利用して安定したトレーニングターゲットを提供するフレームワークであるM-GRPOを紹介する。
また,低エントロピートラジェクトリを動的に振る舞うIQR(Interquartile Range)に基づく適応フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2025-12-15T08:07:23Z) - Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing [70.35701681177655]
自己改善は、大きな視覚言語モデルの推論能力を向上するための主流パラダイムとして現れてきた。
本研究では,探索学習による自己改善プロセスにおいて,頭部再バランスを実現するための4つの効率的な戦略を提案する。
我々の手法は視覚的推論能力を常に改善し、バニラ自己改善を平均3.86ポイント上回る。
論文 参考訳(メタデータ) (2025-10-30T13:26:58Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [58.559544190947584]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - One Token to Fool LLM-as-a-Judge [52.45386385722788]
大規模言語モデル(LLM)は、自動化された審査員としてますます信頼され、評価を支援し、他のモデルを訓練するための報酬信号を提供する。
生成的報酬モデルは、ハッキングに対して体系的に影響を受けやすい。
論文 参考訳(メタデータ) (2025-07-11T17:55:22Z) - ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning [12.83211408922535]
強化学習スタイルのポストトレーニングは、報酬や選好信号に基づいてモデル出力を最適化することで推論を改善する。
GRPOスタイルのアプローチでは、結果ベースの検証によってラベル付けされた自己生成サンプルを使用することでこれを実装している。
提案手法は, 基本的回答を条件に, 単純でモジュール化されたフレームワークである。
論文 参考訳(メタデータ) (2025-07-03T17:44:55Z) - More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。
我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。
選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文 参考訳(メタデータ) (2025-04-03T00:36:40Z) - Evolving LLMs' Self-Refinement Capability via Iterative Preference Optimization [35.807318314766974]
EVOLVEは、好みのトレーニングと自己修正データ収集を統合する新しいフレームワークである。
GSM8KやMATHのような数学的推論タスクのパフォーマンスを継続的に向上させる。
論文 参考訳(メタデータ) (2025-02-08T15:21:55Z) - Robust VAEs via Generating Process of Noise Augmented Data [9.366139389037489]
本稿では,原データと雑音増大データ間の潜時空間のばらつきを規則化し,ロバスト性を高める新しい枠組みを提案する。
実験により,ロバスト拡張変分オートエンコーダ(RAVEN)と呼ばれるこの手法は,対向入力に対して優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2024-07-26T09:55:34Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z) - Voting based ensemble improves robustness of defensive models [82.70303474487105]
我々は、より堅牢性を高めるためのアンサンブルを作ることができるかどうか研究する。
最先端の先制防衛モデルを複数組み合わせることで,59.8%の堅牢な精度を達成できる。
論文 参考訳(メタデータ) (2020-11-28T00:08:45Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。