論文の概要: The Anti-Ouroboros Effect: Emergent Resilience in Large Language Models from Recursive Selective Feedback
- arxiv url: http://arxiv.org/abs/2509.10509v1
- Date: Tue, 02 Sep 2025 05:46:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 06:05:45.765327
- Title: The Anti-Ouroboros Effect: Emergent Resilience in Large Language Models from Recursive Selective Feedback
- Title(参考訳): 反オーロボロ効果:再帰的選択フィードバックによる大規模言語モデルの創発的レジリエンス
- Authors: Sai Teja Reddy Adapala,
- Abstract要約: 大規模言語モデルの安定性を向上させるための選択的なフィードバック機構を導入する。
我々はこの現象をアンチ・オーロボロ効果(Anti-Ouroboros effect)と呼ぶ。
本研究は, 単純選択圧下でのLLMの創発的特性として, システムレジリエンスが有効であることが確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The stability of recursively trained large language models (LLMs) is a foundational problem for AI safety. Prevailing theory predicts model collapse, a progressive degradation when models are trained on their own output. We challenge this narrative by introducing a selective feedback mechanism. Contrary to expectation, instead of merely slowing decay, our experiments provide strong evidence that this pressure reverses it, inducing a statistically significant performance improvement in a Gemma 2B model on a complex summarization task. We name this phenomenon the Anti-Ouroboros Effect. We contrast this with a foundational experiment using a simple classifier, where the theoretical degenerative loop was validated, highlighting the unique dynamics of high-dimensional models. Our findings establish that systemic resilience can be an emergent property of LLMs under simple selection pressure, suggesting a powerful and scalable principle for developing safer and more robust AI systems. Across five generations, a quality-filtered condition improved by 6.6% in ROUGE-L F1 score, whereas an unfiltered control degraded by 3.5% and a random-filter control degraded by 4.2%
- Abstract(参考訳): 再帰的に訓練された大規模言語モデル(LLM)の安定性は、AI安全性の基本的な問題である。
一般的な理論はモデル崩壊を予測し、モデルが自身の出力で訓練されるときの漸進的な劣化を予測している。
選択的なフィードバック機構を導入することで、この物語に挑戦する。
予測とは対照的に、この実験は単に崩壊を遅らせるのではなく、この圧力が逆になるという強い証拠を与え、複雑な要約タスク上のGemma 2Bモデルにおいて統計的に有意な性能改善をもたらす。
我々はこの現象をアンチ・オーロボロ効果(Anti-Ouroboros effect)と呼ぶ。
これとは対照的に、単純な分類器を用いた基礎実験では、理論的退化ループが検証され、高次元モデルの特異なダイナミクスが強調される。
以上の結果から,システムレジリエンスは単純な選択圧下でのLCMの創発的特性であり,より安全で堅牢なAIシステムを開発する上で,強力でスケーラブルな原理であることが示唆された。
5世代にわたって、ROUGE-L F1スコアでは品質フィルタ状態が6.6%改善し、未フィルタ制御は3.5%低下し、ランダムフィルタ制御は4.2%低下した。
関連論文リスト
- The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [58.559544190947584]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning [12.83211408922535]
強化学習スタイルのポストトレーニングは、報酬や選好信号に基づいてモデル出力を最適化することで推論を改善する。
GRPOスタイルのアプローチでは、結果ベースの検証によってラベル付けされた自己生成サンプルを使用することでこれを実装している。
提案手法は, 基本的回答を条件に, 単純でモジュール化されたフレームワークである。
論文 参考訳(メタデータ) (2025-07-03T17:44:55Z) - More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。
我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。
選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文 参考訳(メタデータ) (2025-04-03T00:36:40Z) - Evolving LLMs' Self-Refinement Capability via Iterative Preference Optimization [35.807318314766974]
EVOLVEは、好みのトレーニングと自己修正データ収集を統合する新しいフレームワークである。
GSM8KやMATHのような数学的推論タスクのパフォーマンスを継続的に向上させる。
論文 参考訳(メタデータ) (2025-02-08T15:21:55Z) - Robust VAEs via Generating Process of Noise Augmented Data [9.366139389037489]
本稿では,原データと雑音増大データ間の潜時空間のばらつきを規則化し,ロバスト性を高める新しい枠組みを提案する。
実験により,ロバスト拡張変分オートエンコーダ(RAVEN)と呼ばれるこの手法は,対向入力に対して優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2024-07-26T09:55:34Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z) - Voting based ensemble improves robustness of defensive models [82.70303474487105]
我々は、より堅牢性を高めるためのアンサンブルを作ることができるかどうか研究する。
最先端の先制防衛モデルを複数組み合わせることで,59.8%の堅牢な精度を達成できる。
論文 参考訳(メタデータ) (2020-11-28T00:08:45Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。