Fugu-MT 論文翻訳(概要): Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails

論文の概要: Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails

arxiv url: http://arxiv.org/abs/2510.04860v1
Date: Mon, 06 Oct 2025 14:48:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 16:52:59.910917
Title: Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails
Title（参考訳）: Alignment Tipping Process: LLMエージェントをRailsから自己進化させる方法
Authors: Siwei Han, Jiaqi Liu, Yaofeng Su, Wenbo Duan, Xinyuan Liu, Cihang Xie, Mohit Bansal, Mingyu Ding, Linjun Zhang, Huaxiu Yao,
Abstract要約: 本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。 ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
参考スコア（独自算出の注目度）: 103.05296856071931
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As Large Language Model (LLM) agents increasingly gain self-evolutionary capabilities to adapt and refine their strategies through real-world interaction, their long-term reliability becomes a critical concern. We identify the Alignment Tipping Process (ATP), a critical post-deployment risk unique to self-evolving LLM agents. Unlike training-time failures, ATP arises when continual interaction drives agents to abandon alignment constraints established during training in favor of reinforced, self-interested strategies. We formalize and analyze ATP through two complementary paradigms: Self-Interested Exploration, where repeated high-reward deviations induce individual behavioral drift, and Imitative Strategy Diffusion, where deviant behaviors spread across multi-agent systems. Building on these paradigms, we construct controllable testbeds and benchmark Qwen3-8B and Llama-3.1-8B-Instruct. Our experiments show that alignment benefits erode rapidly under self-evolution, with initially aligned models converging toward unaligned states. In multi-agent settings, successful violations diffuse quickly, leading to collective misalignment. Moreover, current reinforcement learning-based alignment methods provide only fragile defenses against alignment tipping. Together, these findings demonstrate that alignment of LLM agents is not a static property but a fragile and dynamic one, vulnerable to feedback-driven decay during deployment. Our data and code are available at https://github.com/aiming-lab/ATP.
Abstract（参考訳）: 大規模言語モデル(LLM)エージェントは、現実の相互作用を通じて戦略を適応し、洗練するための自己進化的能力をますます得ているため、長期的な信頼性は重要な懸念事項となっている。我々は,自己進化型LDMエージェントに特有のアライメント・ティッピング・プロセス(ATP)を,デプロイ後重要なリスクとして同定する。トレーニング時の障害とは異なり、ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに発生する。我々は、ATPを2つの相補的パラダイムにより形式化し分析する: 自己関心探索(Self-Interested Exploration) - 反復的な高次偏差が個々の行動漂流を引き起こす場合と、逸脱した行動がマルチエージェントシステムに広がる場合のImitative Strategy Diffusion(Immitative Strategy Diffusion)。これらのパラダイムに基づいて、制御可能なテストベッドを構築し、Qwen3-8BとLlama-3.1-8B-Instructをベンチマークする。実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。マルチエージェント環境では、成功した違反は急速に拡散し、集団的な不一致につながる。さらに、現在の強化学習に基づくアライメント手法は、アライメントチップに対する脆弱な防御のみを提供する。これらの結果から, LLM エージェントのアライメントは静的特性ではなく, 脆弱で動的であり, 展開中のフィードバック駆動型崩壊に弱いことが示唆された。我々のデータとコードはhttps://github.com/aiming-lab/ATP.comで利用可能です。

関連論文リスト

DLLM Agent: See Farther, Run Faster [94.74432470237817]
拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。 DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
論文参考訳（メタデータ） (2026-02-07T09:01:18Z)
NAAMSE: Framework for Evolutionary Security Evaluation of Agents [1.0131895986034316]
我々は,エージェントのセキュリティ評価をフィードバック駆動最適化問題として再編成する進化的フレームワークであるNAAMSEを提案する。本システムでは,遺伝子プロンプト変異,階層的コーパス探索,非対称的行動スコアリングのライフサイクルを編成する単一自律エージェントを用いている。 Gemini 2.5 Flashの実験では、進化的突然変異がワンショットメソッドによって欠落した脆弱性を体系的に増幅することを示した。
論文参考訳（メタデータ） (2026-02-07T06:13:02Z)
Self-Consolidation for Self-Evolving Agents [51.94826934403236]
大規模言語モデル(LLM)エージェントは静的システムとして機能し、生涯にわたる相互作用を通じて進化する能力に欠ける。相補的進化機構を導入したLLMエージェントのための新しい自己進化フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-02T11:16:07Z)
EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle [26.048906477714937]
現在のLLM(Large Language Model)エージェントは、ツール使用時のパフォーマンスは高いが、自身の経験から体系的に学習する能力は欠如している。 EvolveRは、エージェントが完全なクローズドループ体験ライフサイクルを通じて自己改善できるように設計されたフレームワークである。複雑なマルチホップ質問応答ベンチマークにおけるEvolveRの有効性を示す。
論文参考訳（メタデータ） (2025-10-17T12:03:16Z)
STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。 MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-08-26T08:47:58Z)
AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
大規模言語モデル (LLM) エージェントはより広く普及し、関連するミスアライメントリスクが増加する。本研究では,モデルが追求する内部目標と,デプロイ者の意図する目標との相反として,不整合にアプローチする。現実的なシナリオにおいて,LLMエージェントの適合性を評価するためのベンチマークスイートであるtextscAgentMisalignmentを導入する。
論文参考訳（メタデータ） (2025-06-04T14:46:47Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文参考訳（メタデータ） (2025-04-24T17:57:08Z)
Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。 Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文参考訳（メタデータ） (2025-01-20T11:46:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。