論文の概要: Learning Evolving Latent Strategies for Multi-Agent Language Systems without Model Fine-Tuning
- arxiv url: http://arxiv.org/abs/2512.20629v1
- Date: Fri, 28 Nov 2025 23:36:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 00:37:57.095979
- Title: Learning Evolving Latent Strategies for Multi-Agent Language Systems without Model Fine-Tuning
- Title(参考訳): モデル微調整を伴わない多エージェント言語システムにおける潜在戦略の学習
- Authors: Wenlong Tang,
- Abstract要約: 本研究では,言語モデルのパラメータを微調整することなく連続的な戦略進化を可能にするマルチエージェント言語フレームワークを提案する。
動作ループは環境報酬に基づいて行動嗜好を調整するが、言語ループは生成されたテキストのセマンティック埋め込みを反映して外部潜時ベクトルを更新する。
- 参考スコア(独自算出の注目度): 0.6345523830122167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study proposes a multi-agent language framework that enables continual strategy evolution without fine-tuning the language model's parameters. The core idea is to liberate the latent vectors of abstract concepts from traditional static semantic representations, allowing them to be continuously updated through environmental interaction and reinforcement feedback. We construct a dual-loop architecture: the behavior loop adjusts action preferences based on environmental rewards, while the language loop updates the external latent vectors by reflecting on the semantic embeddings of generated text. Together, these mechanisms allow agents to develop stable and disentangled strategic styles over long-horizon multi-round interactions. Experiments show that agents' latent spaces exhibit clear convergence trajectories under reflection-driven updates, along with structured shifts at critical moments. Moreover, the system demonstrates an emergent ability to implicitly infer and continually adapt to emotional agents, even without shared rewards. These results indicate that, without modifying model parameters, an external latent space can provide language agents with a low-cost, scalable, and interpretable form of abstract strategic representation.
- Abstract(参考訳): 本研究では,言語モデルのパラメータを微調整することなく連続的な戦略進化を可能にするマルチエージェント言語フレームワークを提案する。
中心となる考え方は、抽象概念の潜在ベクトルを従来の静的意味表現から解放し、環境相互作用と強化フィードバックを通じて継続的に更新できるようにすることである。
動作ループは環境報酬に基づいて行動嗜好を調整するが、言語ループは生成されたテキストのセマンティック埋め込みを反映して外部潜時ベクトルを更新する。
これらの機構が組み合わさって、エージェントは長期のマルチラウンド相互作用よりも安定で不整合な戦略スタイルを発達させることができる。
実験により、エージェントの潜伏空間は反射駆動更新の下で明確な収束軌道を示し、臨界時に構造的なシフトを示すことが示された。
さらに、このシステムは、たとえ報酬を共有していなくても、暗黙的に推論し、感情的なエージェントに継続的に適応する能力を示す。
これらの結果は、モデルパラメータを変更することなく、外部の潜在空間は、抽象的戦略表現の低コストでスケーラブルで解釈可能な形式で言語エージェントを提供することができることを示している。
関連論文リスト
- Beyond Pipelines: A Survey of the Paradigm Shift toward Model-Native Agentic AI [27.209787026732972]
エージェントAIの急速な進化は、人工知能の新しいフェーズを象徴している。
この調査はエージェントAI構築におけるパラダイムシフトをトレースする。
それぞれの能力が外部スクリプトモジュールからエンドツーエンドの学習行動へとどのように進化したかを調べる。
論文 参考訳(メタデータ) (2025-10-19T05:23:43Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Generative World Models of Tasks: LLM-Driven Hierarchical Scaffolding for Embodied Agents [0.0]
本稿では,世界物理学とそのタスク意味論をモデル化した意思決定のための効果的な世界モデルを提案する。
低リソースマルチエージェントサッカーにおける2024年の研究の体系的レビューは、象徴的手法と階層的手法を統合するための明確な傾向を明らかにしている。
私たちはこの傾向を階層的タスク環境(HTE)のフレームワークとして形式化し、シンプルでリアクティブな振る舞いと洗練された戦略的チームのプレーのギャップを埋めるのに不可欠です。
論文 参考訳(メタデータ) (2025-09-05T01:03:51Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Flexible Language Modeling in Continuous Space with Transformer-based Autoregressive Flows [46.673228292287895]
本稿では,連続表現のモデル化にトランスフォーマーに基づく自己回帰正規化フローを用いた新しいフレームワークを提案する。
このアプローチは大きな柔軟性を解放し、グローバルな双方向コンテキストをキャプチャ可能なモデルの構築を可能にします。
離散データによって形成される潜在空間内の複雑な依存関係をキャプチャする混合結合変換を提案する。
論文 参考訳(メタデータ) (2025-07-01T04:51:25Z) - Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization [103.70896967077294]
本稿では,レトロスペクティブモデルを学習することで,大規模言語エージェントを強化するための原則的枠組みを提案する。
提案するエージェントアーキテクチャは,事前学習した言語モデルを微調整するために,複数の環境やタスクにまたがる報酬から学習する。
様々なタスクの実験結果から、言語エージェントは時間とともに改善することが示された。
論文 参考訳(メタデータ) (2023-08-04T06:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。