論文の概要: Adaptive Context Length Optimization with Low-Frequency Truncation for Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.26389v1
- Date: Thu, 30 Oct 2025 11:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.782454
- Title: Adaptive Context Length Optimization with Low-Frequency Truncation for Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習のための低周波トランケーションを用いた適応文脈長最適化
- Authors: Wenchang Duan, Yaoliang Yu, Jiwan He, Yi Shi,
- Abstract要約: 深層多エージェント強化学習(MARL)は,課題解決のために有望な性能を示した。
適応的で効果的な文脈情報を得るための新しいMARLフレームワークを提案する。
提案手法は,長期依存タスクにおけるSOTA(State-of-the-art)性能を実現する。
- 参考スコア(独自算出の注目度): 22.147022270074373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep multi-agent reinforcement learning (MARL) has demonstrated promising performance for solving challenging tasks, such as long-term dependencies and non-Markovian environments. Its success is partly attributed to conditioning policies on large fixed context length. However, such large fixed context lengths may lead to limited exploration efficiency and redundant information. In this paper, we propose a novel MARL framework to obtain adaptive and effective contextual information. Specifically, we design a central agent that dynamically optimizes context length via temporal gradient analysis, enhancing exploration to facilitate convergence to global optima in MARL. Furthermore, to enhance the adaptive optimization capability of the context length, we present an efficient input representation for the central agent, which effectively filters redundant information. By leveraging a Fourier-based low-frequency truncation method, we extract global temporal trends across decentralized agents, providing an effective and efficient representation of the MARL environment. Extensive experiments demonstrate that the proposed method achieves state-of-the-art (SOTA) performance on long-term dependency tasks, including PettingZoo, MiniGrid, Google Research Football (GRF), and StarCraft Multi-Agent Challenge v2 (SMACv2).
- Abstract(参考訳): 近年,マルチエージェント強化学習(MARL)は,長期依存や非マルコフ環境といった課題の解決に有望な性能を示した。
その成功は、部分的には、大きな固定されたコンテキスト長の条件付けポリシーによるものである。
しかし、そのような大きな固定されたコンテキスト長は、探索効率と冗長な情報に制限を与える可能性がある。
本稿では,適応的で効果的な文脈情報を得るための新しいMARLフレームワークを提案する。
具体的には、時間勾配解析により文脈長を動的に最適化する中央エージェントを設計し、MARLにおけるグローバル最適度への収束を容易にする探索を強化する。
さらに、文脈長の適応最適化能力を高めるために、冗長情報を効果的にフィルタする中央エージェントの効率的な入力表現を提案する。
フーリエをベースとした低周波トランケーション手法を用いて, 分散エージェント間のグローバル時間的傾向を抽出し, MARL環境を効果的かつ効率的に表現する。
提案手法は,PetttingZoo,MiniGrid,Google Research Football (GRF),StarCraft Multi-Agent Challenge v2 (SMACv2) など,長期依存タスクにおけるSOTA(State-of-the-art)性能を実現することを示す。
関連論文リスト
- Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management [19.980762483472354]
要約に基づくコンテキスト管理をトレーニングに導入する。
UnderlineSUmmarization 拡張 UnderlinePolicy UnderlineOptimization (textttSUPO) でこのフレームワークをインスタンス化する。
本研究は,RLエージェントを一定の文脈長制限を超えて訓練するための原則的かつスケーラブルな手法として,要約に基づくコンテキスト管理を確立した。
論文 参考訳(メタデータ) (2025-10-08T07:29:22Z) - Beyond RAG vs. Long-Context: Learning Distraction-Aware Retrieval for Efficient Knowledge Grounding [5.353135097018941]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) を外部の最新の情報に基盤付けるためのフレームワークである。
本稿では,適応型検索システムLDAR(Learning Distraction-Aware Retrieval)を提案する。
論文 参考訳(メタデータ) (2025-09-26T04:40:42Z) - REFRAG: Rethinking RAG based Decoding [67.4862300145604]
REFRAGは効率的なデコードフレームワークで、RAGアプリケーションの遅延を圧縮し、感知し、拡張し、改善する。
本稿では,RAG,マルチターン会話,長期文書要約など,多種多様な長文タスクを対象としたREFRAGの厳密な検証を行う。
論文 参考訳(メタデータ) (2025-09-01T03:31:44Z) - Chunks as Arms: Multi-Armed Bandit-Guided Sampling for Long-Context LLM Preference Optimization [56.97588709890706]
LongMab-POは、長文モデリングタスクのための高品質で多様な応答を生成する新しいフレームワークである。
実験の結果,LongMab-POは嗜好データペアの多様性と品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-19T16:33:55Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention [73.26995918610669]
大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。
本稿では,効果的かつ完全なコンテキスト拡張を容易にする新しいスパークアテンション設計であるPowerAttentionを紹介する。
実験によると、PowerAttentionは既存の静的スパースアテンションメソッドを5sim 40%$で上回っている。
論文 参考訳(メタデータ) (2025-03-05T15:24:11Z) - Beyond Matryoshka: Revisiting Sparse Coding for Adaptive Representation [42.590255022001145]
Matryoshka Representation Learning (MRL) は適応的な埋め込み長のソリューションとして最近登場した。
スパース符号化は、最小限のオーバーヘッドと高い忠実度で適応表現を実現するための魅力的な代替手段であることを示す。
論文 参考訳(メタデータ) (2025-03-03T17:59:48Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Bidirectional Long-Range Parser for Sequential Data Understanding [3.76054468268713]
BLRP(Bidirectional Long-Range)は,長距離タスクの性能向上と効率向上を目的とした,新規で汎用的なアテンション機構である。
我々は、最先端の手法に対する競争結果を示すことによって、ビジョンと言語ドメインに対するアプローチの利点と汎用性を示す。
論文 参考訳(メタデータ) (2024-04-08T05:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。