論文の概要: LSTM-MAS: A Long Short-Term Memory Inspired Multi-Agent System for Long-Context Understanding
- arxiv url: http://arxiv.org/abs/2601.11913v1
- Date: Sat, 17 Jan 2026 05:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.373217
- Title: LSTM-MAS: A Long Short-Term Memory Inspired Multi-Agent System for Long-Context Understanding
- Title(参考訳): LSTM-MAS:長期記憶に基づく長期理解のためのマルチエージェントシステム
- Authors: Yichen Jiang, Peng Ye, Jiakang Yuan, Chongjun Tu, Lei Bai, Tao Chen,
- Abstract要約: 長い言語モデル(LLM)は、誤りの蓄積と幻覚の伝播のために処理が困難である。
我々はLSTM-MASと呼ばれるマルチエージェントシステムを設計し、LSTMの階層的な情報フローと長文理解のためのゲートメモリ機構をエミュレートする。
また,NarrativeQA,Qasper,HotpotQA,MuSiQueでは,それぞれ40.93%,43.70%,121.57%,33.12%の改善を実現している。
- 参考スコア(独自算出の注目度): 24.027208865014064
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Effectively processing long contexts remains a fundamental yet unsolved challenge for large language models (LLMs). Existing single-LLM-based methods primarily reduce the context window or optimize the attention mechanism, but they often encounter additional computational costs or constrained expanded context length. While multi-agent-based frameworks can mitigate these limitations, they remain susceptible to the accumulation of errors and the propagation of hallucinations. In this work, we draw inspiration from the Long Short-Term Memory (LSTM) architecture to design a Multi-Agent System called LSTM-MAS, emulating LSTM's hierarchical information flow and gated memory mechanisms for long-context understanding. Specifically, LSTM-MAS organizes agents in a chained architecture, where each node comprises a worker agent for segment-level comprehension, a filter agent for redundancy reduction, a judge agent for continuous error detection, and a manager agent for globally regulates information propagation and retention, analogous to LSTM and its input gate, forget gate, constant error carousel unit, and output gate. These novel designs enable controlled information transfer and selective long-term dependency modeling across textual segments, which can effectively avoid error accumulation and hallucination propagation. We conducted an extensive evaluation of our method. Compared with the previous best multi-agent approach, CoA, our model achieves improvements of 40.93%, 43.70%,121.57% and 33.12%, on NarrativeQA, Qasper, HotpotQA, and MuSiQue, respectively.
- Abstract(参考訳): 長いコンテキストを効果的に処理することは、大きな言語モデル(LLM)にとって、根本的かつ未解決の課題である。
既存の単一LLMベースの手法は、主にコンテキストウィンドウを削減するか、アテンションメカニズムを最適化するが、追加の計算コストや制約付き拡張コンテキスト長に遭遇することが多い。
マルチエージェントベースのフレームワークはこれらの制限を緩和できるが、エラーの蓄積や幻覚の伝播の影響を受けやすいままである。
本研究では,Long Short-Term Memory (LSTM) アーキテクチャからインスピレーションを得て,LSTM-MASと呼ばれるマルチエージェントシステムを設計し,LSTMの階層的情報フローと長文理解のためのゲートメモリ機構をエミュレートする。
具体的には、LSTM-MASは、各ノードがセグメントレベルの理解のためのワーカエージェント、冗長度低減のためのフィルタエージェント、連続エラー検出のためのジャッジエージェント、及びLSTMとその入力ゲートに類似した情報伝播と保持をグローバルに規制するマネージャエージェント、忘れゲート、一定のエラーカルーセルユニット、出力ゲートを含むチェーンアーキテクチャでエージェントを編成する。
これらの新しい設計により、テキストセグメント間での制御情報伝達と選択的長期依存モデリングが可能となり、エラー蓄積や幻覚伝播を効果的に回避できる。
我々はその方法の広範な評価を行った。
従来最高のマルチエージェントアプローチであるCoAと比較すると,NarrativeQA,Qasper,HotpotQA,MuSiQueでは40.93%,43.70%,121.57%,33.12%の改善が達成されている。
関連論文リスト
- Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - QL-LSTM: A Parameter-Efficient LSTM for Stable Long-Sequence Modeling [0.0]
本稿では、2つの独立したコンポーネントを通じて両方の課題に対処するために設計された再並行アーキテクチャであるQuantum-Leap LSTM(QL-LSTM)を紹介する。
文書長が拡張されたIMDBデータセットを用いて、感情分類におけるQL-LSTMを評価し、LSTM、GRU、BiLSTM参照モデルと比較した。
PSUGとHGR-ASCは時間ステップ当たりの効率が向上するが、現在のプロトタイプはリカレントモデル固有のシーケンシャルな性質によって制限されているため、カーネルレベルの最適化がなければウォールクロック速度の改善は得られない。
論文 参考訳(メタデータ) (2025-12-06T22:29:19Z) - A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding [55.45331924836242]
MLLM内での検索と生成を統一するフレームワークであるURaGについて述べる。
URaGは,計算オーバーヘッドを44~56%削減し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-13T17:54:09Z) - Intrinsic Memory Agents: Heterogeneous Multi-Agent LLM Systems through Structured Contextual Memory [3.8482387279540555]
LLM(Large Language Models)上に構築されたマルチエージェントシステムは、複雑な協調的な問題解決に非常に有望である。
しかし、それらは、メモリの一貫性を損なうコンテキストウィンドウの制限、役割の順守、手続き的整合性といった根本的な課題に直面します。
本稿では,エージェント固有のメモリを通じて,これらの制限に対処する新しいフレームワークであるIntrinsic Memory Agentsを紹介する。
論文 参考訳(メタデータ) (2025-08-12T15:05:00Z) - AF-MAT: Aspect-aware Flip-and-Fuse xLSTM for Aspect-based Sentiment Analysis [0.6498237940960344]
我々は,xLSTMの強みを利用するフレームワークであるAF-MAT(Aspect-aware Flip-and-Fuse xLSTM)を紹介する。
AF-MATは、専用アスペクトゲートを導入するAspect-awareMatrix LSTMメカニズムを備えており、メモリ更新中にターゲットアスペクトに意味のあるトークンを選択的に強調することができる。
AF-MATが最先端のベースラインを上回る3つのベンチマークデータセットの実験により、ABSAタスクの精度が向上した。
論文 参考訳(メタデータ) (2025-07-01T22:21:33Z) - LTL Verification of Memoryful Neural Agents [16.353043979615496]
本稿では,LTL(Linear Temporal Logic)仕様に対して,MN-MAS(Memoryful Neural Multi-Agent Systems)を検証するためのフレームワークを提案する。
MN-MASの例としては、フィードフォワードとリカレントニューラルネットワークに基づくマルチエージェントシステムや状態空間モデルがある。
論文 参考訳(メタデータ) (2025-03-04T11:20:19Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Efficient Heterogeneous Large Language Model Decoding with Model-Attention Disaggregation [15.35494431928751]
トランスフォーマーベースの大規模言語モデル(LLM)は、生成タスクにおいて顕著なパフォーマンスを示すと同時に、現実のサービスにおいて大きな課題をもたらす。
LLMデコーディングの効率を高めるために,モデルアテンションデアグリゲーションを導入する。
分散ヘテロジニアスクラスタにモデルアテンションデアグリゲーションを組み込んだLLM推論システムであるLaminaを開発し,展開する。
論文 参考訳(メタデータ) (2024-05-03T02:15:15Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Working Memory Connections for LSTM [51.742526187978726]
ワーキングメモリ接続は,様々なタスクにおけるLSTMの性能を常に向上することを示す。
数値的な結果は、細胞状態がゲート構造に含まれる価値のある情報を含んでいることを示唆している。
論文 参考訳(メタデータ) (2021-08-31T18:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。