論文の概要: PaceLLM: Brain-Inspired Large Language Models for Long-Context Understanding
- arxiv url: http://arxiv.org/abs/2506.17310v1
- Date: Wed, 18 Jun 2025 09:17:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.335051
- Title: PaceLLM: Brain-Inspired Large Language Models for Long-Context Understanding
- Title(参考訳): PaceLLM:脳にインスパイアされた長期理解のための大規模言語モデル
- Authors: Kangcong Li, Peng Ye, Chongjun Tu, Lin Zhang, Chunfeng Song, Jiamin Wu, Tao Yang, Qihao Zheng, Tao Chen,
- Abstract要約: 本研究では,(1)前頭前野(PFC)ニューロンの持続的発火を模倣する持続的活動(PA)機構を,活性化レベルメモリバンクを導入し,重要なFFN状態を動的に回収・再利用・更新し,文脈崩壊に対処し,(2)タスク適応型ニューラルスペシャライゼーションをエミュレートし,FFN重みをセマンティックモジュールに再編成し,相互依存を確立し,フラグメンテーションを緩和する,という2つの革新を特徴とするPaceLLMを提案する。
- 参考スコア(独自算出の注目度): 20.849307413516183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) demonstrate strong performance across domains, their long-context capabilities are limited by transient neural activations causing information decay and unstructured feed-forward network (FFN) weights leading to semantic fragmentation. Inspired by the brain's working memory and cortical modularity, we propose PaceLLM, featuring two innovations: (1) a Persistent Activity (PA) Mechanism that mimics prefrontal cortex (PFC) neurons' persistent firing by introducing an activation-level memory bank to dynamically retrieve, reuse, and update critical FFN states, addressing contextual decay; and (2) Cortical Expert (CE) Clustering that emulates task-adaptive neural specialization to reorganize FFN weights into semantic modules, establishing cross-token dependencies and mitigating fragmentation. Extensive evaluations show that PaceLLM achieves 6% improvement on LongBench's Multi-document QA and 12.5-17.5% performance gains on Infinite-Bench tasks, while extending measurable context length to 200K tokens in Needle-In-A-Haystack (NIAH) tests. This work pioneers brain-inspired LLM optimization and is complementary to other works. Besides, it can be generalized to any model and enhance their long-context performance and interpretability without structural overhauls.
- Abstract(参考訳): 大規模言語モデル(LLM)はドメイン間で強いパフォーマンスを示すが、その長期コンテキスト能力は、情報崩壊を引き起こす過渡的な神経活性化と、意味的な断片化につながる非構造化フィードフォワードネットワーク(FFN)重みによって制限される。
1)前頭前野(PFC)ニューロンの持続的発火を模倣し,活性化レベルメモリバンクを導入し,重要なFFN状態を動的に回収し,再利用し,更新する機構,(2)脳専門家(CE)タスク適応型神経特殊化を模倣し,FFN重みをセマンティックモジュールに再構成し,相互依存を確立し,フラグメンテーションを緩和するメカニズム。
広範囲な評価の結果、PaceLLMはLongBenchのマルチドキュメントQAを6%改善し、Infinite-Benchタスクでは12.5-17.5%のパフォーマンス向上を実現し、Needle-In-A-Haystack(NIAH)テストでは測定可能なコンテキスト長を200Kトークンに拡張した。
この研究は脳にインスパイアされたLLM最適化の先駆者であり、他の研究を補完するものである。
さらに、どんなモデルにも一般化でき、構造的なオーバーホールなしに長文のパフォーマンスと解釈性を高めることができる。
関連論文リスト
- MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - Activation-Guided Consensus Merging for Large Language Models [25.68958388022476]
textbfActivation-Guided textbfConsensus textbfMerging(textbfACM)は,層固有のマージ係数を決定するプラグインとプレイのマージフレームワークである。
L2S(Long-to-Short)と一般的なマージタスクの実験は、ACMが全てのベースラインメソッドを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-05-20T07:04:01Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula [23.071384759427072]
状態空間モデル(SSM)はトランスフォーマーよりも利点があるが、長期のコンテキスト内検索のようなテキストコピー、連想リコール、質問応答を必要とするタスクに苦労する。
本研究では,SSMのコンテキスト内検索能力を大幅に向上する新たな学習手法であるBirdieを提案する。
論文 参考訳(メタデータ) (2024-11-01T21:01:13Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Human-like Episodic Memory for Infinite Context LLMs [13.211261438927798]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、それでも広範なコンテキストの処理に苦戦している。
本研究では,人間のエピソード記憶と事象認知をLLMに組み込む新しいアプローチであるEM-LLMを紹介する。
EM-LLMは、ベイジアン・サプライズとグラフ理論境界修正の組み合わせを用いて、トークンの列をコヒーレントなエピソード事象に整理する。
論文 参考訳(メタデータ) (2024-07-12T17:34:03Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。