論文の概要: Warp-Cortex: An Asynchronous, Memory-Efficient Architecture for Million-Agent Cognitive Scaling on Consumer Hardware
- arxiv url: http://arxiv.org/abs/2601.01298v1
- Date: Sat, 03 Jan 2026 23:11:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.176787
- Title: Warp-Cortex: An Asynchronous, Memory-Efficient Architecture for Million-Agent Cognitive Scaling on Consumer Hardware
- Title(参考訳): Warp-Cortex: コンシューマハードウェア上で100万単位の認知スケーリングを実現する,非同期でメモリ効率の良いアーキテクチャ
- Authors: Jorge L. Ruiz Williams,
- Abstract要約: Warp Cortexは、理論的には百万単位の認知スケーリングを可能にする非同期アーキテクチャである。
計算遅延がボトルネックになる前に、100個の並行エージェントを2.2GBの全VRAMで実証し、理論的能力は1,000個を超えることを示した。
さらに,非侵入的KV-cache更新機構であるReferential Injectionを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current multi-agent Large Language Model (LLM) frameworks suffer from linear memory scaling, rendering "System 2" parallel reasoning impractical on consumer hardware. We present Warp Cortex, an asynchronous architecture that theoretically enables million-agent cognitive scaling by decoupling agent logic from physical memory. Through Singleton Weight Sharing and a novel Topological Synapse--inspired by hybrid landmarking techniques from Topological Data Analysis (TDA)--we reduce memory complexity from O(N * L) to O(1) for weights and O(N * k) for context, where k << L. By treating the KV-cache as a point cloud in latent space, we apply witness-complex-inspired sparsification to preserve persistent homological features of the context manifold. On a single NVIDIA RTX 4090, we empirically demonstrate 100 concurrent agents at 2.2 GB total VRAM, with theoretical capacity exceeding 1,000 agents before compute latency becomes the bottleneck. We further introduce Referential Injection, a non-intrusive KV-cache update mechanism that allows asynchronous sub-agents to influence primary generation without stream disruption.
- Abstract(参考訳): 現在のマルチエージェント大言語モデル(LLM)フレームワークは、リニアメモリスケーリングに悩まされており、"System 2"並列推論を消費者ハードウェアに非現実的にレンダリングしている。
本稿では,エージェントロジックを物理メモリから分離することで,100万エージェントの認知スケーリングを可能にする非同期アーキテクチャWarp Cortexを提案する。
シングルトン重み共有(Singleton Weight Sharing and a novel Topological Synapse-inspireed by hybrid landmarking techniques from Topological Data Analysis (TDA)-- we reduce memory complexity to O(N * L) for weights and O(N * k) for context, where k <<L。
1つのNVIDIA RTX 4090では、2.2GBの総VRAMで100の並行エージェントを実証し、計算遅延がボトルネックになる前に理論能力が1,000以上のエージェントを実証した。
さらに,非侵入的KV-cache更新機構であるReferential Injectionを導入する。
関連論文リスト
- Breaking the Memory Wall: Exact Analytical Differentiation via Tiled Operator-Space Evolution [3.551701030393209]
位相勾配流(PGF)は、状態空間多様体で直接操作することで正確な解析微分を計算するフレームワークである。
提案手法は,最大VRAMの94%削減,スループットの23倍のO(1)メモリの複雑性を実現する。
我々の研究は1つのGPU上で染色体スケールの感度解析を可能にし、理論的な無限コンテキストモデルと実用的なハードウェアの限界のギャップを埋める。
論文 参考訳(メタデータ) (2025-12-28T20:27:58Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Accelerating LLM Inference via Dynamic KV Cache Placement in Heterogeneous Memory System [20.652641518700346]
大規模言語モデル(LLM)推論は、メモリ帯域幅によってますます制限される。
現代のAIハードウェアは、高速オフパッケージDRAMと高速帯域メモリ(HBM)を統合している。
本研究は,キャパシティ制約下での集積帯域利用を最大化するために,そのようなシステムにまたがる動的KVキャッシュ配置について検討する。
論文 参考訳(メタデータ) (2025-08-17T19:07:08Z) - Hardware-Adaptive and Superlinear-Capacity Memristor-based Associative Memory [5.902429789895426]
本稿では,連想記憶のための新しいハードウェア適応学習アルゴリズムであるmemristorハードウェアについて,実験的に紹介する。
提案手法は, 最先端手法と比較して, デバイス故障の50%以下で有効容量を3倍に向上させる。
論文 参考訳(メタデータ) (2025-05-19T10:55:09Z) - Enhancing Biologically Inspired Hierarchical Temporal Memory with Hardware-Accelerated Reflex Memory [0.29127054707887967]
本稿では,1次推論の処理を高速化するために,スピナルコルドの動作機構にインスパイアされたReflex Memory(RM)ブロックを提案する。
RMとHTMの統合は、繰り返し情報をより効率的に処理するAccelerated Hierarchical Temporal Memory (AHTM)と呼ばれるシステムを形成する。
元のアルゴリズムであるAHTMと比較して、AHTMは最大7.55倍の推論を加速し、H-AHTMは10.10倍の高速化でさらに性能を向上させる。
論文 参考訳(メタデータ) (2025-04-01T17:40:12Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - Resistive Memory-based Neural Differential Equation Solver for Score-based Diffusion Model [55.116403765330084]
スコアベースの拡散のような現在のAIGC法は、迅速性と効率性の点で依然として不足している。
スコアベース拡散のための時間連続型およびアナログ型インメモリ型ニューラル微分方程式解法を提案する。
我々は180nmの抵抗型メモリインメモリ・コンピューティング・マクロを用いて,我々の解を実験的に検証した。
論文 参考訳(メタデータ) (2024-04-08T16:34:35Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - ROME: Robustifying Memory-Efficient NAS via Topology Disentanglement and
Gradient Accumulation [106.04777600352743]
微分可能なアーキテクチャサーチ(DARTS)は、スーパーネット全体がメモリに格納されているため、メモリコストが大幅に低下する。
シングルパスのDARTSが登場し、各ステップでシングルパスのサブモデルのみを選択する。
メモリフレンドリーだが、計算コストも低い。
RObustifying Memory-Efficient NAS (ROME) と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-23T06:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。