論文の概要: Hogwild! Inference: Parallel LLM Generation via Concurrent Attention
- arxiv url: http://arxiv.org/abs/2504.06261v1
- Date: Tue, 08 Apr 2025 17:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:31:26.329998
- Title: Hogwild! Inference: Parallel LLM Generation via Concurrent Attention
- Title(参考訳): Hogwild!推論:コンカレントアテンションによる並列LDM生成
- Authors: Gleb Rodionov, Roman Garipov, Alina Shutova, George Yakushev, Vage Egiazarian, Anton Sinitsin, Denis Kuznedelev, Dan Alistarh,
- Abstract要約: 大規模言語モデル(LLM)は、高度な推論、長文コンテンツ生成、ツールの使用を通じて、ますます複雑なタスクに取り組む。
推論: 同じLLMの複数のインスタンスが同じアテンションキャッシュと並行して実行される並列LLM推論エンジン。
Hogwild!推論はRotary Position Embeddings(RoPE)を利用して、並列ハードウェアの利用率を改善しながら再計算を回避する。
- 参考スコア(独自算出の注目度): 28.52740266774425
- License:
- Abstract: Large Language Models (LLMs) have demonstrated the ability to tackle increasingly complex tasks through advanced reasoning, long-form content generation, and tool use. Solving these tasks often involves long inference-time computations. In human problem solving, a common strategy to expedite work is collaboration: by dividing the problem into sub-tasks, exploring different strategies concurrently, etc. Recent research has shown that LLMs can also operate in parallel by implementing explicit cooperation frameworks, such as voting mechanisms or the explicit creation of independent sub-tasks that can be executed in parallel. However, each of these frameworks may not be suitable for all types of tasks, which can hinder their applicability. In this work, we propose a different design approach: we run LLM "workers" in parallel , allowing them to synchronize via a concurrently-updated attention cache and prompt these workers to decide how best to collaborate. Our approach allows the instances to come up with their own collaboration strategy for the problem at hand, all the while "seeing" each other's partial progress in the concurrent cache. We implement this approach via Hogwild! Inference: a parallel LLM inference engine where multiple instances of the same LLM run in parallel with the same attention cache, with "instant" access to each other's generated tokens. Hogwild! inference takes advantage of Rotary Position Embeddings (RoPE) to avoid recomputation while improving parallel hardware utilization. We find that modern reasoning-capable LLMs can perform inference with shared Key-Value cache out of the box, without additional fine-tuning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高度な推論、長文コンテンツ生成、ツールの使用を通じて、ますます複雑なタスクに取り組む能力を示している。
これらのタスクを解くには、長い推論時間計算が必要となることが多い。
人間の問題解決において、作業の迅速化のための一般的な戦略はコラボレーションである。
近年の研究では、投票機構や、並列で実行できる独立サブタスクの明示的な作成など、明示的な協調フレームワークを実装することで、LCMが並列に動作可能であることが示されている。
しかし、これらのフレームワークはあらゆる種類のタスクに適さないかもしれないため、それらの適用性を妨げかねない。
本研究では,LLM の "Workers" を並列に実行し,並列に更新されたアテンションキャッシュを介して同期し,それらの作業者にどのように協調するかを判断させる,という設計手法を提案する。
当社のアプローチでは,インスタンスが手元にある問題に対して,それぞれ独自のコラボレーション戦略を策定すると同時に,コンカレントキャッシュにおける相互の部分的な進捗を“見る”ことが可能です。
私たちはこのアプローチをHogwild!
推論: 同じLLMの複数のインスタンスが同じアテンションキャッシュと並行して実行される並列LLM推論エンジン。
Hogwild!推論はRotary Position Embeddings(RoPE)を利用して、並列ハードウェアの利用率を改善しながら再計算を回避する。
最新の推論可能なLCMは、追加の微調整をすることなく、共有キーバリューキャッシュで推論を行うことができる。
関連論文リスト
- Multi-Bin Batching for Increasing LLM Inference Throughput [19.652542432683234]
大規模言語モデル(LL)は、システムの効率性を向上させるために人気が高まっている。
リクエストはサーバ上のジョブをスケジューリングする重要なステップです。
リクエストは、しばしば異なる生成長を持ち、リソースの未利用を引き起こす。
我々は、この問題をキューイング理論の観点から形式化し、スループット制御ポリシーを設計することを目的とする。
論文 参考訳(メタデータ) (2024-12-03T03:16:12Z) - Everything Everywhere All at Once: LLMs can In-Context Learn Multiple Tasks in Superposition [31.741274626546666]
LLM(Large Language Models)は、コンテキスト内学習機能を示す。
LLMは複数の計算的に異なるICLタスクを同時に実行できます。
論文 参考訳(メタデータ) (2024-10-08T01:28:57Z) - Beyond Prompts: Dynamic Conversational Benchmarking of Large Language Models [0.0]
本稿では,対話エージェントを対象とした動的ベンチマークシステムを提案する。
タスクをインターリーブするために定期的にコンテキストスイッチを行い、エージェントの長期記憶、継続的な学習、情報統合機能を評価する現実的なテストシナリオを構築します。
論文 参考訳(メタデータ) (2024-09-30T12:01:29Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - An LLM-Tool Compiler for Fused Parallel Function Calling [1.990293258268139]
LLM(Large Language Models)における最先端のシーケンシャル推論は、会話タスク以外のCopilotの機能を複雑な関数呼び出しに拡張した。
LLM-Toolコンパイラは、実行時に単一の関数の下で同様のツール操作を融合し、LLMに統一的なタスクとして提示する。
大規模なCopilotプラットフォーム上でベンチマークされたLLM-Toolコンパイラは、既存のメソッドよりも最大4倍の並列呼び出しを実現し、トークンコストとレイテンシを最大40%と12%削減する。
論文 参考訳(メタデータ) (2024-05-07T18:55:50Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - An LLM Compiler for Parallel Function Calling [68.04566807806071]
我々は,複数の関数呼び出しを効率的にオーケストレーションするために並列に関数を実行するLLMCompilerを紹介する。
ReActと比較して、一貫したレイテンシの高速化が3.7倍、コストの削減が6.7倍、精度が9%向上している。
論文 参考訳(メタデータ) (2023-12-07T18:32:04Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - Answer-Set Programming for Lexicographical Makespan Optimisation in
Parallel Machine Scheduling [18.286430978487388]
我々は、シーケンス依存のセットアップ時間とリリース日を持つ並列マシン上で、困難なスケジューリング問題に対処する。
個々のマシンを非到達順に配置し、結果として生じるロバスト性を語彙的に最小化する。
実験の結果,ASPは実際にこの問題に対して有望なKRRパラダイムであり,最先端のCPおよびMIPソルバと競合していることがわかった。
論文 参考訳(メタデータ) (2022-12-18T12:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。