Fugu-MT 論文翻訳(概要): Hogwild! Inference: Parallel LLM Generation via Concurrent Attention

論文の概要: Hogwild! Inference: Parallel LLM Generation via Concurrent Attention

arxiv url: http://arxiv.org/abs/2504.06261v1
Date: Tue, 08 Apr 2025 17:59:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-16 15:30:47.570884
Title: Hogwild! Inference: Parallel LLM Generation via Concurrent Attention
Title（参考訳）: Hogwild!推論:コンカレントアテンションによる並列LDM生成
Authors: Gleb Rodionov, Roman Garipov, Alina Shutova, George Yakushev, Vage Egiazarian, Anton Sinitsin, Denis Kuznedelev, Dan Alistarh,
Abstract要約: 大規模言語モデル(LLM)は、高度な推論、長文コンテンツ生成、ツールの使用を通じて、ますます複雑なタスクに取り組む。推論: 同じLLMの複数のインスタンスが同じアテンションキャッシュと並行して実行される並列LLM推論エンジン。 Hogwild!推論はRotary Position Embeddings(RoPE)を利用して、並列ハードウェアの利用率を改善しながら再計算を回避する。
参考スコア（独自算出の注目度）: 28.52740266774425
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) have demonstrated the ability to tackle increasingly complex tasks through advanced reasoning, long-form content generation, and tool use. Solving these tasks often involves long inference-time computations. In human problem solving, a common strategy to expedite work is collaboration: by dividing the problem into sub-tasks, exploring different strategies concurrently, etc. Recent research has shown that LLMs can also operate in parallel by implementing explicit cooperation frameworks, such as voting mechanisms or the explicit creation of independent sub-tasks that can be executed in parallel. However, each of these frameworks may not be suitable for all types of tasks, which can hinder their applicability. In this work, we propose a different design approach: we run LLM "workers" in parallel , allowing them to synchronize via a concurrently-updated attention cache and prompt these workers to decide how best to collaborate. Our approach allows the instances to come up with their own collaboration strategy for the problem at hand, all the while "seeing" each other's partial progress in the concurrent cache. We implement this approach via Hogwild! Inference: a parallel LLM inference engine where multiple instances of the same LLM run in parallel with the same attention cache, with "instant" access to each other's generated tokens. Hogwild! inference takes advantage of Rotary Position Embeddings (RoPE) to avoid recomputation while improving parallel hardware utilization. We find that modern reasoning-capable LLMs can perform inference with shared Key-Value cache out of the box, without additional fine-tuning.
Abstract（参考訳）: 大規模言語モデル(LLM)は、高度な推論、長文コンテンツ生成、ツールの使用を通じて、ますます複雑なタスクに取り組む能力を示している。これらのタスクを解くには、長い推論時間計算が必要となることが多い。人間の問題解決において、作業の迅速化のための一般的な戦略はコラボレーションである。近年の研究では、投票機構や、並列で実行できる独立サブタスクの明示的な作成など、明示的な協調フレームワークを実装することで、LCMが並列に動作可能であることが示されている。しかし、これらのフレームワークはあらゆる種類のタスクに適さないかもしれないため、それらの適用性を妨げかねない。本研究では,LLM の "Workers" を並列に実行し,並列に更新されたアテンションキャッシュを介して同期し,それらの作業者にどのように協調するかを判断させる,という設計手法を提案する。当社のアプローチでは,インスタンスが手元にある問題に対して,それぞれ独自のコラボレーション戦略を策定すると同時に,コンカレントキャッシュにおける相互の部分的な進捗を“見る”ことが可能です。私たちはこのアプローチをHogwild! 推論: 同じLLMの複数のインスタンスが同じアテンションキャッシュと並行して実行される並列LLM推論エンジン。 Hogwild!推論はRotary Position Embeddings(RoPE)を利用して、並列ハードウェアの利用率を改善しながら再計算を回避する。最新の推論可能なLCMは、追加の微調整をすることなく、共有キーバリューキャッシュで推論を行うことができる。

関連論文リスト

Multi-Bin Batching for Increasing LLM Inference Throughput [19.652542432683234]
大規模言語モデル(LL)は、システムの効率性を向上させるために人気が高まっている。リクエストはサーバ上のジョブをスケジューリングする重要なステップです。リクエストは、しばしば異なる生成長を持ち、リソースの未利用を引き起こす。我々は、この問題をキューイング理論の観点から形式化し、スループット制御ポリシーを設計することを目的とする。
論文参考訳（メタデータ） (2024-12-03T03:16:12Z)
Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文参考訳（メタデータ） (2024-10-10T12:41:19Z)
Everything Everywhere All at Once: LLMs can In-Context Learn Multiple Tasks in Superposition [31.741274626546666]
LLM(Large Language Models)は、コンテキスト内学習機能を示す。 LLMは複数の計算的に異なるICLタスクを同時に実行できます。
論文参考訳（メタデータ） (2024-10-08T01:28:57Z)
Beyond Prompts: Dynamic Conversational Benchmarking of Large Language Models [0.0]
本稿では,対話エージェントを対象とした動的ベンチマークシステムを提案する。タスクをインターリーブするために定期的にコンテキストスイッチを行い、エージェントの長期記憶、継続的な学習、情報統合機能を評価する現実的なテストシナリオを構築します。
論文参考訳（メタデータ） (2024-09-30T12:01:29Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
An LLM-Tool Compiler for Fused Parallel Function Calling [1.990293258268139]
LLM(Large Language Models)における最先端のシーケンシャル推論は、会話タスク以外のCopilotの機能を複雑な関数呼び出しに拡張した。 LLM-Toolコンパイラは、実行時に単一の関数の下で同様のツール操作を融合し、LLMに統一的なタスクとして提示する。大規模なCopilotプラットフォーム上でベンチマークされたLLM-Toolコンパイラは、既存のメソッドよりも最大4倍の並列呼び出しを実現し、トークンコストとレイテンシを最大40%と12%削減する。
論文参考訳（メタデータ） (2024-05-07T18:55:50Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
Distributed Inference and Fine-tuning of Large Language Models Over The Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文参考訳（メタデータ） (2023-12-13T18:52:49Z)
An LLM Compiler for Parallel Function Calling [68.04566807806071]
我々は,複数の関数呼び出しを効率的にオーケストレーションするために並列に関数を実行するLLMCompilerを紹介する。 ReActと比較して、一貫したレイテンシの高速化が3.7倍、コストの削減が6.7倍、精度が9%向上している。
論文参考訳（メタデータ） (2023-12-07T18:32:04Z)
Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文参考訳（メタデータ） (2023-11-14T15:56:18Z)
Examining Inter-Consistency of Large Language Models Collaboration: An In-depth Analysis via Debate [41.949869545423375]
大きな言語モデル(LLM)は、様々なアプリケーションで印象的な機能を示しているが、それでも様々な矛盾問題に直面している。 LLMが効果的に協力して共有目標のコンセンサスを達成するためには,コモンセンス推論に焦点をあてる。我々の研究は,LLM間の一貫性の理解に寄与し,今後のコラボレーション手法開発の基礎を築いた。
論文参考訳（メタデータ） (2023-05-19T11:15:33Z)
Answer-Set Programming for Lexicographical Makespan Optimisation in Parallel Machine Scheduling [18.286430978487388]
我々は、シーケンス依存のセットアップ時間とリリース日を持つ並列マシン上で、困難なスケジューリング問題に対処する。個々のマシンを非到達順に配置し、結果として生じるロバスト性を語彙的に最小化する。実験の結果,ASPは実際にこの問題に対して有望なKRRパラダイムであり,最先端のCPおよびMIPソルバと競合していることがわかった。
論文参考訳（メタデータ） (2022-12-18T12:43:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。