Fugu-MT 論文翻訳(概要): Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence

論文の概要: Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence

arxiv url: http://arxiv.org/abs/2503.20533v1
Date: Wed, 26 Mar 2025 13:28:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 19:18:47.182553
Title: Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence
Title（参考訳）: 1つのシーケンス内での並列デコードによる並列化可能な推論の高速化
Authors: Yijiong Yu,
Abstract要約: 推論プロセスを加速するために、特定のタスクの固有の並列化性を活用します。実験結果から,提案手法は復号時間において100%以上の高速化を実現し,精度は基本的に維持できることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent advances in reasoning models have demonstrated significant improvements in accuracy, particularly for complex tasks such as mathematical reasoning, by employing detailed and comprehensive reasoning processes. However, generating these lengthy reasoning sequences is computationally expensive and time-consuming. To address this inefficiency, we leverage the inherent parallelizability of certain tasks to accelerate the reasoning process. Specifically, when multiple parallel reasoning branches exist, we decode multiple tokens per step using a specialized attention mask, processing them within a single sequence. Experimental results show that our method achieves over 100% speedup in decoding time while basically maintaining accuracy.
Abstract（参考訳）: 推論モデルの最近の進歩は、特に数学的推論のような複雑なタスクにおいて、詳細で包括的な推論プロセスを用いることで、精度を著しく向上させた。しかし、これらの長い推論シーケンスを生成するのは計算コストが高く、時間がかかる。この非効率性に対処するために、あるタスクの固有の並列化性を活用して推論プロセスを加速する。具体的には、複数の並列推論ブランチが存在する場合、特別な注意マスクを使用してステップ毎に複数のトークンをデコードし、それらを単一のシーケンスで処理する。実験結果から,提案手法は復号時間において100%以上の高速化を実現し,精度は基本的に維持できることがわかった。

関連論文リスト

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models [99.6720868215076]
適応並列推論のためのフレームワークThreadWeaverを紹介します。 ThreadWeaverは、同等サイズの一般的なシーケンシャル推論モデルと同等の精度を達成する。 ThreadWeaverはトークンのレイテンシの平均速度を最大1.53倍にします。
論文参考訳（メタデータ） (2025-11-24T18:55:59Z)
Beyond Surface Reasoning: Unveiling the True Long Chain-of-Thought Capacity of Diffusion Large Language Models [54.81955614221652]
同時トークン更新を可能にする並列デコード。厳格な推論にしばしば必要とされる因果順序と競合する。単純な推論タスクと複雑な推論タスクの両方において、DLLMは直接決定可能な出力に対してのみ真の並列性を示すことを示す。そこで本研究では,PSCによる非効率性と非効率性を低減するために,いくつかの実用的な緩和,並列指向プロンプト,拡散早期停止,並列スケーリングを提案する。
論文参考訳（メタデータ） (2025-10-10T16:58:14Z)
dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文参考訳（メタデータ） (2025-09-30T16:32:52Z)
Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search [62.1546099504045]
本稿では、推論を計画と実行に分離する二相テストタイムスケーリングフレームワークを提案する。具体的には、推論軌跡を分解し、各フェーズの報酬モデルを構築し、探索者が個別に計画と実行を探索、実行できるようにする。数学的推論とコード生成ベンチマークの両方の実験により、我々の手法は計算の冗長性を低減しつつ、常に精度を向上することを示した。
論文参考訳（メタデータ） (2025-09-29T19:27:23Z)
The Serial Scaling Hypothesis [8.375582694104923]
直列問題は並列化できない依存的な計算ステップを必要とする。推論のシリアルな性質を認識することは、機械学習、モデル設計、ハードウェア開発に深く影響していると論じる。 AIがますます複雑な推論に取り組むにつれて、シリアル計算を意図的にスケールすることは、単なる並列計算ではなく、継続的な進歩に不可欠である。
論文参考訳（メタデータ） (2025-07-16T18:01:26Z)
Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。 LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文参考訳（メタデータ） (2025-06-16T03:00:40Z)
Fast correlated decoding of transversal logical algorithms [67.01652927671279]
大規模計算には量子エラー補正(QEC)が必要であるが、かなりのリソースオーバーヘッドが発生する。近年の進歩により、論理ゲートからなるアルゴリズムにおいて論理キュービットを共同で復号化することにより、症候群抽出ラウンドの数を削減できることが示されている。ここでは、回路を介して伝播する関連する論理演算子製品を直接復号することで、回路の復号化の問題を修正する。
論文参考訳（メタデータ） (2025-05-19T18:00:00Z)
Critical Thinking: Which Kinds of Complexity Govern Optimal Reasoning Length? [72.70486097967124]
決定論的有限オートマトン(DFAs)を用いたフレームワークの定式化正しい解を生成する確率が最大になるような推論トークンが最適に存在することを示す。新たな問題に対する推論トークンの最適個数を予測し、最適でない回答をフィルタリングすることで、一貫した精度の向上が得られる。
論文参考訳（メタデータ） (2025-04-02T17:45:58Z)
Dynamic Parallel Tree Search for Efficient LLM Reasoning [102.16694475391665]
Tree of Thoughts (ToT) は大規模言語モデル(LLM)推論を強化し、分散木としての問題解決を構造化する。推論における推論経路を動的に最適化することを目的とした,新しい並列化フレームワークであるDynamic Parallel Tree Search (DPTS)を提案する。 Qwen-2.5とLlama-3のMath500とGSM8Kデータセットによる実験では、DPTSは平均で2-4倍効率が向上した。
論文参考訳（メタデータ） (2025-02-22T14:13:37Z)
Longer Attention Span: Increasing Transformer Context Length with Sparse Graph Processing Techniques [0.0]
本稿では,トークンをグラフのノードとして認識し,注目マスクがグラフのエッジを決定する,注目のグラフコンピューティングビューを提案する。この観点から,注意機構を実装するグラフ処理アルゴリズムを開発した。我々のアルゴリズムは1つのNVIDIA A100 GPUで1億6000万の非常に長いシーケンス長を達成できます。
論文参考訳（メタデータ） (2025-01-31T22:05:00Z)
Cerberus: Efficient Inference with Adaptive Parallel Decoding and Sequential Knowledge Enhancement [12.40683763019276]
大規模言語モデル(LLM)は自動回帰復号化に依存するため、推論速度のボトルネックに直面していることが多い。既存の並列デコーディングフレームワークにおける2つの重要な問題を特定しました。我々は適応並列デコーディングフレームワークであるCerberusを提案する。
論文参考訳（メタデータ） (2024-10-17T08:55:18Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
ProPD: Dynamic Token Tree Pruning and Generation for LLM Parallel Decoding [12.449023969197684]
ProPDは動的トークンツリーのプルーニングと生成に基づく効率的な並列デコードフレームワークである。 ProPD は既存の復号アルゴリズムを 1.1-3.2x で一貫的に上回っている。
論文参考訳（メタデータ） (2024-02-21T02:51:07Z)
SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文参考訳（メタデータ） (2023-10-18T16:07:01Z)
Tractable Bounding of Counterfactual Queries by Knowledge Compilation [51.47174989680976]
本稿では, パール構造因果モデルにおいて, 因果関係などの部分的特定可能なクエリのバウンダリングの問題について議論する。最近提案された反復EMスキームは初期化パラメータをサンプリングしてそれらの境界を内部近似する。シンボルパラメータを実際の値に置き換えた回路構造を,単一のシンボル知識コンパイルによって得られることを示す。
論文参考訳（メタデータ） (2023-10-05T07:10:40Z)
Parallel Algorithms Align with Neural Execution [7.535219325248997]
しかし並列アルゴリズムは計算能力を最大限に活用できるため、実行すべきレイヤは少ない。このことは、CLRSフレームワーク上のシーケンシャルなコンポーネントに対して、検索、ソート、および強力な接続されたコンポーネントの並列実装を比較する際に観察されるように、トレーニング時間を劇的に短縮します。
論文参考訳（メタデータ） (2023-07-08T21:28:20Z)
Code Prompting: a Neural Symbolic Method for Complex Reasoning in Large Language Models [74.95486528482327]
コードプロンプト(code prompting)は、ゼロショットバージョンと少数ショットバージョンの両方を持ち、中間ステップとしてコードをトリガーするニューラルシンボルプロンプトである。我々は,記号的推論と算術的推論を含む7つの広く使用されているベンチマーク実験を行った。
論文参考訳（メタデータ） (2023-05-29T15:14:09Z)
NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual Question Answering [52.10214317661547]
現在の数値推論法はプログラムシーケンスを自己回帰的にデコードする。プログラム生成の精度は、デコードステップがエラー伝搬によって展開されるにつれて急激に低下する。本稿では,非自己回帰型プログラム生成フレームワークを提案する。
論文参考訳（メタデータ） (2022-11-07T11:25:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。