論文の概要: One-Pass to Reason: Token Duplication and Block-Sparse Mask for Efficient Fine-Tuning on Multi-Turn Reasoning
- arxiv url: http://arxiv.org/abs/2504.18246v2
- Date: Fri, 11 Jul 2025 11:43:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 14:01:05.573462
- Title: One-Pass to Reason: Token Duplication and Block-Sparse Mask for Efficient Fine-Tuning on Multi-Turn Reasoning
- Title(参考訳): ツーケン複製とブロックスパースマスクによるマルチスレッド推論における効率的なファインチューニング
- Authors: Ritesh Goru, Shanay Mehta, Prateek Jain,
- Abstract要約: マルチターン推論データセット上での微調整大型言語モデル(LLM)では、会話毎にN(ターン数)の前方通過が必要となる。
本稿では,会話全体のシングルパス処理を可能にするために,応答トークンの複製と,カスタムアテンションマスクを提案する。
- 参考スコア(独自算出の注目度): 13.831457888508892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning Large Language Models (LLMs) on multi-turn reasoning datasets requires N (number of turns) separate forward passes per conversation due to reasoning token visibility constraints, as reasoning tokens for a turn are discarded in subsequent turns. We propose duplicating response tokens along with a custom attention mask to enable single-pass processing of entire conversations. We prove our method produces identical losses to the N-pass approach while reducing time complexity from $O\bigl(N^{3}\bigl)$ to $O\bigl(N^{2}\bigl)$ and maintaining the same memory complexity for a transformer based model. Our approach achieves significant training speedup while preserving accuracy. Our implementation is available online (https://github.com/devrev/One-Pass-to-Reason).
- Abstract(参考訳): マルチターン推論データセット上の微調整大型言語モデル(LLM)では、トークンの可視性の制約を推論するため、会話毎にN(ターン数)の前方パスを分離する必要がある。
本稿では,会話全体のシングルパス処理を可能にするために,応答トークンの複製と,カスタムアテンションマスクを提案する。
提案手法は, 時間的複雑性を$O\bigl(N^{3}\bigl)$から$O\bigl(N^{2}\bigl)$に減らし, 変圧器モデルで同じメモリ複雑性を維持するとともに, N-passアプローチと同一の損失を生じさせることを示す。
提案手法は,精度を保ちながらトレーニングの高速化を実現する。
私たちの実装はオンラインで利用可能です(https://github.com/devrev/One-Pass-to-Reason)。
関連論文リスト
- Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation [50.001816497407475]
本研究では,Mixture-of-Recursions (MoR)を導入した。
MoRはパラメータ効率を達成するために再帰ステップをまたいだ共有レイヤのスタックを再利用し、軽量ルータは適応トークンレベルの思考を可能にする。
また、KVペアを最初の再帰から再利用するKV共有変種を提案し、特にプリフィルレイテンシとメモリフットプリントの削減を図っている。
論文 参考訳(メタデータ) (2025-07-14T17:49:00Z) - Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
本稿では,LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - Zero Token-Driven Deep Thinking in LLMs: Unlocking the Full Potential of Existing Parameters via Cyclic Refinement [43.548042892597536]
本稿では,ヘッドテールデカップリングパラメータサイクリング方式を特徴とするZero Token Transformer (ZTT)を提案する。
最初の(頭)層と最後の(尾)層をパラメータサイクリングから切り離し、中間層のみを反復的に洗練します。
提案手法は, 厳密なパラメータ予算下での優れた性能を実現し, 早期出口による計算オーバーヘッドを効果的に低減し, 既存の訓練済みモデルに容易に適用することができる。
論文 参考訳(メタデータ) (2025-02-17T04:37:22Z) - ST$^3$: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming [14.937905258757635]
$textbfST3$は、再トレーニングせずにMLLM推論を高速化するように設計されたフレームワークである。
$textbfST3$は、既存のトレーニング済みMLLMにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-12-28T10:17:29Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Prompt Recursive Search: A Living Framework with Adaptive Growth in LLM Auto-Prompting [22.025533583703126]
大規模言語モデル(LLM)のためのPRS(Prompt Recursive Search)フレームワークを提案する。
PRSフレームワークは、問題複雑性と調整可能な構造の評価を取り入れ、エラーの可能性の低減を確実にする。
The Chain of Thought(CoT)法と比較して, PRS法は, Llama3-7Bモデルを用いてBBHデータセットの精度を8%向上し, 22%の改善を実現した。
論文 参考訳(メタデータ) (2024-08-02T17:59:42Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - PaSS: Parallel Speculative Sampling [29.23180061749074]
言語モデルのサイズを数千億のパラメータに拡大すると、幅広いタスクにおいて素晴らしいパフォーマンスが得られます。
生成時にこれらのモデルは自動回帰的に使用され、生成されたトークンごとにフォワードパスを必要とし、メモリからパラメータの完全なセットを読み取る。
有望なパフォーマンス(最大30%$スピードアップ)を示しますが、追加のパラメータは$O(d_emb)$でしかありません。
論文 参考訳(メタデータ) (2023-11-22T18:37:27Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Learning to Recover from Multi-Modality Errors for Non-Autoregressive
Neural Machine Translation [38.123025955523836]
非自己回帰型ニューラルネットワーク翻訳(NAT)は、ターゲットシーケンス全体を同時に予測し、推論プロセスを著しく加速する。
本稿では,セグメントのシーケンスとして変換を生成する半自己回帰モデルRecoverSATを提案する。
セグメント長と繰り返し削除セグメントを動的に決定することにより、RecoverSATは繰り返しおよび欠落したトークンエラーから回復することができる。
広範に使用されている3つのベンチマークデータセットによる実験結果から,提案モデルでは,対応する自己回帰モデルと同等の性能を維持しつつ,4$times$の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-06-09T10:12:16Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。