論文の概要: R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing
- arxiv url: http://arxiv.org/abs/2505.21600v1
- Date: Tue, 27 May 2025 16:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.204685
- Title: R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing
- Title(参考訳): R2R:小型モデルToken Routingを用いたダイバージェント推論経路の効率的なナビゲーション
- Authors: Tianyu Fu, Yi Ge, Yichen You, Enshu Liu, Zhihang Yuan, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang,
- Abstract要約: LLM(Large Language Models)とSmall Language Models(SLM)の間には,比較的少数のトークンが真の推論経路を分岐していることが示されている。
R2R)**は,これらのクリティカルな経路分割トークンに対してのみ LLM を選択的に利用するニューラルトークンルーティング手法である。
R2RはR1-7Bの平均精度を1.6倍にし、R1-14Bモデルよりも優れている。
- 参考スコア(独自算出の注目度): 14.43790894048467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) achieve impressive reasoning capabilities at the cost of substantial inference overhead, posing substantial deployment challenges. Although distilled Small Language Models (SLMs) significantly enhance efficiency, their performance suffers as they fail to follow LLMs' reasoning paths. Luckily, we reveal that only a small fraction of tokens genuinely diverge reasoning paths between LLMs and SLMs. Most generated tokens are either identical or exhibit neutral differences, such as minor variations in abbreviations or expressions. Leveraging this insight, we introduce **Roads to Rome (R2R)**, a neural token routing method that selectively utilizes LLMs only for these critical, path-divergent tokens, while leaving the majority of token generation to the SLM. We also develop an automatic data generation pipeline that identifies divergent tokens and generates token-level routing labels to train the lightweight router. We apply R2R to combine R1-1.5B and R1-32B models from the DeepSeek family, and evaluate on challenging math, coding, and QA benchmarks. With an average activated parameter size of 5.6B, R2R surpasses the average accuracy of R1-7B by 1.6x, outperforming even the R1-14B model. Compared to R1-32B, it delivers a 2.8x wall-clock speedup with comparable performance, advancing the Pareto frontier of test-time scaling efficiency. Our code is available at https://github.com/thu-nics/R2R.
- Abstract(参考訳): 大きな言語モデル(LLM)は、相当な推論オーバーヘッドを犠牲にして、印象的な推論機能を実現し、相当なデプロイメント上の課題を引き起こします。
蒸留されたSmall Language Models (SLM) は効率を著しく向上させるが、それらの性能はLLMの推論経路に従わなかった。
幸いなことに、LLMとSLMの間には、実際に推論経路が分かれているトークンはごくわずかである。
ほとんどの生成されたトークンは、略語や表現の小さなバリエーションなど、同一または中立的な違いを示す。
この知見を活かした**Roads to Rome (R2R)*は、クリティカルなパス分割トークンのみにLLMを選択的に利用し、トークン生成の大部分をSLMに任せる、ニューラルトークンルーティング手法である。
また、分散トークンを識別し、軽量ルータをトレーニングするためのトークンレベルのルーティングラベルを生成する自動データ生成パイプラインも開発している。
我々は、DeepSeekファミリーのR1-1.5BモデルとR1-32Bモデルを組み合わせるためにR2Rを適用し、挑戦的な数学、コーディング、QAベンチマークを評価する。
平均活性化パラメータサイズ 5.6B で、R2R は R1-7B の平均精度 1.6x を超え、R1-14B モデルよりも優れている。
R1-32Bと比較して、2.8倍のウォールクロックスピードアップを実現し、テスト時間スケーリング効率のParetoフロンティアを前進させた。
私たちのコードはhttps://github.com/thu-nics/R2R.comで利用可能です。
関連論文リスト
- STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs [49.41782982417187]
MLLM(Multimodal Large Language Models)は、様々なタスクにまたがる顕著な能力を示すが、空間的推論において人間よりもはるかに遅れている。
このギャップを変換駆動型視覚推論(TVR)を用いて検討する。
本稿では,STAR-R1を提案する。STAR-R1は単一ステージのRLパラダイムとTVRに適した微細な報酬機構を統合した新しいフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T17:57:38Z) - Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。
重要でないトークンを適応的に識別する学習可能なルータを提案する。
提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文 参考訳(メタデータ) (2024-12-16T07:09:46Z) - SpecHub: Provable Acceleration to Multi-Draft Speculative Decoding [28.76164449548306]
MDSD(Multi-Draft Speculative Decoding)は、より小さなドラフトモデルを用いて複数のトークンシーケンスを生成することで、有望なソリューションを提供する。
線形計算オーバーヘッドのみで受け入れ率を向上するMDSDの新しい,効率的なサンプリング検証手法であるSpecHubを提案する。
論文 参考訳(メタデータ) (2024-11-08T02:47:07Z) - PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition [78.67749936030219]
Prune-Adjust-Re-Prune (PARP) は、より優れたASR性能を実現するための細工品を発見する。
低リソースの英語および多言語ASRの実験では、事前訓練された音声SSLにスパースワークが存在する。
論文 参考訳(メタデータ) (2021-06-10T17:32:25Z) - FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2020-08-06T08:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。