論文の概要: Layer-wise MoE Routing Locality under Shared-Prefix Code Generation: Token-Identity Decomposition and Compile-Equivalent Fork Redundancy
- arxiv url: http://arxiv.org/abs/2604.17182v1
- Date: Sun, 19 Apr 2026 00:56:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.374876
- Title: Layer-wise MoE Routing Locality under Shared-Prefix Code Generation: Token-Identity Decomposition and Compile-Equivalent Fork Redundancy
- Title(参考訳): 共有プリフィックス符号生成における層状MoEルーティングの局所性:Token-Identity分解とCompile-Equivalent Fork冗長性
- Authors: Shun-ichiro Hayashi, Daichi Mukunoki, Tetsuya Hoshino, Takahiro Katagiri,
- Abstract要約: LLMベースのコード生成では、複数のコード候補が同じプロンプトから並列に生成されることが多い。
Qwen3.5-35B-A3B-FP8を共有接頭辞から木探索に基づく分岐生成により検討した。
ビーム検索を含むトップP検索の多様性は、大きな課題であることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In LLM-based code generation, multiple code candidates are often generated in parallel from the same prompt -- for example, in best-of-N sampling or multi-candidate code completion. These requests can share KV caches through a common prefix, yet the extent to which their Mixture-of-Experts (MoE) expert routing overlaps, and how this overlap varies across layers, remains insufficiently understood. We study Qwen3.5-35B-A3B-FP8 (256 routed experts, top-8) by performing tree-search-based branching generation from a shared prefix (851 completed codes, temperature 0.7) and analyzing the results with a compiler-output-based alignment (gcc -S -O0 assembly) that controls for token-identity confounds. Our findings are threefold: (1) At positions where both sequences generated the same token, Jaccard similarity reaches 0.649 (40x random), while even at positions with different tokens it remains 0.175 (11x random). (2) A layer-wise decomposition reveals a crossing pattern: same-token routing similarity exceeds different-token similarity across all layers, but dips in the middle layers (L14-20), while different-token similarity peaks in the middle layers at 14x random. (3) In tree-search code generation, 67% of successfully compiled codes concentrate in the top three assembly-equivalent groups, and 99.6% of within-group differences consist of comments and blank lines. We show that diversity in top-P search, including beam search, poses a significant challenge. These results refine the "context-independent routing" claim of prior work through layer-wise decomposition and suggest opportunities for improving search efficiency in LLM code generation.
- Abstract(参考訳): LLMベースのコード生成では、複数のコード候補が同じプロンプトから並列に生成されることが多い。
これらのリクエストは、共通のプレフィックスを通じてKVキャッシュを共有することができるが、彼らのMixture-of-Experts (MoE)専門家のルーティングが重複する範囲と、この重複が層によってどのように異なるかは、まだ十分に理解されていない。
Qwen3.5-35B-A3B-FP8(256個のルート付きエキスパート、トップ8)は、共有プレフィックス(851個の完了コード、温度0.7)からツリー検索ベースの分岐生成を実行し、トークンの同一性を制御したコンパイラ出力ベースのアライメント(gcc -S -O0アセンブリ)を用いて結果を分析する。
1) 両方の配列が同じトークンを生成する位置では、ジャカードの類似性は0.649(40xランダム)に達するが、異なるトークンを持つ位置でも0.175(11xランダム)のままである。
2) 階層分割では,すべての層で同一の経路類似度が異なっていたが,中間層では低値 (L14-20) となり,中間層では14倍ランダムに異なる経路類似度がピークとなる。
(3)ツリー検索コード生成では、コンパイルされたコードの67%が上位3つのアセンブリ等価グループに集中しており、99.6%はコメントと空白行で構成されている。
ビーム検索を含むトップP検索の多様性は、大きな課題であることを示している。
これらの結果は,レイヤ分割による事前作業の“コンテキスト非依存ルーティング”の主張を洗練させ,LLMコード生成における探索効率向上の機会を示唆する。
関連論文リスト
- MARS$^2$: Scaling Multi-Agent Tree Search via Reinforcement Learning for Code Generation [29.92851142870157]
強化学習(RL)パラダイムは、コード生成のような推論集約的なタスクに強いパフォーマンスを示してきた。
独立に最適化されたエージェントが協力する統一RLフレームワークである textbfMARS$2$ (Multi-Agent Reinforced Tree-Search Scaling) を提案する。
論文 参考訳(メタデータ) (2026-04-16T02:52:24Z) - Divide and Conquer: Accelerating Diffusion-Based Large Language Models via Adaptive Parallel Decoding [6.755667885643806]
拡散に基づく大規模言語モデル(dLLM)は、様々な推論タスクで有望なパフォーマンスを示している。
適応型並列復号法であるDiCoを導入し,三相分割コンカレントパラダイムを特徴とする。
大規模な実験により、DiCoは競争力のある生成品質を維持しながら、大きな推論スピードアップを達成できることが示された。
論文 参考訳(メタデータ) (2026-02-27T08:36:06Z) - Hierarchical Embedding Fusion for Retrieval-Augmented Code Generation [6.4453302264198165]
コード補完のためのリポジトリ表現のための2段階のアプローチである階層埋め込み融合(HEF)を提案する。
HEFはスニペットベースの検索ベースラインに匹敵する正確なマッチング精度を達成する。
グラフベースおよび反復検索システムと比較して、HEFは中央値のエンドツーエンドのレイテンシを13倍から26倍に削減する。
論文 参考訳(メタデータ) (2026-02-04T14:56:11Z) - Improving Diffusion Language Model Decoding through Joint Search in Generation Order and Token Space [110.80564213032729]
拡散言語モデル(DLM)は、多くの可能なデコード軌道を探索できる順序に依存しない生成を提供する。
生成順序とトークン値を共同で検索することで,この空間を探索する。
論文 参考訳(メタデータ) (2026-01-28T07:55:07Z) - Lookahead Tree-Based Rollouts for Enhanced Trajectory-Level Exploration in Reinforcement Learning with Verifiable Rewards [48.321707628011005]
Lookahead Tree-Based Rollouts (LATR) は、軌道レベルの多様性を明確に促進するために設計された新しいロールアウト戦略である。
LATRはポリシー学習を平均で131%加速し、最終パス@1パフォーマンスを4.2%向上させる。
論文 参考訳(メタデータ) (2025-10-28T11:12:02Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - Hierarchical Matching and Reasoning for Multi-Query Image Retrieval [113.44470784756308]
マルチクエリ画像検索のための階層マッチング・推論ネットワーク(HMRN)を提案する。
MQIRを3つの階層的なセマンティック表現に分解し、きめ細かい局所的な詳細、文脈的グローバルスコープ、高レベルの固有の相関をキャプチャする責任を負う。
我々のHMRNは最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2023-06-26T07:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。