論文の概要: Task-Conditioned Routing Signatures in Sparse Mixture-of-Experts Transformers
- arxiv url: http://arxiv.org/abs/2603.11114v1
- Date: Wed, 11 Mar 2026 12:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.52277
- Title: Task-Conditioned Routing Signatures in Sparse Mixture-of-Experts Transformers
- Title(参考訳): Sparse Mixture-of-Experts Transformersにおけるタスク記述型ルーティング信号
- Authors: Mynampati Sri Ranganadha Avinash,
- Abstract要約: 与えられたプロンプトに対して、各レイヤにまたがる専門家アクティベーションパターンを要約したベクトル表現であるルーティングシグネチャを導入する。
同一タスクカテゴリからのプロンプトは、非常に類似したルーティングシグネチャを誘導する一方、異なるカテゴリからのプロンプトは、かなり類似度が低いことを示す。
ルーティングシグネチャのみに訓練されたロジスティック回帰は、4方向タスク分類において92.5%+/-6.1%のクロスバリデーション精度を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Mixture-of-Experts (MoE) architectures enable efficient scaling of large language models through conditional computation, yet the routing mechanisms responsible for expert selection remain poorly understood. In this work, we introduce routing signatures, a vector representation summarizing expert activation patterns across layers for a given prompt, and use them to study whether MoE routing exhibits task-conditioned structure. Using OLMoE-1B-7B-0125-Instruct as an empirical testbed, we show that prompts from the same task category induce highly similar routing signatures, while prompts from different categories exhibit substantially lower similarity. Within-category routing similarity (0.8435 +/- 0.0879) significantly exceeds across-category similarity (0.6225 +/- 0.1687), corresponding to Cohen's d = 1.44. A logistic regression classifier trained solely on routing signatures achieves 92.5% +/- 6.1% cross-validated accuracy on four-way task classification. To ensure statistical validity, we introduce permutation and load-balancing baselines and show that the observed separation is not explained by sparsity or balancing constraints alone. We further analyze layer-wise signal strength and low-dimensional projections of routing signatures, finding that task structure becomes increasingly apparent in deeper layers. These results suggest that routing in sparse transformers is not merely a balancing mechanism, but a measurable task-sensitive component of conditional computation. We release MOE-XRAY, a lightweight toolkit for routing telemetry and analysis.
- Abstract(参考訳): Sparse Mixture-of-Experts (MoE) アーキテクチャは、条件付き計算による大規模言語モデルの効率的なスケーリングを可能にするが、専門家の選択に責任を負うルーティング機構は理解されていない。
本研究では,与えられたプロンプトの層間における専門家アクティベーションパターンを要約したベクトル表現であるルーティングシグネチャを導入し,MoEルーティングがタスク条件付き構造を示すかどうかを調べる。
OLMoE-1B-7B-0125-インストラクトを経験的テストベッドとして用いた結果,同一タスクカテゴリからのプロンプトは極めてよく似たルーティングシグネチャを誘導し,異なるカテゴリからのプロンプトは極めて低い類似性を示すことがわかった。
カテゴリ内ルーティング類似性(0.8435 +/- 0.0879)は、コーエンのd = 1.44に対応するカテゴリ間類似性(0.6225 +/- 0.1687)を大幅に上回る。
ルーティングシグネチャのみに訓練されたロジスティック回帰分類器は、4方向タスク分類において92.5%+/-6.1%のクロスバリデーション精度を達成する。
統計的妥当性を確保するため、置換および負荷分散ベースラインを導入し、観測された分離が分散性や制約のバランスだけで説明されないことを示す。
さらに、ルーティングシグネチャの階層的信号強度と低次元投影を分析し、より深い層でタスク構造がますます明らかになることを示した。
これらの結果から,スパース変圧器のルーティングは単なるバランス機構ではなく,条件付き計算のタスク感性成分であることが示唆された。
テレメトリと分析をルーティングするための軽量ツールキットMOE-XRAYをリリースする。
関連論文リスト
- TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Routing by Analogy: kNN-Augmented Expert Assignment for Mixture-of-Experts [32.65737144630759]
Mixture-of-Experts (MoE)アーキテクチャは、パラメトリックな"router"を使用して、トークンを専門家のまばらなサブセットにディスパッチすることで、大きな言語モデルを効率的にスケールする。
我々は、類似したケースのメモリから最適な専門家の割り当てを再利用する検索強化ルーティングフレームワークであるkNN-MoEを紹介する。
実験の結果、kNN-MoEはゼロショットベースラインよりも優れており、計算コストのかかる微調整に匹敵することがわかった。
論文 参考訳(メタデータ) (2026-01-05T14:16:11Z) - Route-DETR: Pairwise Query Routing in Transformers for Object Detection [11.46025964297103]
Detection Transformer (DETR) はオブジェクト検出のためのエンドツーエンドソリューションを提供する。
DETRは、複数のクエリが同じ位置に収束する非効率なクエリ競合に悩まされている。
本稿では,デコーダの自己アテンション層における適応的ペアワイズルーティングを通じて,これらの問題に対処するRoute-DETRを提案する。
論文 参考訳(メタデータ) (2025-12-15T20:26:58Z) - Automated Circuit Interpretation via Probe Prompting [0.0]
本稿では、帰属グラフをコンパクトで解釈可能な部分グラフに変換する自動パイプラインであるプローブプロンプトを提案する。
5つのプロンプトにまたがって、プローブプロンプトされたサブグラフは、複雑さを圧縮しながら高い説明的カバレッジを保っている。
幾何学的クラスタリングベースラインと比較すると、概念整列群はより高い行動コヒーレンスを示す。
論文 参考訳(メタデータ) (2025-11-10T11:53:36Z) - RouteMark: A Fingerprint for Intellectual Property Attribution in Routing-based Model Merging [69.2230254959204]
我々は,統合されたMoEモデルにおけるIP保護のためのフレームワークであるRouteMarkを提案する。
我々の重要な洞察は、タスク固有の専門家は、探索入力の下で安定かつ独特なルーティング行動を示すことである。
属性と改ざん検出のために,類似性に基づくマッチングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-08-03T14:51:58Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - How not to Stitch Representations to Measure Similarity: Task Loss Matching versus Direct Matching [0.7366405857677227]
タスク損失マッチングは類似度指標として非常に誤解を招く可能性があると我々は主張する。
これは非常に遠い層の間の非常に高い類似性を示し、その表現は異なる機能特性を持つことが知られている。
さらに驚くべきことに、同一ネットワーク内のレイヤを比較する場合、タスク損失マッチングは、一部のレイヤがそれ自身よりもレイヤに類似していることを示すことが多い。
論文 参考訳(メタデータ) (2024-12-15T20:18:49Z) - Semantic-Aligned Matching for Enhanced DETR Convergence and Multi-Scale
Feature Fusion [95.7732308775325]
提案したDetection TRansformer (DETR) は、オブジェクト検出のための完全なエンドツーエンドパラダイムを確立している。
DETRは遅いトレーニング収束に悩まされており、様々な検出タスクの適用性を妨げている。
我々は,DETRの収束を加速し,検出性能を向上させるためにセマンティック・アラインド・マッチDreTR++を設計する。
論文 参考訳(メタデータ) (2022-07-28T15:34:29Z) - StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。
本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。
その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-18T16:48:19Z) - Learning to Generate Content-Aware Dynamic Detectors [62.74209921174237]
サンプル適応型モデルアーキテクチャを自動的に生成する効率的な検出器の設計を新たに導入する。
動的ルーティングの学習を導くために、オブジェクト検出に適したコースツーファインの成層図を紹介します。
MS-COCOデータセットの実験により、CADDetはバニラルーティングに比べて10%少ないFLOPで1.8以上のmAPを達成することが示された。
論文 参考訳(メタデータ) (2020-12-08T08:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。