論文の概要: Polysemantic Experts, Monosemantic Paths: Routing as Control in MoEs
- arxiv url: http://arxiv.org/abs/2604.17837v1
- Date: Mon, 20 Apr 2026 05:47:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.715766
- Title: Polysemantic Experts, Monosemantic Paths: Routing as Control in MoEs
- Title(参考訳): 多意味的専門家, 単意味的パス: MoEsにおける制御としてのルーティング
- Authors: Charles Ye, Bo Yuan, Lee Sharkey,
- Abstract要約: 本研究では,Mixture-of-Expertsモデルのパラメータフリー分解を導入し,各層の隠れ状態を制御信号に分割する。
制御信号は層から層へと回転する抽象関数を符号化するのに対し, モデルでは, コンテンツチャネル内の面レベルの特徴(言語, トークンのアイデンティティ, 位置)を保存していることがわかった。
- 参考スコア(独自算出の注目度): 7.495049241374221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An LLM's residual stream is both state and instruction: it encodes the current context and determines the next transformation. We introduce a parameter-free decomposition for Mixture-of-Experts models that splits each layer's hidden state into a control signal that causally drives routing and an orthogonal content channel invisible to the router. Across six MoE architectures, we find that models preserve surface-level features (language, token identity, position) in the content channel, while the control signal encodes an abstract function that rotates from layer to layer. Because each routing decision is low-bandwidth, this hand-off forces compositional specialization across layers. While individual experts remain polysemantic, expert paths become monosemantic, clustering tokens by semantic function across languages and surface forms. The same token (e.g., ":") follows distinct trajectories depending on whether it serves as a type annotation, an introductory colon, or a time separator. Our decomposition identifies the source of this structure: clusters in the control subspace are substantially more monosemantic than those in the full representation. As a result, the natural unit of interpretability in MoEs is not the expert but the trajectory.
- Abstract(参考訳): LLMの残留ストリームは状態と命令の両方であり、現在のコンテキストを符号化し、次の変換を決定する。
そこで我々は,Mixture-of-Expertsモデルのパラメータフリー分解を導入し,各層の隠れ状態をルータに見えないルーティングと直交コンテンツチャネルを因果的に駆動する制御信号に分割する。
6つのMoEアーキテクチャ全体にわたって、制御信号は層から層へと回転する抽象関数を符号化するのに対し、モデルがコンテンツチャネルの面レベルの特徴(言語、トークンのアイデンティティ、位置)を保存していることが分かる。
各ルーティング決定は低帯域幅であるため、このハンドオフは層間の合成特殊化を強制する。
個々の専門家は多意味的であるが、専門家パスは単意味になり、言語や表面の形式にまたがる意味関数によってトークンをクラスタリングする。
同じトークン (eg , ":") は、型アノテーション、導入コロン、タイムセパレータとして機能するかによって異なるトラジェクトリに従う。
制御部分空間のクラスタは、完全な表現のクラスタよりもはるかに単意味である。
その結果、MoEsの自然な解釈可能性の単位は専門家ではなく軌道である。
関連論文リスト
- Learning Trajectory-Aware Multimodal Large Language Models for Video Reasoning Segmentation [55.743701532984126]
我々はTrajSegを提案する。TrajSegはマルチモーダル大規模言語モデル上に構築されたシンプルで統一されたフレームワークである。
本研究では,MLLMが接頭辞(テキスト・トゥ・トラジェクティブ)と接頭辞(テキスト・トゥ・テキスト)の指示を受理する双方向テキスト・トラジェクティブアライメントを提案する。
このようにして、MLLMは、ビデオの対応性の向上と、より知覚的なオブジェクトの軌跡の恩恵を受けることができる。
論文 参考訳(メタデータ) (2026-03-23T02:25:51Z) - DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - Emergent Semantics Beyond Token Embeddings: Transformer LMs with Frozen Visual Unicode Representations [1.0152838128195467]
埋め込み層が完全に凍結されたTransformerモデルを構築します。
我々の手法は、Unicode中心の新しいトークン化器を含む任意のトークン化器と互換性がある。
トレーニング可能なセマンティックな埋め込みがないにもかかわらず、私たちのモデルは収束し、一貫性のあるテキストを生成します。
論文 参考訳(メタデータ) (2025-07-07T11:17:32Z) - Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder [5.57393627015653]
Sa2VAで実証されたビデオセグメンタとグライダーアプローチは、セグメンテーションモデル内で機能を直接フューズする。
これはしばしば、動的視覚情報と静的意味論の好ましくない絡み合いが生じ、セグメント化の精度が低下する。
SAM-2に固有の情報処理制限に対処するため,テキスト事前学習と線形デカップリングモジュールを統合したデカップリング強化プロンプト方式であるDeSa2VAを提案する。
論文 参考訳(メタデータ) (2025-06-28T13:30:36Z) - Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
本稿では,空間意味的特徴と識別的オブジェクトクエリを学習する,ロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
DAVIS 2017 test (textbf87.8%)、YoutubeVOS 2019 (textbf88.1%)、MOSE val (textbf74.0%)、LVOS test (textbf73.0%)を含むベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Retro-FPN: Retrospective Feature Pyramid Network for Point Cloud
Semantic Segmentation [65.78483246139888]
本稿では,各点特徴量の予測を明示的かつふりかえり的な精錬プロセスとしてモデル化するRetro-FPNを提案する。
その重要な斬新さは、前層から意味コンテキストを要約するレトロ・トランスフォーマーである。
Retro-FPNは最先端のバックボーンよりも性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-18T05:28:25Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。