論文の概要: Semantic Specialization in MoE Appears with Scale: A Study of DeepSeek R1 Expert Specialization
- arxiv url: http://arxiv.org/abs/2502.10928v1
- Date: Sat, 15 Feb 2025 23:37:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 20:34:44.741945
- Title: Semantic Specialization in MoE Appears with Scale: A Study of DeepSeek R1 Expert Specialization
- Title(参考訳): スケールによるMoEのセマンティックスペシャライゼーション:DeepSeek R1専門家スペシャライゼーションの検討
- Authors: Matthew Lyle Olson, Neale Ratzlaff, Musashi Hinck, Man Luo, Sungduk Yu, Chendi Xue, Vasudev Lal,
- Abstract要約: オープンソースのMixture-of-Experts(MoE)モデルであるDeepSeek-R1は、プロプライエタリフロンティアモデルに匹敵する推論能力を実証した。
ルーティング機構が従来のMoEモデルよりもセマンティックな特化を示すかどうかを検討する。
We conclusion that DeepSeek-R1's routing mechanism are more semantically aware and involved in structured Cognitive process。
- 参考スコア(独自算出の注目度): 7.457737671087695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: DeepSeek-R1, the largest open-source Mixture-of-Experts (MoE) model, has demonstrated reasoning capabilities comparable to proprietary frontier models. Prior research has explored expert routing in MoE models, but findings suggest that expert selection is often token-dependent rather than semantically driven. Given DeepSeek-R1's enhanced reasoning abilities, we investigate whether its routing mechanism exhibits greater semantic specialization than previous MoE models. To explore this, we conduct two key experiments: (1) a word sense disambiguation task, where we examine expert activation patterns for words with differing senses, and (2) a cognitive reasoning analysis, where we assess DeepSeek-R1's structured thought process in an interactive task setting of DiscoveryWorld. We conclude that DeepSeek-R1's routing mechanism is more semantically aware and it engages in structured cognitive processes.
- Abstract(参考訳): オープンソースのMixture-of-Experts(MoE)モデルであるDeepSeek-R1は、プロプライエタリフロンティアモデルに匹敵する推論能力を実証した。
以前の研究では、MoEモデルのエキスパートルーティングが検討されていたが、専門家の選択は意味論的に駆動されるのではなく、しばしばトークンに依存していることが示唆された。
DeepSeek-R1の強化推論能力を考えると、そのルーティング機構が従来のMoEモデルよりもセマンティックな特殊化を示すかどうかを検討する。
本研究では,(1)異なる感覚を持つ単語に対する専門的なアクティベーションパターンを探索する単語感覚曖昧化タスク,(2)認知的推論分析,(2)DeepSeek-R1の構造化思考過程を,DiscoveryWorldの対話的タスク設定で評価する2つの重要な実験を行う。
We conclusion that DeepSeek-R1's routing mechanism are more semantically aware and involved in structured Cognitive process。
関連論文リスト
- Unveiling Hidden Collaboration within Mixture-of-Experts in Large Language Models [5.211806751260724]
本稿では,専門家間の協調パターンを明らかにする階層型スパース辞書学習法を提案する。
また、コントリビューション・アウェア・エキスパート・プルーニング(CAEP)アルゴリズムを導入し、低コントリビューション・エキスパートを効果的に育成する。
論文 参考訳(メタデータ) (2025-04-16T04:06:15Z) - Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations [48.890534958441016]
大規模MOEモデルにおける領域の特殊化と専門的冗長性について検討する。
本稿では,最も関係のある専門家のみを識別・保持するための簡易で効果的な刈取フレームワークであるEASY-EPを提案する。
提案手法は,DeepSeek-R1を完全かつ半分のエキスパートで,同じメモリ予算で同等の性能と2.99タイムのスループットを達成できる。
論文 参考訳(メタデータ) (2025-04-09T11:34:06Z) - DeepSeek-R1 Thoughtology: Let's <think> about LLM Reasoning [31.805726635329595]
本稿では,DeepSeek-R1の思考長,長期的・紛らわしい文脈の管理,文化的・安全性に関する影響と制御性について検討する。
DeepSeek-R1には、余分な推論時間によってモデルパフォーマンスが損なわれるような推論の‘スイートスポット’がある。
また、DeepSeek-R1の安全性上の脆弱性は、非合理的な脆弱性と比べても大きい。
論文 参考訳(メタデータ) (2025-04-02T00:36:08Z) - DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。
現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。
本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文 参考訳(メタデータ) (2025-03-17T04:06:34Z) - Mixture of Tunable Experts - Behavior Modification of DeepSeek-R1 at Inference Time [1.1655046053160683]
本稿では,Large Language Models(LLMs)のMixture-of-Expertsアーキテクチャを拡張する手法を提案する。
MoTEは、推論時間中のLLMにおける有意義で集中的な振る舞い変化を可能にする。
論文 参考訳(メタデータ) (2025-02-16T12:24:39Z) - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.16121855209246]
第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。
DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。
DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
論文 参考訳(メタデータ) (2025-01-22T15:19:35Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Attention Heads of Large Language Models: A Survey [10.136767972375639]
我々は,大規模言語モデル (LLM) の内部的推論過程を体系的に検討し,その役割と機構を解明することを目的としている。
まず,人間の思考プロセスにインスパイアされた新しい4段階のフレームワーク,知識のリコール,文脈内同定,潜在推論,表現準備を紹介する。
本稿では,これらの特殊ヘッドの発見に使用する実験手法を,モデリング自由法とモデリング要求法という2つのカテゴリに分けて分析する。
論文 参考訳(メタデータ) (2024-09-05T17:59:12Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - A Closer Look into Mixture-of-Experts in Large Language Models [26.503570706063634]
エクササイズ・オブ・エクササイズ(Mixture-of-experts, MOE)は,その特性と顕著な性能から注目を集めている。
MoEアーキテクチャは計算効率を犠牲にすることなくモデルサイズを増大させることができる。
本稿は,MoEベースの大規模言語モデルの内部動作を理解するための最初の試みである。
論文 参考訳(メタデータ) (2024-06-26T10:07:57Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。