論文の概要: Routing in Sparsely-gated Language Models responds to Context
- arxiv url: http://arxiv.org/abs/2409.14107v1
- Date: Sat, 21 Sep 2024 11:25:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 03:33:25.648952
- Title: Routing in Sparsely-gated Language Models responds to Context
- Title(参考訳): 疎文言語モデルのルーティングがコンテキストに応答する
- Authors: Stefan Arnold, Marian Fietta, Dilara Yesilbas,
- Abstract要約: 類似性アノテーション付きテキストペアのルーティング決定をトレースし、学習したトークン-専門家の割り当てのコンテキスト感度を評価する。
エンコーダ層内のルーティングは,主に(意味的)アソシエーションに依存するが,文脈的キューは付加的な改善のレイヤを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language Models (LMs) recently incorporate mixture-of-experts layers consisting of a router and a collection of experts to scale up their parameter count given a fixed computational budget. Building on previous efforts indicating that token-expert assignments are predominantly influenced by token identities and positions, we trace routing decisions of similarity-annotated text pairs to evaluate the context sensitivity of learned token-expert assignments. We observe that routing in encoder layers mainly depends on (semantic) associations, but contextual cues provide an additional layer of refinement. Conversely, routing in decoder layers is more variable and markedly less sensitive to context.
- Abstract(参考訳): 言語モデル(LM)は、最近ルータと専門家の集合からなる専門知識の混合層を組み込んで、固定された計算予算によってパラメータ数をスケールアップした。
トークン・エキスパート・アサインがトークンのアイデンティティと位置に影響されていることを示す以前の取り組みに基づいて、類似性アノテートされたテキストペアのルーティング決定をトレースし、学習されたトークン・エキスパート・アサインのコンテキスト感度を評価する。
エンコーダ層内のルーティングは,主に(意味的)アソシエーションに依存するが,文脈的キューは付加的な改善のレイヤを提供する。
逆に、デコーダ層のルーティングはより可変であり、コンテキストに対する感度が著しく低い。
関連論文リスト
- Tabular Learning: Encoding for Entity and Context Embeddings [0.0]
異なるエンコーディング手法がエンティティとコンテキストの埋め込みに与える影響を調べる。
複数のデータセットに異なる前処理方法とネットワークアーキテクチャを適用することで、エンコーダがネットワークの学習結果にどのように影響するかのベンチマークが得られた。
論文 参考訳(メタデータ) (2024-03-28T13:29:29Z) - Breaking Down Word Semantics from Pre-trained Language Models through
Layer-wise Dimension Selection [0.0]
本稿では,レイヤ間の中間出力にバイナリマスクを適用することにより,BERTから意味感覚を分離することを目的とする。
2つの異なる文の目的語が同じ意味を持つかどうかを判定するために、二分分類により、アンタングル埋め込みを評価する。
論文 参考訳(メタデータ) (2023-10-08T11:07:19Z) - CoT-MoTE: Exploring ConTextual Masked Auto-Encoder Pre-training with
Mixture-of-Textual-Experts for Passage Retrieval [23.69812399753584]
コンテクチュアル・マスク付きオートエンコーダは,モノリシックなデュアルエンコーダのコンテクスト前処理におけるボトルネックの表現に有効であることが証明されている。
We propose to Pre-train Contextual Masked Auto-Encoder with Mixture-of-Textual-Experts (CoT-MoTE)。
論文 参考訳(メタデータ) (2023-04-20T10:12:09Z) - Quantifying Context Mixing in Transformers [13.98583981770322]
自己注意重みとその変換された変種は、トランスフォーマーモデルにおけるトークンとトークンの相互作用を分析するための主要な情報源となっている。
本稿では,トランスフォーマー用にカスタマイズされた新しいコンテキスト混合スコアであるValue Zeroingを提案する。
論文 参考訳(メタデータ) (2023-01-30T15:19:02Z) - ConTextual Mask Auto-Encoder for Dense Passage Retrieval [49.49460769701308]
CoT-MAEは,高密度経路抽出のための簡易かつ効果的な生成前訓練法である。
文のセマンティクスを高密度ベクトルに圧縮する学習は、自己教師付きおよび文脈教師付きマスキングによる自動エンコーディングによって行われる。
我々は,大規模経路探索ベンチマークの実験を行い,強力なベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2022-08-16T11:17:22Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - On the Representation Collapse of Sparse Mixture of Experts [102.83396489230375]
専門家のまばらな混合は、一定の計算オーバーヘッドを必要としながら、より大きなモデルキャパシティを提供する。
入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。
しかし、そのようなルーティングメカニズムを学ぶことで、専門家のセントロイドを中心にトークンのクラスタリングが促進され、表現の崩壊の傾向が示唆される。
論文 参考訳(メタデータ) (2022-04-20T01:40:19Z) - Transferring Semantic Knowledge Into Language Encoders [6.85316573653194]
意味的意味表現から言語エンコーダへ意味的知識を伝達する手法である意味型ミッドチューニングを導入する。
このアライメントは分類や三重項の損失によって暗黙的に学習できることを示す。
提案手法は, 推論, 理解, テキストの類似性, その他の意味的タスクにおいて, 予測性能の向上を示す言語エンコーダを生成する。
論文 参考訳(メタデータ) (2021-10-14T14:11:12Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。