論文の概要: Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers
- arxiv url: http://arxiv.org/abs/2210.05709v1
- Date: Tue, 11 Oct 2022 18:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:43:26.510710
- Title: Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers
- Title(参考訳): シャプレーヘッドプルーニング : 多言語トランスフォーマーにおける干渉の同定と除去
- Authors: William Held and Diyi Yang
- Abstract要約: 言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
- 参考スコア(独自算出の注目度): 54.4919139401528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual transformer-based models demonstrate remarkable zero and
few-shot transfer across languages by learning and reusing language-agnostic
features. However, as a fixed-size model acquires more languages, its
performance across all languages degrades, a phenomenon termed interference.
Often attributed to limited model capacity, interference is commonly addressed
by adding additional parameters despite evidence that transformer-based models
are overparameterized. In this work, we show that it is possible to reduce
interference by instead identifying and pruning language-specific parameters.
First, we use Shapley Values, a credit allocation metric from coalitional game
theory, to identify attention heads that introduce interference. Then, we show
that removing identified attention heads from a fixed model improves
performance for a target language on both sentence classification and
structural prediction, seeing gains as large as 24.7\%. Finally, we provide
insights on language-agnostic and language-specific attention heads using
attention visualization.
- Abstract(参考訳): 多言語トランスフォーマーに基づくモデルは、言語に依存しない特徴を学習し再利用することによって、言語間での顕著なゼロと少数ショットの転送を示す。
しかし、固定サイズのモデルがより多くの言語を取得すると、すべての言語のパフォーマンスが低下する。
モデルキャパシティに制限があるため、しばしば干渉は、トランスフォーマーベースのモデルが過パラメータ化されているという証拠にもかかわらず、追加パラメータを追加することで対処される。
そこで本研究では,言語固有のパラメータを識別し,刈り取ることで干渉を低減できることを示す。
まず,連立ゲーム理論の信用割当指標であるshapley valuesを用いて,介入を生じさせる注意ヘッドの同定を行う。
そして,定型モデルから同定された注目ヘッドを除去することで,文分類と構造予測の両方において目標言語の性能が向上し,最大24.7\%のゲインが得られることを示す。
最後に,注意の可視化を用いた言語非依存および言語固有の注意ヘッドに関する洞察を提供する。
関連論文リスト
- A Transformer with Stack Attention [84.18399019794036]
本稿では,変圧器をベースとした言語モデルの拡張手法を提案する。
我々のスタックベースのアテンションメカニズムは、トランスフォーマーベースの言語モデルに組み込むことができ、モデルに解釈可能性のレベルを追加することができる。
スタックベースのアテンション機構の追加により、トランスフォーマーは、決定論的文脈自由言語をモデル化できるが、全てではない。
論文 参考訳(メタデータ) (2024-05-07T17:47:57Z) - Language-Independent Representations Improve Zero-Shot Summarization [18.46817967804773]
下流生成タスクで事前訓練されたモデルを微調整すると、ゼロショット条件で大惨事に陥ることが多い。
本研究では,要約に焦点をあて,言語に依存しない表現のレンズを用いてこの問題に対処する。
まず, 出力挙動と内部表現の両面において, 微調整モデルが非常に言語固有であることが示され, その結果, ゼロショット性能は低下した。
論文 参考訳(メタデータ) (2024-04-08T17:56:43Z) - Understanding the effects of language-specific class imbalance in
multilingual fine-tuning [0.0]
変換器をベースとしたLarge Language Model (LLM) を不均衡なデータセットで微調整すると性能が低下することを示す。
各言語ごとにクラス重みを別々に計算することで、従来のクラス重み付けアプローチを不均衡に修正する。
論文 参考訳(メタデータ) (2024-02-20T13:59:12Z) - Roles of Scaling and Instruction Tuning in Language Perception: Model
vs. Human Attention [58.817405319722596]
本研究は,複数の大規模言語モデル (LLM) を異なる大きさで自己意識的に比較し,言語知覚に対するスケーリングと指導指導の効果を評価する。
その結果,スケーリングは人間の類似性を向上し,簡単なパターン依存を減らし,効果的な注意力を高める一方で,命令チューニングは行わないことがわかった。
また、現在のLLMは、注目されているネイティブスピーカーよりも、常に非ネイティブに近づき、全てのモデルの準最適言語知覚が示唆されている。
論文 参考訳(メタデータ) (2023-10-29T17:16:40Z) - Unveiling Multilinguality in Transformer Models: Exploring Language
Specificity in Feed-Forward Networks [12.7259425362286]
多言語モデルがキー値記憶をどのように活用するかを検討する。
2つ以上の言語で訓練された自己回帰モデルに対して、すべてのニューロン(層全体)は全ての言語に等しく反応するのか?
その結果,ネットワークの入力や出力に最も近い層は,中間層に比べて言語固有の振る舞いを示す傾向があることがわかった。
論文 参考訳(メタデータ) (2023-10-24T06:45:00Z) - Lifting the Curse of Multilinguality by Pre-training Modular
Transformers [72.46919537293068]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。
言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。
我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文 参考訳(メタデータ) (2022-05-12T17:59:56Z) - Language Model Priming for Cross-Lingual Event Extraction [1.8734449181723827]
本稿では,イベント抽出作業のための"プライミング"言語モデルに対する,言語に依存しない新しいアプローチを提案する。
本研究では,スパースおよびノイズの多い学習データの不足を言語モデルで補うことにより,ゼロショットの言語間設定において,引き起こしと引数の検出と分類の両面での精度を向上することを示す。
論文 参考訳(メタデータ) (2021-09-25T15:19:32Z) - On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文 参考訳(メタデータ) (2020-10-06T20:48:58Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。