Fugu-MT 論文翻訳(概要): Discovering Knowledge-Critical Subnetworks in Pretrained Language Models

論文の概要: Discovering Knowledge-Critical Subnetworks in Pretrained Language Models

arxiv url: http://arxiv.org/abs/2310.03084v2
Date: Tue, 15 Oct 2024 14:12:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:29.474622
Title: Discovering Knowledge-Critical Subnetworks in Pretrained Language Models
Title（参考訳）: 事前学習言語モデルにおける知識批判サブネットの発見
Authors: Deniz Bayazit, Negar Foroutan, Zeming Chen, Gail Weiss, Antoine Bosselut,
Abstract要約: 事前訓練言語モデル(LM)は、そのパラメータにおける知識の暗黙的な表現を符号化する。これらの表現をローカライズし、それらを互いに切り離すことは、未解決の問題である。本稿では、重みとニューロンの両方に適用可能な多目的微分可能なマスキング手法を提案する。
参考スコア（独自算出の注目度）: 21.289607777063104
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pretrained language models (LMs) encode implicit representations of knowledge in their parameters. However, localizing these representations and disentangling them from each other remains an open problem. In this work, we investigate whether pretrained language models contain various knowledge-critical subnetworks: particular sparse computational subgraphs that can, if removed, precisely suppress specific knowledge the model has memorized. We propose a multi-objective differentiable masking scheme that can be applied to both weights and neurons to discover such subnetworks and show that we can use them to precisely remove specific knowledge from models while minimizing adverse effects on the behavior of the original model. We demonstrate our method on multiple GPT2 variants, uncovering highly sparse subnetworks (98%+ sparsity) that are critical for expressing specific collections of relational knowledge. When these subnetworks are removed, the remaining network maintains most of its initial abilities but struggles to represent the suppressed knowledge.
Abstract（参考訳）: 事前訓練言語モデル(LM)は、そのパラメータにおける知識の暗黙的な表現を符号化する。しかしながら、これらの表現をローカライズし、それらを互いに切り離すことは、未解決の問題である。本研究では,事前学習された言語モデルに様々な知識クリティカルなサブネットが存在するか否かを検討する。このようなサブネットの発見に重みとニューロンの両方に適用可能な多目的微分可能なマスキング方式を提案し,モデルの振る舞いに対する悪影響を最小限に抑えながら,モデルから特定の知識を正確に除去できることを示す。本手法を複数のGPT2変種に応用し,関係知識の特定のコレクションを表現する上で重要な部分ネットワーク(98%以上の疎性)を明らかにした。これらのサブネットが取り除かれると、残りのネットワークはその初期能力のほとんどを維持できるが、抑制された知識を表現するのに苦労する。

関連論文リスト

Weight Factorization and Centralization for Continual Learning in Speech Recognition [55.63455095283984]
リハーサルのない多言語、言語に依存しない状態でモデルを継続的に訓練することは、破滅的な忘れを招きかねない。人間の脳が覚醒サイクルを通じて知識を学習・統合する能力に着想を得て,継続的な学習手法を提案する。
論文参考訳（メタデータ） (2025-06-19T19:59:24Z)
Extracting Multi-valued Relations from Language Models [36.944060044138304]
我々は, 潜在言語表現を解析し, 実体化された多目的関係知識を得る可能性について検討する。候補オブジェクトのランク付けには,既存のプロンプト技術を評価し,ドメイン知識を取り入れた新しい手法を提案する。選択法のうち、学習された関係性特異しきい値よりも高い確率で対象を選択すると、49.5%のF1スコアが得られる。
論文参考訳（メタデータ） (2023-07-06T16:48:32Z)
IF2Net: Innately Forgetting-Free Networks for Continual Learning [49.57495829364827]
継続的な学習は、以前に学んだ知識に干渉することなく、新しい概念を漸進的に吸収することができる。ニューラルネットワークの特性に触発され,本研究は,IF2Net(Innately Forgetting-free Network)の設計方法について検討した。 IF2Netは、1つのネットワークがテスト時にタスクのIDを告げることなく、本質的に無制限のマッピングルールを学習することを可能にする。
論文参考訳（メタデータ） (2023-06-18T05:26:49Z)
Self-Evolution Learning for Discriminative Language Model Pretraining [103.57103957631067]
自己進化学習(Self-Evolution Learning、SE)は、単純で効果的なトークンマスキングと学習方法である。 SEは情報的だが未探索のトークンを学習することに集中し、新しいToken固有のラベル平滑化アプローチを導入してトレーニングを適応的に調整する。
論文参考訳（メタデータ） (2023-05-24T16:00:54Z)
Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis [20.316056261749946]
本稿では,明示的な知識グラフを取り入れたエンドツーエンドのビジョンと言語モデルを提案する。また,暗黙的ネットワーク演算子を用いた対話型アウト・オブ・ディストリビューション・レイヤを導入する。実際に,視覚的質問応答,視覚的推論,画像テキスト検索など,複数の視覚および言語下流タスクにモデルを適用した。
論文参考訳（メタデータ） (2023-02-11T05:46:21Z)
The KITMUS Test: Evaluating Knowledge Integration from Multiple Sources in Natural Language Understanding Systems [87.3207729953778]
我々は、データセット上で最先端のコア参照解決モデルを評価する。いくつかのモデルは、事前訓練時間と推論時間の両方で観察された知識について、オンザフライで推論するのに苦労している。それでも、最高のパフォーマンスモデルでさえ、推論時にのみ提示される知識を確実に統合するのは難しいようです。
論文参考訳（メタデータ） (2022-12-15T23:26:54Z)
Multi-Modal Few-Shot Object Detection with Meta-Learning-Based Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文参考訳（メタデータ） (2022-04-16T16:45:06Z)
Learning Debiased and Disentangled Representations for Semantic Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文参考訳（メタデータ） (2021-10-31T16:15:09Z)
Disentangling Representations of Text by Masking Transformers [27.6903196190087]
トランスウェイトや隠れたユニット上のバイナリマスクを学習し、特定の変動要因と相関する特徴のサブセットを明らかにします。本稿では,映画評論における感情表現をジャンルから切り離す能力,つぶやきにおける方言からの「毒性」,意味論からの構文について評価する。
論文参考訳（メタデータ） (2021-04-14T22:45:34Z)
Facts as Experts: Adaptable and Interpretable Neural Memory over Symbolic Knowledge [38.48518306055536]
我々は、象徴的解釈可能な事実情報とサブシンボル的神経知識との明確なインターフェースを含むニューラル言語モデルを開発する。このモデルは,2つの知識集約型質問応答タスクの性能を劇的に向上させることを示す。
論文参考訳（メタデータ） (2020-07-02T03:05:41Z)
Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文参考訳（メタデータ） (2020-06-11T17:02:20Z)
One-vs-Rest Network-based Deep Probability Model for Open Set Recognition [6.85316573653194]
インテリジェントな自己学習システムは、既知の例と未知の例を区別することができるべきである。 1-vs-restネットワークは、よく使われるSoftMaxレイヤよりも、未知の例に対して、より有益な隠れ表現を提供することができる。提案した確率モデルは、オープンセットの分類シナリオにおいて最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2020-04-17T05:24:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。