Fugu-MT 論文翻訳(概要): Linguistically Grounded Analysis of Language Models using Shapley Head Values

論文の概要: Linguistically Grounded Analysis of Language Models using Shapley Head Values

arxiv url: http://arxiv.org/abs/2410.13396v1
Date: Thu, 17 Oct 2024 09:48:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.859319
Title: Linguistically Grounded Analysis of Language Models using Shapley Head Values
Title（参考訳）: シェープヘッド値を用いた言語モデルの言語学的基礎解析
Authors: Marcell Fekete, Johannes Bjerva,
Abstract要約: 最近提案されたシェープヘッド値(SHV)を用いた言語モデル探索手法を利用した形態素合成現象の処理について検討する。英語のBLiMPデータセットを用いて、BERTとRoBERTaという2つの広く使われているモデルに対して、我々のアプローチを検証し、言語構造がどのように扱われるかを比較する。以上の結果から,SHVに基づく属性は両モデルにまたがる異なるパターンを明らかにし,言語モデルがどのように言語情報を整理・処理するかの洞察を与える。
参考スコア（独自算出の注目度）: 2.914115079173979
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding how linguistic knowledge is encoded in language models is crucial for improving their generalisation capabilities. In this paper, we investigate the processing of morphosyntactic phenomena, by leveraging a recently proposed method for probing language models via Shapley Head Values (SHVs). Using the English language BLiMP dataset, we test our approach on two widely used models, BERT and RoBERTa, and compare how linguistic constructions such as anaphor agreement and filler-gap dependencies are handled. Through quantitative pruning and qualitative clustering analysis, we demonstrate that attention heads responsible for processing related linguistic phenomena cluster together. Our results show that SHV-based attributions reveal distinct patterns across both models, providing insights into how language models organize and process linguistic information. These findings support the hypothesis that language models learn subnetworks corresponding to linguistic theory, with potential implications for cross-linguistic model analysis and interpretability in Natural Language Processing (NLP).
Abstract（参考訳）: 言語モデルに言語知識がどのようにエンコードされているかを理解することは、その一般化能力を改善するために不可欠である。本稿では,Shapley Head Values (SHVs) を用いた言語モデル探索手法を用いて,形態素合成現象の処理について検討する。英語のBLiMPデータセットを用いて、BERTとRoBERTaという2つの広く使われているモデルを用いて、アッパホル合意やフィラーギャップ依存といった言語構造がどのように扱われるかを比較した。定量的プルーニングと定性的クラスタリング分析により,関連する言語現象のクラスタ化に寄与するアテンションヘッドが一括して動作することを示す。以上の結果から,SHVに基づく属性は両モデルにまたがる異なるパターンを明らかにし,言語モデルがどのように言語情報を整理・処理するかの洞察を与える。これらの結果は言語モデルが言語理論に対応するサブネットを学習する仮説を支持しており、自然言語処理(NLP)における言語横断的モデル解析と解釈可能性に潜在的に影響を及ぼす可能性がある。

関連論文リスト

The Grammar of Transformers: A Systematic Review of Interpretability Research on Syntactic Knowledge in Language Models [3.281168543761194]
本稿では,トランスフォーマーに基づく言語モデルの構文的能力を評価する337の論文を体系的にレビューする。以上の結果から, TLMは形式指向現象をよく捉えるが, 構文意味インタフェースにおける現象に対して, より可変かつ弱い性能を示すことが示唆された。
論文参考訳（メタデータ） (2026-01-09T16:34:19Z)
An Empirical Analysis of Discrete Unit Representations in Speech Language Modeling Pre-training [8.613149007067143]
モデルアーキテクチャ、データ表現、トレーニングロバスト性が事前学習ステージにどのように影響するかを系統的に検討する。クラスタ分布と音韻アライメントを調べた結果,離散語彙の有効利用について検討した。
論文参考訳（メタデータ） (2025-09-03T18:11:53Z)
Inductive Linguistic Reasoning with Large Language Models [0.0]
言語パズルのレンズを通して抽象多言語推論を行うための大規模言語モデルの能力について検討する。 2段階のプロシージャを使用し、まず言語モデルで類似の例を生成し、それを文脈内で適用する。 ModeLing データセットの結果から,言語文法の類似性に関するモデルの知識を抽出する上で,類似的なプロンプトが有効であることが示唆された。
論文参考訳（メタデータ） (2024-12-09T03:37:11Z)
Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文参考訳（メタデータ） (2024-05-08T00:18:56Z)
Explicit Morphological Knowledge Improves Pre-training of Language Models for Hebrew [19.4968960182412]
事前学習フェーズに明示的な形態的知識を組み込むことで、形態学的に豊かな言語に対するPLMの性能を向上させることができるという仮説を考察する。本研究では, モデルが生テキスト以外の形態的手がかりを活用できるように, 様々な形態的トークン化手法を提案する。実験により, 形態素によるトークン化は, 標準言語に依存しないトークン化と比較して, 改良された結果を示すことが示された。
論文参考訳（メタデータ） (2023-11-01T17:02:49Z)
Feature Interactions Reveal Linguistic Structure in Language Models [2.0178765779788495]
本研究では,ポストホック解釈における特徴帰属手法の文脈における特徴的相互作用について検討した。私たちは、正規言語分類タスクで完璧にモデルをトレーニングする灰色のボックスの方法論を開発します。特定の構成下では、いくつかの手法が実際にモデルが獲得した文法規則を明らかにすることができることを示す。
論文参考訳（メタデータ） (2023-06-21T11:24:41Z)
Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文参考訳（メタデータ） (2023-06-04T15:44:51Z)
Large Linguistic Models: Analyzing theoretical linguistic abilities of LLMs [7.4815059492034335]
大規模言語モデルでは,言語データの一貫性のある形式解析が可能であることを示す。形式言語学の3つのサブフィールド(構文、音韻学、意味論)に焦点を当てる。この調査の行は、モデル表現が明示的なプロンプトによってアクセスされる深層学習の行動解釈可能性を示している。
論文参考訳（メタデータ） (2023-05-01T17:09:33Z)
Testing Pre-trained Language Models' Understanding of Distributivity via Causal Mediation Analysis [13.07356367140208]
自然言語推論のための新しい診断データセットであるDistNLIを紹介する。モデルの理解の範囲は、モデルのサイズと語彙のサイズと関連していることがわかった。
論文参考訳（メタデータ） (2022-09-11T00:33:28Z)
Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文参考訳（メタデータ） (2022-04-13T10:32:03Z)
Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文参考訳（メタデータ） (2022-03-19T06:28:30Z)
A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文参考訳（メタデータ） (2022-01-20T15:01:12Z)
Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文参考訳（メタデータ） (2021-09-16T03:08:22Z)
Data Augmentation for Spoken Language Understanding via Pretrained Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文参考訳（メタデータ） (2020-04-29T04:07:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。