論文の概要: Linguistic Interpretability of Transformer-based Language Models: a systematic review
- arxiv url: http://arxiv.org/abs/2504.08001v1
- Date: Wed, 09 Apr 2025 08:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:19:21.700052
- Title: Linguistic Interpretability of Transformer-based Language Models: a systematic review
- Title(参考訳): トランスフォーマーに基づく言語モデルの言語学的解釈可能性:体系的レビュー
- Authors: Miguel López-Otal, Jorge Gracia, Jordi Bernad, Carlos Bobed, Lucía Pitarch-Ballesteros, Emma Anglés-Herrero,
- Abstract要約: Transformerアーキテクチャに基づく言語モデルは、多くの言語関連タスクにおいて優れた結果をもたらす。
しかし、それらの内部計算がどのように結果を達成するかは分かっていない。
しかし、「解釈可能性」という一連の研究は、これらのモデル内でどのように情報がエンコードされているかを学ぶことを目的としている。
- 参考スコア(独自算出の注目度): 1.3194391758295114
- License:
- Abstract: Language models based on the Transformer architecture achieve excellent results in many language-related tasks, such as text classification or sentiment analysis. However, despite the architecture of these models being well-defined, little is known about how their internal computations help them achieve their results. This renders these models, as of today, a type of 'black box' systems. There is, however, a line of research -- 'interpretability' -- aiming to learn how information is encoded inside these models. More specifically, there is work dedicated to studying whether Transformer-based models possess knowledge of linguistic phenomena similar to human speakers -- an area we call 'linguistic interpretability' of these models. In this survey we present a comprehensive analysis of 160 research works, spread across multiple languages and models -- including multilingual ones -- that attempt to discover linguistic information from the perspective of several traditional Linguistics disciplines: Syntax, Morphology, Lexico-Semantics and Discourse. Our survey fills a gap in the existing interpretability literature, which either not focus on linguistic knowledge in these models or present some limitations -- e.g. only studying English-based models. Our survey also focuses on Pre-trained Language Models not further specialized for a downstream task, with an emphasis on works that use interpretability techniques that explore models' internal representations.
- Abstract(参考訳): Transformerアーキテクチャに基づく言語モデルは、テキスト分類や感情分析など、多くの言語関連タスクにおいて優れた結果をもたらす。
しかしながら、これらのモデルのアーキテクチャは明確に定義されているにもかかわらず、それらの内部計算が結果の達成にどのように役立つかはほとんど分かっていない。
これにより、これらのモデルは、現在のような「ブラックボックス」システムの一種となる。
しかし、「解釈可能性」という一連の研究は、これらのモデル内でどのように情報がエンコードされているかを学ぶことを目的としている。
より具体的には、トランスフォーマーに基づくモデルが、人間の話者に類似した言語現象の知識を持っているかどうか、つまり、これらのモデルの「言語的解釈可能性」と呼ばれる領域について研究する研究がある。本調査では、従来の言語学の分野である構文、形態学、レクシコ・セマンティクス、言説といった分野から言語情報を見つけ出そうとする多言語モデルを含む160の研究成果を包括的に分析する。
我々の調査は、これらのモデルにおける言語知識に焦点を絞らない、あるいはいくつかの制限を提示する既存の解釈可能性文学のギャップを埋めている。
我々の調査は、下流タスクに特化していない事前訓練された言語モデルにも焦点を当てており、モデルの内部表現を探索する解釈可能性技術を用いた作業に重点を置いている。
関連論文リスト
- Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Feature Interactions Reveal Linguistic Structure in Language Models [2.0178765779788495]
本研究では,ポストホック解釈における特徴帰属手法の文脈における特徴的相互作用について検討した。
私たちは、正規言語分類タスクで完璧にモデルをトレーニングする灰色のボックスの方法論を開発します。
特定の構成下では、いくつかの手法が実際にモデルが獲得した文法規則を明らかにすることができることを示す。
論文 参考訳(メタデータ) (2023-06-21T11:24:41Z) - Universal and Independent: Multilingual Probing Framework for Exhaustive
Model Interpretation and Evaluation [0.04199844472131922]
多数の言語を簡単に探索できるGUI支援フレームワークを提案し,適用した。
mBERTモデルで明らかになった規則性のほとんどは、西欧語で典型的である。
私たちのフレームワークは,既存のプローブツールボックスやモデルカード,リーダボードと統合することができます。
論文 参考訳(メタデータ) (2022-10-24T13:41:17Z) - Integrating Linguistic Theory and Neural Language Models [2.870517198186329]
理論的言語学とニューラル言語モデルが相互にどのように関係しているかを説明するためのケーススタディをいくつか提示する。
この論文は、言語モデルにおける構文意味インタフェースの異なる側面を探求する3つの研究に貢献する。
論文 参考訳(メタデータ) (2022-07-20T04:20:46Z) - Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in
Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。
この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文 参考訳(メタデータ) (2022-04-13T10:32:03Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Schr\"odinger's Tree -- On Syntax and Neural Language Models [10.296219074343785]
言語モデルは、NLPのワークホースとして登場し、ますます流動的な生成能力を示している。
我々は、多くの次元にまたがる明瞭さの欠如を観察し、研究者が形成する仮説に影響を及ぼす。
本稿では,構文研究における様々な研究課題の意義について概説する。
論文 参考訳(メタデータ) (2021-10-17T18:25:23Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。