論文の概要: Feature Interactions Reveal Linguistic Structure in Language Models
- arxiv url: http://arxiv.org/abs/2306.12181v1
- Date: Wed, 21 Jun 2023 11:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 13:49:28.967226
- Title: Feature Interactions Reveal Linguistic Structure in Language Models
- Title(参考訳): 言語モデルにおける特徴的相互作用
- Authors: Jaap Jumelet, Willem Zuidema
- Abstract要約: 本研究では,ポストホック解釈における特徴帰属手法の文脈における特徴的相互作用について検討した。
私たちは、正規言語分類タスクで完璧にモデルをトレーニングする灰色のボックスの方法論を開発します。
特定の構成下では、いくつかの手法が実際にモデルが獲得した文法規則を明らかにすることができることを示す。
- 参考スコア(独自算出の注目度): 2.0178765779788495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study feature interactions in the context of feature attribution methods
for post-hoc interpretability. In interpretability research, getting to grips
with feature interactions is increasingly recognised as an important challenge,
because interacting features are key to the success of neural networks. Feature
interactions allow a model to build up hierarchical representations for its
input, and might provide an ideal starting point for the investigation into
linguistic structure in language models. However, uncovering the exact role
that these interactions play is also difficult, and a diverse range of
interaction attribution methods has been proposed. In this paper, we focus on
the question which of these methods most faithfully reflects the inner workings
of the target models. We work out a grey box methodology, in which we train
models to perfection on a formal language classification task, using PCFGs. We
show that under specific configurations, some methods are indeed able to
uncover the grammatical rules acquired by a model. Based on these findings we
extend our evaluation to a case study on language models, providing novel
insights into the linguistic structure that these models have acquired.
- Abstract(参考訳): ポストホック解釈のための特徴帰属法の文脈における特徴的相互作用について検討した。
解釈可能性研究において、特徴の相互作用を握りしめることは、ニューラルネットワークの成功の鍵となる機能同士の相互作用が重要な課題として認識されるようになっている。
特徴的相互作用により、モデルはその入力に対して階層的な表現を構築することができ、言語モデルにおける言語構造の研究の出発点となるかもしれない。
しかし、これらの相互作用が果たす正確な役割を明らかにすることも困難であり、多様な相互作用帰属法が提案されている。
本稿では,これらの手法が対象モデルの内部動作を最も忠実に反映しているかという問題に焦点をあてる。
我々は, pcfgs を用いて, 形式的言語分類タスクを完全化するためにモデルを訓練するグレイボックス手法を考案した。
特定の構成下では、いくつかの手法が実際にモデルが獲得した文法規則を明らかにすることができることを示す。
これらの結果に基づいて,これらのモデルが獲得した言語構造に関する新たな知見を,言語モデルに関するケーススタディに拡張する。
関連論文リスト
- Linguistically Grounded Analysis of Language Models using Shapley Head Values [2.914115079173979]
最近提案されたシェープヘッド値(SHV)を用いた言語モデル探索手法を利用した形態素合成現象の処理について検討する。
英語のBLiMPデータセットを用いて、BERTとRoBERTaという2つの広く使われているモデルに対して、我々のアプローチを検証し、言語構造がどのように扱われるかを比較する。
以上の結果から,SHVに基づく属性は両モデルにまたがる異なるパターンを明らかにし,言語モデルがどのように言語情報を整理・処理するかの洞察を与える。
論文 参考訳(メタデータ) (2024-10-17T09:48:08Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Topics in Contextualised Attention Embeddings [7.6650522284905565]
最近の研究で、言語モデルから単語レベルの文脈表現をクラスタ化することは、潜在ディリクレ割当から単語の潜在トピックで見つかる単語クラスタをエミュレートすることを示した。
重要な疑問は、潜在トピックをモデル化するように明示的に設計されていない言語モデルにおいて、そのような話題の単語クラスタが、クラスタリングを通じてどのように自動的に形成されるかである。
BERT と DistilBERT を用いて,このような話題クラスタをモデル化する上で,アテンションフレームワークが重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2023-01-11T07:26:19Z) - Negation, Coordination, and Quantifiers in Contextualized Language
Models [4.46783454797272]
機能語の意味的制約が学習されるかどうか, 周辺環境が組み込む環境に与える影響について検討する。
我々は、適切なデータセットを作成し、LMs vis-a-vis関数ワードの内部動作に関する新たな洞察を提供し、質的分析のための補助的なビジュアルWebインターフェースを実装した。
論文 参考訳(メタデータ) (2022-09-16T10:01:11Z) - Language Model Cascades [72.18809575261498]
テスト時に1つのモデルで繰り返し対話する、あるいは複数のモデルの合成は、さらに機能を拡張する。
制御フローと動的構造を持つ場合、確率的プログラミングのテクニックが必要となる。
この観点から、スクラッチパッド/思考連鎖、検証器、STaR、選択推論、ツール利用など、いくつかの既存のテクニックを定式化します。
論文 参考訳(メタデータ) (2022-07-21T07:35:18Z) - Compositional Generalization in Grounded Language Learning via Induced
Model Sparsity [81.38804205212425]
グリッド環境における単純な言語条件のナビゲーション問題について考察する。
本研究では,オブジェクトの指示文と属性のスパース相関を助長するエージェントを設計し,それらを組み合わせて目的を導出する。
我々のエージェントは、少数のデモンストレーションから学習した場合でも、新しいプロパティの組み合わせを含む目標に対して高いレベルのパフォーマンスを維持している。
論文 参考訳(メタデータ) (2022-07-06T08:46:27Z) - Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。
我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。
次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文 参考訳(メタデータ) (2022-07-04T22:14:40Z) - Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in
Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。
この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文 参考訳(メタデータ) (2022-04-13T10:32:03Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。