論文の概要: Information-Theoretic Probing for Linguistic Structure
- arxiv url: http://arxiv.org/abs/2004.03061v2
- Date: Fri, 22 May 2020 21:58:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 22:54:10.059631
- Title: Information-Theoretic Probing for Linguistic Structure
- Title(参考訳): 言語構造のための情報理論探索
- Authors: Tiago Pimentel, Josef Valvoda, Rowan Hall Maudslay, Ran Zmigrod, Adina
Williams, Ryan Cotterell
- Abstract要約: 本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
- 参考スコア(独自算出の注目度): 74.04862204427944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of neural networks on a diverse set of NLP tasks has led
researchers to question how much these networks actually ``know'' about natural
language. Probes are a natural way of assessing this. When probing, a
researcher chooses a linguistic task and trains a supervised model to predict
annotations in that linguistic task from the network's learned representations.
If the probe does well, the researcher may conclude that the representations
encode knowledge related to the task. A commonly held belief is that using
simpler models as probes is better; the logic is that simpler models will
identify linguistic structure, but not learn the task itself. We propose an
information-theoretic operationalization of probing as estimating mutual
information that contradicts this received wisdom: one should always select the
highest performing probe one can, even if it is more complex, since it will
result in a tighter estimate, and thus reveal more of the linguistic
information inherent in the representation. The experimental portion of our
paper focuses on empirically estimating the mutual information between a
linguistic property and BERT, comparing these estimates to several baselines.
We evaluate on a set of ten typologically diverse languages often
underrepresented in NLP research---plus English---totalling eleven languages.
- Abstract(参考訳): NLPタスクの多様なセットにおけるニューラルネットワークの成功により、研究者たちは、これらのネットワークが自然言語について実際に「知識」であるかを疑問視するようになった。
プローブはこのことを評価する自然な方法です。
調査中、研究者は言語的タスクを選択し、ネットワークの学習した表現から言語的タスクのアノテーションを予測するために教師付きモデルを訓練する。
プローブがうまくいった場合、研究者は、表象はタスクに関連する知識をエンコードしていると結論づけることができる。
論理学は、単純なモデルは言語構造を識別するが、タスク自体を学習しない、というものである。
本稿では,この知恵に反する相互情報を推定する情報理論の運用について提案する: より複雑である場合でも,常に最高性能のプローブを選択すべきであり,その結果,より厳密な推定結果となり,表現に固有の言語情報を明らかにする。
本論文は,言語特性とbert間の相互情報を経験的に推定することに焦点を当て,これらの推定値といくつかのベースラインを比較した。
我々は、NLP研究でしばしば表現されていない10の型的多様言語について評価する。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。
我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。
次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文 参考訳(メタデータ) (2022-07-04T22:14:40Z) - Is neural language acquisition similar to natural? A chronological
probing study [0.0515648410037406]
本稿では,MultiBERTやT5といったトランスフォーマー英語モデルの時系列探索について述べる。
コーパスの学習過程において,モデルが学習した言語に関する情報を比較した。
その結果,1)訓練の初期段階に言語情報を取得すること,2)両言語モデルが様々な言語レベルから様々な特徴を捉える能力を示した。
論文 参考訳(メタデータ) (2022-07-01T17:24:11Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Probing Across Time: What Does RoBERTa Know and When? [70.20775905353794]
言語知識は、ドメイン間で高速、安定、そして堅牢に獲得されることを示す。
事実と常識はより遅く、ドメインに敏感です。
クロスタイム探索は、これらのモデルが生み出す複雑で混ざった学習を理解するのに役立ち、必要な学習を迅速に行うためのより効率的なアプローチへと導いてくれると信じています。
論文 参考訳(メタデータ) (2021-04-16T04:26:39Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Probing the Probing Paradigm: Does Probing Accuracy Entail Task
Relevance? [27.64235687067883]
モデルが訓練されたタスクに必要のないモデルでも,言語特性の符号化を学習できることが示される。
ランダムノイズとしてデータに分散しても,これらの特性を確率レベルよりかなり上まで符号化できることを示す。
論文 参考訳(メタデータ) (2020-05-02T06:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。