論文の概要: Representations as Language: An Information-Theoretic Framework for Interpretability
- arxiv url: http://arxiv.org/abs/2406.02449v1
- Date: Tue, 4 Jun 2024 16:14:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 15:20:58.499442
- Title: Representations as Language: An Information-Theoretic Framework for Interpretability
- Title(参考訳): 言語としての表現:解釈可能性のための情報理論フレームワーク
- Authors: Henry Conklin, Kenny Smith,
- Abstract要約: 大規模ニューラルモデルは、幅広い言語的タスクにまたがる印象的なパフォーマンスを示す。
それにもかかわらず、それらは主にブラックボックスであり、解釈が難しい入力のベクトル表現を誘導する。
本稿では,モデルが文から表現へ学習するマッピングを,言語の一種として表現する,解釈可能性に対する新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 7.2129390689756185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large scale neural models show impressive performance across a wide array of linguistic tasks. Despite this they remain, largely, black-boxes - inducing vector-representations of their input that prove difficult to interpret. This limits our ability to understand what they learn, and when the learn it, or describe what kinds of representations generalise well out of distribution. To address this we introduce a novel approach to interpretability that looks at the mapping a model learns from sentences to representations as a kind of language in its own right. In doing so we introduce a set of information-theoretic measures that quantify how structured a model's representations are with respect to its input, and when during training that structure arises. Our measures are fast to compute, grounded in linguistic theory, and can predict which models will generalise best based on their representations. We use these measures to describe two distinct phases of training a transformer: an initial phase of in-distribution learning which reduces task loss, then a second stage where representations becoming robust to noise. Generalisation performance begins to increase during this second phase, drawing a link between generalisation and robustness to noise. Finally we look at how model size affects the structure of the representational space, showing that larger models ultimately compress their representations more than their smaller counterparts.
- Abstract(参考訳): 大規模ニューラルモデルは、幅広い言語的タスクにまたがる印象的なパフォーマンスを示す。
それにもかかわらず、それらは主にブラックボックスであり、解釈が難しい入力のベクトル表現を誘導する。
これにより、彼らが何を学び、いつ学習するかを理解する能力や、どのような表現が分布からうまく一般化するかを記述する能力が制限されます。
そこで本研究では,モデルが文から表現へ学習するマッピングを,言語の一種として表現する,解釈可能性に対する新たなアプローチを提案する。
そこで我々は,モデル表現が入力に対してどのように構造化されているか,また,学習中にその構造が生じるのかを定量化する情報理論尺度のセットを導入する。
我々の測度は計算が速く、言語理論に基礎を置いており、どのモデルがそれらの表現に基づいて最も良く一般化するかを予測することができる。
これらの手法を用いて,変圧器を訓練する2つの異なる段階,すなわち,タスク損失を低減させる分散学習の初期段階,および表現が雑音に頑健になる第2段階を記述した。
一般化性能は、この第2フェーズで増加し始め、一般化とノイズへの堅牢性の間にリンクを引いている。
最後に、モデルサイズが表現空間の構造にどのように影響するかを見て、より大きなモデルが最終的により小さなモデルよりも表現を圧縮することを示す。
関連論文リスト
- Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - High-dimensional distributed semantic spaces for utterances [0.2907403645801429]
本稿では,発話とテキストレベルデータの高次元表現モデルについて述べる。
言語情報を表現する数学的原理と行動学的に妥当なアプローチに基づいている。
本論文は,固定次元の共通積分フレームワークにおいて,実装モデルが言語的特徴を広範囲に表すことができるかを示す。
論文 参考訳(メタデータ) (2021-04-01T12:09:47Z) - Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。
文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。
いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-22T08:11:43Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。