論文の概要: Probing with Noise: Unpicking the Warp and Weft of Embeddings
- arxiv url: http://arxiv.org/abs/2210.12206v1
- Date: Fri, 21 Oct 2022 19:33:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 12:52:17.210846
- Title: Probing with Noise: Unpicking the Warp and Weft of Embeddings
- Title(参考訳): 雑音で探す:埋め込みのワープとワフトを解き放つ
- Authors: Filip Klubi\v{c}ka, John D. Kelleher
- Abstract要約: ベクトルノルムは言語情報も持てると論じる。
提案手法は,探索フレームワークの拡張である。
英語GloVe と BERT の埋め込みにおける別個の情報コンテナの存在を裏付ける証拠が見つかった。
- 参考スコア(独自算出の注目度): 2.9874726192215157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving our understanding of how information is encoded in vector space can
yield valuable interpretability insights. Alongside vector dimensions, we argue
that it is possible for the vector norm to also carry linguistic information.
We develop a method to test this: an extension of the probing framework which
allows for relative intrinsic interpretations of probing results. It relies on
introducing noise that ablates information encoded in embeddings, grounded in
random baselines and confidence intervals. We apply the method to
well-established probing tasks and find evidence that confirms the existence of
separate information containers in English GloVe and BERT embeddings. Our
correlation analysis aligns with the experimental findings that different
encoders use the norm to encode different kinds of information: GloVe stores
syntactic and sentence length information in the vector norm, while BERT uses
it to encode contextual incongruity.
- Abstract(参考訳): ベクトル空間における情報のエンコード方法の理解を改善することで、貴重な解釈可能性の洞察が得られる。
ベクトル次元と並行して、ベクトルノルムは言語情報も持つことができると主張する。
提案手法は,探索結果の相対的内在的解釈を可能にする,探索フレームワークの拡張である。
埋め込みでエンコードされ、ランダムなベースラインと信頼区間に基礎を置く情報をアブレーションするノイズの導入に依存している。
本手法を確立された探索課題に適用し,英語GloVe と BERT の埋め込みにおける個別情報コンテナの存在を確認する証拠を見つける。
相関分析は、異なるエンコーダが異なる種類の情報をエンコードするためにノームを使用しているという実験結果と一致している: グローブは、構文と文の長さ情報をベクトルノルムに保存し、bertは、コンテクスト・インフォメーション・インフォメーションのエンコードに使用する。
関連論文リスト
- Tracking linguistic information in transformer-based sentence embeddings through targeted sparsification [1.6021932740447968]
トランスフォーマーモデルの解析により、テキスト入力から様々な言語情報をエンコードしていることが示されている。
文埋め込みにおいて,チャンク(特に名詞,動詞,前置詞句)に関する情報がどの程度に局所化できるかをテストする。
以上の結果から,これらの情報は文の埋め込み全体に分散するのではなく,特定の領域にエンコードされていることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-25T15:27:08Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - Idioms, Probing and Dangerous Things: Towards Structural Probing for
Idiomaticity in Vector Space [2.5288257442251107]
本研究の目的は, 埋め込まれた慣用的な情報がどのように構造的にコード化されているか, より深く知ることである。
静的 (GloVe) とコンテキスト埋め込み (BERT) の比較検討を行った。
実験の結果,慣用性がベクトルノルムに符号化されているかどうかの矛盾する証拠が得られた。
論文 参考訳(メタデータ) (2023-04-27T17:06:20Z) - Norm of Word Embedding Encodes Information Gain [7.934452214142754]
静的単語埋め込みの2乗ノルムは,単語が伝達する情報ゲインを符号化することを示す。
また、KLの発散と埋め込みの2乗ノルムの両方が、単語の有意性を示す有用な指標であることを示した。
論文 参考訳(メタデータ) (2022-12-19T17:45:07Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - The Interpretable Dictionary in Sparse Coding [4.205692673448206]
我々の研究では、スパースコーディングを特定の空間的制約の下で訓練したANNが、標準的なディープラーニングモデルよりも解釈可能なモデルを生成することを説明している。
スパース符号で学習した辞書はより容易に理解でき、これらの要素の活性化は選択的な特徴出力を生成する。
論文 参考訳(メタデータ) (2020-11-24T00:26:40Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。
我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T13:11:02Z) - Spying on your neighbors: Fine-grained probing of contextual embeddings
for information about surrounding words [12.394077144994617]
本稿では,周辺単語の情報エンコーディングのためのコンテキスト埋め込みのきめ細かいテストを可能にする探索タスクのスイートを紹介する。
我々は、人気のあるBERT、ELMoおよびGPTコンテキストエンコーダを調べ、テストされた情報型が実際にトークン間でコンテキスト情報としてエンコードされていることを発見した。
トークン埋め込みを構築する際に,異なる種類のモデルがどのように分解し,単語レベルのコンテキスト情報を優先するかについて,これらの結果の意味を論じる。
論文 参考訳(メタデータ) (2020-05-04T19:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。