論文の概要: What Context Features Can Transformer Language Models Use?
- arxiv url: http://arxiv.org/abs/2106.08367v1
- Date: Tue, 15 Jun 2021 18:38:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:31:29.063183
- Title: What Context Features Can Transformer Language Models Use?
- Title(参考訳): トランスフォーマー言語モデルで使えるコンテキスト機能は何か?
- Authors: Joe O'Connor and Jacob Andreas
- Abstract要約: 英語ウィキペディアで学習したトランスフォーマー言語モデルにおいて,語彙情報と構造情報を選択的に評価することにより,有用な情報を測定する。
中・長距離両方のコンテキストにおいて、いくつかの極めて破壊的なコンテキスト操作が使用可能な情報の15%未満を除去していることが判明した。
- 参考スコア(独自算出の注目度): 32.49689188570872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based language models benefit from conditioning on contexts of
hundreds to thousands of previous tokens. What aspects of these contexts
contribute to accurate model prediction? We describe a series of experiments
that measure usable information by selectively ablating lexical and structural
information in transformer language models trained on English Wikipedia. In
both mid- and long-range contexts, we find that several extremely destructive
context manipulations -- including shuffling word order within sentences and
deleting all words other than nouns -- remove less than 15% of the usable
information. Our results suggest that long contexts, but not their detailed
syntactic and propositional content, are important for the low perplexity of
current transformer language models.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、数百から数千の以前のトークンのコンテキストのコンディショニングの恩恵を受ける。
これらのコンテキストのどの側面が正確なモデル予測に寄与するのか?
英語wikipediaで学習したトランスフォーマー言語モデルにおいて,語彙情報と構造情報を選択的にアブレーションすることにより,有用な情報を測定する一連の実験について述べる。
中・長距離両方の文脈において、文中の単語順のシャッフルや名詞以外のすべての単語の削除など、非常に破壊的な文脈操作が、使用可能な情報の15%未満を除去している。
以上の結果から,従来のトランスフォーマー言語モデルの低難易度化には,長いコンテキストが重要であることが示唆された。
関連論文リスト
- Tracking linguistic information in transformer-based sentence embeddings through targeted sparsification [1.6021932740447968]
トランスフォーマーモデルの解析により、テキスト入力から様々な言語情報をエンコードしていることが示されている。
文埋め込みにおいて,チャンク(特に名詞,動詞,前置詞句)に関する情報がどの程度に局所化できるかをテストする。
以上の結果から,これらの情報は文の埋め込み全体に分散するのではなく,特定の領域にエンコードされていることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-25T15:27:08Z) - Conditional Language Learning with Context [19.708303468664088]
本研究では、条件ファインタニングと呼ばれる因果言語モデリングの簡易な修正を提案する。
我々は、あるコンテキストが特定のコーパス統計を「説明」し、モデルがそれらを学ぶのを避けることができることを示す。
論文 参考訳(メタデータ) (2024-06-04T05:22:24Z) - Explaining How Transformers Use Context to Build Predictions [0.1749935196721634]
言語生成モデルは、以前の文脈に基づいて単語を生成する。
レイヤ全体にわたって、事前の言葉がモデルの判断にどのような影響を及ぼすかは、いまだに不明である。
本稿では,トランスフォーマーの説明可能性の最近の進歩を活用し,言語生成のためのモデル解析手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T18:29:10Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Do Context-Aware Translation Models Pay the Right Attention? [61.25804242929533]
コンテキスト対応機械翻訳モデルは文脈情報を活用するように設計されているが、しばしば失敗する。
本稿では,人間の翻訳者が曖昧な単語を解くために使用する文脈について述べる。
SCAT(Supporting Context for Ambiguous Translations)は、14K翻訳のコンテキストワードをサポートする新しい英仏データセットです。
SCATを用いて,支援語の位置的特徴と語彙的特徴をあいまいにするために使用される文脈を詳細に分析する。
論文 参考訳(メタデータ) (2021-05-14T17:32:24Z) - Investigating representations of verb bias in neural language models [7.455546102930909]
本稿では,5Kの異なる文対に対する5Kの人的判断を含むベンチマークデータセットであるDAISを紹介する。
このデータセットは200のユニークな動詞を含み、体系的に引数の定性や長さを変える。
このデータセットと、既存の自然発生データコーパスを使用して、最近のニューラルネットワークモデルがいかに人間の好みを捉えるかを評価する。
論文 参考訳(メタデータ) (2020-10-05T22:39:08Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。