論文の概要: When FastText Pays Attention: Efficient Estimation of Word
Representations using Constrained Positional Weighting
- arxiv url: http://arxiv.org/abs/2104.09691v1
- Date: Mon, 19 Apr 2021 23:52:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:44:21.579783
- Title: When FastText Pays Attention: Efficient Estimation of Word
Representations using Constrained Positional Weighting
- Title(参考訳): fasttextが注意を払う:制約付き位置重み付けを用いた単語表現の効率的な推定
- Authors: V\'it Novotn\'y and Michal \v{S}tef\'anik and Eniafe Festus Ayetiran
and Petr Sojka
- Abstract要約: 位置ログビリナー言語モデルは、注意に基づく言語モデルの特徴を持ち、本質的な単語類似タスクで最先端のパフォーマンスを達成しました。
位置と制約のある位置モデルは、単語の順序に関する解釈可能な情報を含み、言語モデルにおけるサブワードモデルよりも優れていることを示す。
また,制約のある位置モデルは,言語モデルにおいて位置モデルよりも優れており,その2倍の速度を示す。
- 参考スコア(独自算出の注目度): 0.37687375904925485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the seminal work of Mikolov et al. (2013a) and Bojanowski et al.
(2017), word representations of shallow log-bilinear language models have found
their way into many NLP applications. Mikolov et al. (2018) introduced a
positional log-bilinear language model, which has characteristics of an
attention-based language model and which has reached state-of-the-art
performance on the intrinsic word analogy task. However, the positional model
has never been evaluated on qualitative criteria or extrinsic tasks and its
speed is impractical.
We outline the similarities between the attention mechanism and the
positional model, and we propose a constrained positional model, which adapts
the sparse attention mechanism of Dai et al. (2018). We evaluate the positional
and constrained positional models on three novel qualitative criteria and on
the extrinsic language modeling task of Botha and Blunsom (2014).
We show that the positional and constrained positional models contain
interpretable information about word order and outperform the subword model of
Bojanowski et al. (2017) on language modeling. We also show that the
constrained positional model outperforms the positional model on language
modeling and is twice as fast.
- Abstract(参考訳): ミコロフらによる独創的な作品から。
(2013a) と Bojanowski et al。
2017年、浅い対数双線形言語モデルの単語表現は多くのNLPアプリケーションに導入されている。
Mikolovら。
(2018) は,注目に基づく言語モデルの特徴を持つ位置対数双線形言語モデルを導入し,本質的な単語類似タスクで最先端のパフォーマンスを達成した。
しかしながら、位置モデルは定性的な基準や極端なタスクで評価されることはなく、その速度は実用的ではない。
注意機構と位置モデルとの類似性について概説し,dai等のスパース注意機構を適応した制約付き位置モデルを提案する。
(2018).
本研究では,3つの新しい定性基準と,Borta and Blunsom(2014)の外部言語モデリング課題に基づいて,位置モデルと制約付き位置モデルを評価する。
位置と制約のある位置モデルは、単語の順序に関する解釈可能な情報を含み、Bojanowskiらのサブワードモデルより優れていることを示す。
2017年) 言語モデル。
また,制約のある位置モデルは,言語モデルにおいて位置モデルよりも優れており,その2倍の速度を示す。
関連論文リスト
- Pixel Aligned Language Models [94.32841818609914]
我々は、位置を入力または出力として捉えることができる視覚言語モデルを開発した。
位置を入力として取ると、モデルが位置条件付きキャプションを実行し、指定対象または領域のキャプションを生成する。
本モデルでは,人間の注意を反映した画素単語対応キャプションを含むLocalized Narrative データセットを事前学習する。
論文 参考訳(メタデータ) (2023-12-14T18:57:58Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Improving Automatic Quotation Attribution in Literary Novels [21.164701493247794]
文学小説における引用帰属の現在のモデルでは、トレーニングやテストデータに利用可能な情報のレベルが異なると仮定している。
文芸小説における注釈付きコア推論と引用の膨大なデータセットを用いて、各サブタスクの最先端モデルを個別にベンチマークする。
また、話者帰属タスクのモデルの評価を行い、簡単な逐次予測モデルが最先端のモデルと同等の精度のスコアを得ることを示す。
論文 参考訳(メタデータ) (2023-07-07T17:37:01Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - The Curious Case of Absolute Position Embeddings [65.13827063579728]
トランスフォーマー言語モデルは、位置情報を用いた単語順序の概念を符号化する。
自然言語では、絶対的な位置ではなく相対的な位置であり、APEがこのような情報を捉えることができる範囲は研究されていない。
我々は, APE を用いて訓練されたモデルが, 位置情報をシフトした文を入力した時点で, 位置情報に基づいて過度に訓練されていることを観察した。
論文 参考訳(メタデータ) (2022-10-23T00:00:04Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。
二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。
より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文 参考訳(メタデータ) (2022-01-23T22:00:54Z) - Towards Trustworthy Deception Detection: Benchmarking Model Robustness
across Domains, Modalities, and Languages [10.131671217810581]
我々は、ドメイン外データ、モダリティ特化特徴、および英語以外の言語に対するモデルロバスト性を評価する。
我々は、追加の画像コンテンツを入力として、ELMo埋め込みはBERTまたはGLoVeと比較して大幅に少ないエラーをもたらすことを発見しました。
論文 参考訳(メタデータ) (2021-04-23T18:05:52Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Labeling Explicit Discourse Relations using Pre-trained Language Models [0.0]
最先端のモデルは手作りの機能を使ってFスコアの45%をわずかに上回っている。
事前訓練された言語モデルは、微調整された場合、言語的特徴を置き換えるのに十分強力であることがわかった。
言語的な特徴を使わずに、モデルが知識集約型モデルより優れているのは、これが初めてである。
論文 参考訳(メタデータ) (2020-06-21T17:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。