論文の概要: Word Order and World Knowledge
- arxiv url: http://arxiv.org/abs/2403.00876v1
- Date: Fri, 1 Mar 2024 08:13:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 16:19:37.191134
- Title: Word Order and World Knowledge
- Title(参考訳): 語順と世界知識
- Authors: Qinghua Zhao, Vinit Ravishankar, Nicolas Garneau and Anders S{\o}gaard
- Abstract要約: 言語モデルを用いて,語順が生テキストから世界知識の誘導にどう影響するかを考察する。
具体的には、自然語順に加えて、5つの言語からそれぞれ6つの固定語順のテキストを抽出する。
- 参考スコア(独自算出の注目度): 9.22384870426709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word order is an important concept in natural language, and in this work, we
study how word order affects the induction of world knowledge from raw text
using language models. We use word analogies to probe for such knowledge.
Specifically, in addition to the natural word order, we first respectively
extract texts of six fixed word orders from five languages and then pretrain
the language models on these texts. Finally, we analyze the experimental
results of the fixed word orders on word analogies and show that i) certain
fixed word orders consistently outperform or underperform others, though the
specifics vary across languages, and ii) the Wov2Lex hypothesis is not hold in
pre-trained language models, and the natural word order typically yields
mediocre results. The source code will be made publicly available at
https://github.com/lshowway/probing_by_analogy.
- Abstract(参考訳): 語順は自然言語において重要な概念であり,本研究では,語順が原文からの世界知識の誘導にどう影響するかを言語モデルを用いて検討する。
このような知識を探究するために単語アナロジーを用いる。
具体的には、自然語順に加えて、5つの言語から6つの固定語順のテキストを抽出し、これらのテキスト上で言語モデルを事前訓練する。
最後に,単語類似語に対する固定語順の実験結果を分析し,そのことを示す。
一 特定の固定語順が、言語によって異なるが、一貫して他より優れ、又は劣る
ii)wov2lex仮説は、事前学習された言語モデルでは成立せず、典型的には自然語順は中途半端な結果をもたらす。
ソースコードはhttps://github.com/lshowway/probing_by_analogyで公開されている。
関連論文リスト
- Word Order's Impacts: Insights from Reordering and Generation Analysis [9.0720895802828]
現存する研究は、自然文中の単語の順序が与える影響について研究している。
この結果を踏まえ、単語順序に関する異なる仮説が提案されている。
ChatGPTは単語順序に依存するが、単語順序の語彙的意味論の間の冗長関係をサポートし、否定することはできない。
論文 参考訳(メタデータ) (2024-03-18T04:45:44Z) - A Cross-Linguistic Pressure for Uniform Information Density in Word
Order [79.54362557462359]
実数列が反実数列よりも大きな情報均一性をもたらすかどうかを計算モデルを用いて検証する。
SVO言語の中では、実語順は逆語順よりも一様である。
言語的に不可解な反実順序のみが、実際の順序の均一性を超えている。
論文 参考訳(メタデータ) (2023-06-06T14:52:15Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Word Order Does Matter (And Shuffled Language Models Know It) [9.990431777927421]
近年の研究では、ランダムに置換された文に対して事前訓練および/または微調整された言語モデルがGLUE上での競合性能を示すことが示されている。
シャッフルテキストエンコードから得られた位置埋め込みについて検討し、これらのモデルが元の自然主義的な単語順序に関する情報を保持することを示す。
論文 参考訳(メタデータ) (2022-03-21T14:10:15Z) - Pretraining without Wordpieces: Learning Over a Vocabulary of Millions
of Words [50.11559460111882]
本稿では,単語ではなく単語の語彙上で,BERTスタイルの事前学習モデルを開発する可能性について検討する。
その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。
パイプラインは言語に依存しないので、中国語でWordBERTを訓練し、5つの自然言語理解データセットで大きな利益を得る。
論文 参考訳(メタデータ) (2022-02-24T15:15:48Z) - Dict-BERT: Enhancing Language Model Pre-training with Dictionary [42.0998323292348]
事前学習型言語モデル(PLM)は,大規模コーパス上で自己指導型学習タスクを行うことで,普遍的な言語表現を学習することを目的としている。
本研究では,辞書におけるレアワードの定義を活用することで,言語モデル事前学習の強化に焦点をあてる。
入力テキストシーケンスとまれな単語定義間の単語と文レベルのアライメントに関する2つの新しい自己教師付き事前学習タスクを提案する。
論文 参考訳(メタデータ) (2021-10-13T04:29:14Z) - On the Evolution of Word Order [7.2610922684683645]
最適な言語は固定語順を持つ言語であることを示す。
また,ケースマーカーや名詞動詞の区別などの文に情報を追加することで,単語の順序を固定化する必要がなくなることを示す。
論文 参考訳(メタデータ) (2021-01-23T20:30:17Z) - Probing Pretrained Language Models for Lexical Semantics [76.73599166020307]
類型的多様言語と5つの異なる語彙課題にまたがる系統的経験分析を行った。
我々の結果は、普遍的に維持されるパターンとベストプラクティスを示しているが、言語やタスクにまたがる顕著なバリエーションを示している。
論文 参考訳(メタデータ) (2020-10-12T14:24:01Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。