論文の概要: Disambiguatory Signals are Stronger in Word-initial Positions
- arxiv url: http://arxiv.org/abs/2102.02183v1
- Date: Wed, 3 Feb 2021 18:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 17:31:10.258520
- Title: Disambiguatory Signals are Stronger in Word-initial Positions
- Title(参考訳): 単語初期位置における曖昧な信号はより強い
- Authors: Tiago Pimentel, Ryan Cotterell, Brian Roark
- Abstract要約: 単語の初期と後期のセグメントの情報を比較するための既存の手法の相違点を指摘する。
何百もの言語にまたがって、言葉で情報を読み込むという言語横断的な傾向があるという証拠が見つかりました。
- 参考スコア(独自算出の注目度): 48.18148856974974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Psycholinguistic studies of human word processing and lexical access provide
ample evidence of the preferred nature of word-initial versus word-final
segments, e.g., in terms of attention paid by listeners (greater) or the
likelihood of reduction by speakers (lower). This has led to the conjecture --
as in Wedel et al. (2019b), but common elsewhere -- that languages have evolved
to provide more information earlier in words than later. Information-theoretic
methods to establish such tendencies in lexicons have suffered from several
methodological shortcomings that leave open the question of whether this high
word-initial informativeness is actually a property of the lexicon or simply an
artefact of the incremental nature of recognition. In this paper, we point out
the confounds in existing methods for comparing the informativeness of segments
early in the word versus later in the word, and present several new measures
that avoid these confounds. When controlling for these confounds, we still find
evidence across hundreds of languages that indeed there is a cross-linguistic
tendency to front-load information in words.
- Abstract(参考訳): 人間の単語処理と語彙アクセスに関する心理学的な研究は、例えば、聞き手(より大きい)の注意や話者(より低い)による還元の可能性といった、単語初期と単語最終セグメントの好ましい性質についての十分な証拠を提供する。
これは、Wedel et alのように、予想につながりました。
(2019b) 言語が遅かれ早かれ多くの情報を提供するよう進化してきたことは、他の場所では一般的である。
このような辞書の傾向を確立する情報理論的手法は、この高い単語初性が実際に辞書の性質であるか、あるいは単に認識の段階的な性質のアーティファクトであるかという疑問を解き放ついくつかの方法論的欠点に苦しんでいる。
本稿では,単語の初期段階と単語の後半におけるセグメントの情報度を比較する既存手法の問題点を指摘し,これらの欠点を避けるためのいくつかの新しい手段を提案する。
これらの混乱のために制御するとき、我々はまだ言葉で情報をフロントロードするクロス言語的傾向がある何百もの言語にまたがる証拠を見つけます。
関連論文リスト
- Neighboring Words Affect Human Interpretation of Saliency Explanations [65.29015910991261]
単語レベルのサリエンシの説明は、しばしばテキストベースのモデルで特徴属性を伝えるために使われる。
近年の研究では、単語の長さなどの表面的要因が、コミュニケーションされたサリエンシスコアの人間の解釈を歪めてしまうことが報告されている。
本研究では,単語の近傍にある単語のマーキングが,その単語の重要性に対する説明者の認識にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-05-04T09:50:25Z) - PWESuite: Phonetic Word Embeddings and Tasks They Facilitate [12.10365537294272]
我々は,音声による単語の埋め込みを構築するために,調音機能を利用する新しい手法を開発した。
コミュニティの発展, 評価, 利用を促進するために, 音声単語の組込みについて述べる。
論文 参考訳(メタデータ) (2023-04-05T16:03:42Z) - Contextualized language models for semantic change detection: lessons
learned [4.436724861363513]
本稿では,ダイアクロニック・セマンティック・チェンジを検出する文脈的埋め込みに基づく手法の出力の質的分析を行う。
本研究の結果から,文脈化手法は,実際のダイアクロニック・セマンティック・シフトを行なわない単語に対して,高い変化スコアを予測できることが示唆された。
我々の結論は、事前学習された文脈化言語モデルは、語彙感覚の変化と文脈分散の変化を補う傾向にあるということである。
論文 参考訳(メタデータ) (2022-08-31T23:35:24Z) - Unsupervised Multimodal Word Discovery based on Double Articulation
Analysis with Co-occurrence cues [6.270305440413688]
本研究では,音韻情報を分布キューとして,オブジェクト情報を共起キューとして利用することにより,音声単位を検出するための教師なし学習手法を提案する。
提案手法は,(1)教師なし学習を用いて音声信号から単語や音素を取得するだけでなく,(2)複数のモーダルを同時に利用することもできる。
論文 参考訳(メタデータ) (2022-01-18T07:31:59Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - Speakers Fill Lexical Semantic Gaps with Context [69.30534067031734]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z) - Analyzing autoencoder-based acoustic word embeddings [37.78342106714364]
音響単語埋め込み(AWEs)は、その音響的特徴を符号化した単語の表現である。
本研究では,6言語でシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルにより学習したAWE空間の基本特性を解析する。
AWEは、人間の音声処理と語彙アクセスに関する様々な研究で報告されたパターンと同様、単語の発症バイアスを示す。
論文 参考訳(メタデータ) (2020-04-03T16:11:57Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。