論文の概要: Dispersion Measures as Predictors of Lexical Decision Time, Word Familiarity, and Lexical Complexity
- arxiv url: http://arxiv.org/abs/2501.06536v1
- Date: Sat, 11 Jan 2025 12:56:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:26:04.674865
- Title: Dispersion Measures as Predictors of Lexical Decision Time, Word Familiarity, and Lexical Complexity
- Title(参考訳): 語彙決定時間・単語親和性・語彙複雑度の予測因子としての分散対策
- Authors: Adam Nohejl, Taro Watanabe,
- Abstract要約: 我々は,5つの言語における語彙決定時間,単語親和性,語彙複雑性の予測因子として,幅広い分散対策を評価する。
範囲の対数性は、すべてのタスクや言語において、ログ周波数よりも優れた予測器であるだけでなく、ログ周波数に対する最も強力な追加変数でもある。
- 参考スコア(独自算出の注目度): 13.860097243604638
- License:
- Abstract: Various measures of dispersion have been proposed to paint a fuller picture of a word's distribution in a corpus, but only little has been done to validate them externally. We evaluate a wide range of dispersion measures as predictors of lexical decision time, word familiarity, and lexical complexity in five diverse languages. We find that the logarithm of range is not only a better predictor than log-frequency across all tasks and languages, but that it is also the most powerful additional variable to log-frequency, consistently outperforming the more complex dispersion measures. We discuss the effects of corpus part granularity and logarithmic transformation, shedding light on contradictory results of previous studies.
- Abstract(参考訳): コーパス内の単語の分布の全体像を描くために, 様々な分散法が提案されているが, 外部から検証するためにはほとんど行われていない。
我々は,5つの言語における語彙決定時間,単語親和性,語彙複雑性の予測因子として,幅広い分散対策を評価する。
範囲の対数性は、全てのタスクや言語においてログ周波数よりも優れた予測器であるだけでなく、ログ周波数に対する最も強力な追加変数であり、より複雑な分散対策よりも一貫して優れている。
コーパス部の粒度と対数変換が過去の研究の矛盾した結果に与える影響を考察した。
関連論文リスト
- Measuring Grammatical Diversity from Small Corpora: Derivational Entropy Rates, Mean Length of Utterances, and Annotation Invariance [0.0]
文法の導出エントロピーと、それが生成する発話の平均長は、基本的にリンクされていることを示す。
MLUは単なるプロキシではなく、統語的多様性の基本的な尺度であるということを実証します。
導出エントロピー率(英: derivational entropy rate)は、異なる文法的アノテーションフレームワークが木バンクの文法的複雑さを決定する速度を指標とする。
論文 参考訳(メタデータ) (2024-12-08T22:54:57Z) - Selective Inference for Time-Varying Effect Moderation [3.8233569758620063]
因果効果のモデレーションは、個人が観察した特性に基づいて、結果変数に対する介入(または治療)の効果がどのように変化するかを調べる。
高次元解析は、しばしば解釈可能性に欠け、重要なモデレーターはノイズに隠れている。
時間変化による因果効果のモデレーションを選択的に推定する2段階の手法を提案する。
論文 参考訳(メタデータ) (2024-11-24T16:37:48Z) - Statistical Uncertainty in Word Embeddings: GloVe-V [35.04183792123882]
本稿では,GloVeの近似的,使いやすい,スケーラブルな再構成誤差分散推定手法を提案する。
分散を伴う埋め込み(GloVe-V)の価値を示すために,本手法がコアワード埋め込みタスクにおいて,原理的仮説テストを実現する方法について述べる。
論文 参考訳(メタデータ) (2024-06-18T00:35:02Z) - Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning [50.84938730450622]
数理推論におけるOOD検出にトラジェクトリボラティリティを用いたトラジェクトリベースのTVスコアを提案する。
本手法は, 数学的推論シナリオ下でのGLM上での従来のアルゴリズムよりも優れる。
提案手法は,複数選択質問などの出力空間における高密度特徴を持つアプリケーションに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T22:22:25Z) - Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - ngram-OAXE: Phrase-Based Order-Agnostic Cross Entropy for
Non-Autoregressive Machine Translation [51.06378042344563]
オートレグレッシブ翻訳(NAT)におけるマルチモーダリティの効果を改善できる新しい訓練用Oaxe損失が証明された
我々は、ngram 句間の並べ替えのみを許し、句内の単語順序の厳密な一致をいまだ必要とすることで oaxe を拡張する。
さらに分析したところ、ngram-oaxeは実際にngram句の翻訳を改善し、文構造をより良くモデル化してより流動的な翻訳を生成することがわかった。
論文 参考訳(メタデータ) (2022-10-08T11:39:15Z) - On-the-Fly Rectification for Robust Large-Vocabulary Topic Inference [14.664456948527292]
オブジェクト語彙が大きくなるにつれて、共起統計に基づく推論アルゴリズムの保存と実行がより高価になる。
本稿では,共起統計を同時に圧縮・修正する新しい手法を提案する。
また、圧縮された統計量から潜伏変数を学習し、テキストデータと非テキストデータの両方において従来の手法と相容れない性能を検証した。
論文 参考訳(メタデータ) (2021-11-12T06:44:04Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Unsupervised Summarization by Jointly Extracting Sentences and Keywords [12.387378783627762]
RepRankは、抽出多文書要約のための教師なしグラフベースのランキングモデルである。
学習した表現を用いて,有意な文やキーワードを協調的・相互強化プロセスで抽出できることを示す。
複数のベンチマークデータセットによる実験結果は、RepRankがROUGEで最高の、または同等のパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2020-09-16T05:58:00Z) - A General Method for Robust Learning from Batches [56.59844655107251]
本稿では,バッチから頑健な学習を行う一般的なフレームワークについて考察し,連続ドメインを含む任意の領域に対する分類と分布推定の限界について考察する。
本手法は,一括分節分類,一括分節,単調,対数凹,ガウス混合分布推定のための,最初の頑健な計算効率の学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-02-25T18:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。