論文の概要: Uniform Information Density and Syntactic Reduction: Revisiting $\textit{that}$-Mentioning in English Complement Clauses
- arxiv url: http://arxiv.org/abs/2509.05254v1
- Date: Fri, 05 Sep 2025 17:12:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.660618
- Title: Uniform Information Density and Syntactic Reduction: Revisiting $\textit{that}$-Mentioning in English Complement Clauses
- Title(参考訳): 一様情報密度と統語的削減:英語補足句における$\textit{that}$-Mentioningの再検討
- Authors: Hailin Hao, Elsi Kaiser,
- Abstract要約: 我々は、情報密度の推定を洗練するために、機械学習とニューラル言語モデルを使用します。
行列動詞のサブカテゴリ化確率に基づく情報密度の尺度は、慣用的語彙変化を捉える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speakers often have multiple ways to express the same meaning. The Uniform Information Density (UID) hypothesis suggests that speakers exploit this variability to maintain a consistent rate of information transmission during language production. Building on prior work linking UID to syntactic reduction, we revisit the finding that the optional complementizer $\textit{that}$in English complement clauses is more likely to be omitted when the clause has low information density (i.e., more predictable). We advance this line of research by analyzing a large-scale, contemporary conversational corpus and using machine learning and neural language models to refine estimates of information density. Our results replicated the established relationship between information density and $\textit{that}$-mentioning. However, we found that previous measures of information density based on matrix verbs' subcategorization probability capture substantial idiosyncratic lexical variation. By contrast, estimates derived from contextual word embeddings account for additional variance in patterns of complementizer usage.
- Abstract(参考訳): 話者はしばしば同じ意味を表現する複数の方法を持っている。
均一情報密度(UID)仮説は、話者がこの可変性を利用して、言語生産中に一貫した情報伝達率を維持することを示唆している。
UIDを構文的還元にリンクする以前の作業に基づいて、オプション補完子 $\textit{that}$in の英語補節が、その節が情報密度が低い場合(すなわち、より予測可能な)に省略される可能性が高いことを確認する。
我々は,大規模で現代的な会話コーパスを分析し,機械学習とニューラル言語モデルを用いて情報密度の推定を洗練させることにより,この研究の行を推し進める。
結果は,情報密度と$\textit{that}$-mentioningの関係を再現した。
しかし,従来の行列動詞のサブカテゴリ化確率に基づく情報密度の測度は,相当な慣用的語彙変化を捉えていることがわかった。
対照的に、文脈的単語埋め込みから導かれる推定は、補完詞の使用パターンのさらなるばらつきを考慮に入れている。
関連論文リスト
- Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse [54.08750245737734]
話者は、階層的に構造化された談話モデル内の位置に基づいて、情報率を変調する。
階層的予測器は談話の情報輪郭の重要な予測器であり,深い階層的予測器は浅い予測器よりも予測力が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-21T14:42:37Z) - That's Optional: A Contemporary Exploration of "that" Omission in English Subordinate Clauses [2.1781981800541805]
均一情報密度仮説は、話者が情報のスパイクを避けることによって発話のコミュニケーション特性を最適化することを示唆している。
本稿では,UIDの原則が統語的還元に与える影響について検討し,特に英語の従属節におけるコネクタ「 that」の省略点に着目した。
論文 参考訳(メタデータ) (2024-05-31T14:23:30Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Revisiting the Uniform Information Density Hypothesis [44.277066511088634]
読み出し時間と受理可能性データを用いて,一様情報密度(UID)仮説について検討する。
受理性判定では,情報密度の非均一性が受理性低下の予測であることを示す。
論文 参考訳(メタデータ) (2021-09-23T20:41:47Z) - A Cognitive Regularizer for Language Modeling [36.256053903862956]
UIDを正規化として符号化することで、言語モデルをトレーニングするための標準MLEの目的を拡大する。
UID正規化の使用は言語モデルの難易度を一貫して改善する。
また、UID正規化言語モデルはエントロピーが高く、より長く、より語彙的に多様なテキストを生成する。
論文 参考訳(メタデータ) (2021-05-15T05:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。