論文の概要: The Harmonic Structure of Information Contours
- arxiv url: http://arxiv.org/abs/2506.03902v1
- Date: Wed, 04 Jun 2025 12:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.329219
- Title: The Harmonic Structure of Information Contours
- Title(参考訳): 情報輪郭の高調波構造
- Authors: Eleftheria Tsipidi, Samuel Kiegeland, Franz Nowak, Tianyang Xu, Ethan Wilcox, Alex Warstadt, Ryan Cotterell, Mario Giulianelli,
- Abstract要約: 我々は、英語、スペイン語、ドイツ語、オランダ語、バスク語、ブラジルポルトガル語のテキストで、周期的な情報レートのパターンが一貫した証拠を見出した。
多くの支配的な周波数は談話構造と一致しており、これらの振動は意味のある言語組織を反映していることを示唆している。
- 参考スコア(独自算出の注目度): 54.38365999922221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The uniform information density (UID) hypothesis proposes that speakers aim to distribute information evenly throughout a text, balancing production effort and listener comprehension difficulty. However, language typically does not maintain a strictly uniform information rate; instead, it fluctuates around a global average. These fluctuations are often explained by factors such as syntactic constraints, stylistic choices, or audience design. In this work, we explore an alternative perspective: that these fluctuations may be influenced by an implicit linguistic pressure towards periodicity, where the information rate oscillates at regular intervals, potentially across multiple frequencies simultaneously. We apply harmonic regression and introduce a novel extension called time scaling to detect and test for such periodicity in information contours. Analyzing texts in English, Spanish, German, Dutch, Basque, and Brazilian Portuguese, we find consistent evidence of periodic patterns in information rate. Many dominant frequencies align with discourse structure, suggesting these oscillations reflect meaningful linguistic organization. Beyond highlighting the connection between information rate and discourse structure, our approach offers a general framework for uncovering structural pressures at various levels of linguistic granularity.
- Abstract(参考訳): 均一情報密度(UID)仮説は、話者がテキスト全体を通して情報を均等に分配し、生産の労力とリスナーの理解の困難さをバランスさせることを目的としている。
しかし、言語は通常、厳密な均一な情報レートを保持しない。
これらの変動はしばしば、構文的制約、スタイル的選択、オーディエンスデザインなどの要因によって説明される。
本研究では、これらの変動は周期性に対する暗黙の言語的圧力の影響を受け、情報レートは周期的な間隔で変動し、同時に複数の周波数をまたがる可能性がある、という別の視点を探求する。
我々は高調波レグレッションを適用し、時間スケーリングと呼ばれる新しい拡張を導入し、情報輪郭におけるそのような周期性を検出してテストする。
英語、スペイン語、ドイツ語、オランダ語、バスク語、ブラジルポルトガル語のテキストを分析し、情報レートの周期的なパターンが一貫した証拠を見出した。
多くの支配的な周波数は談話構造と一致しており、これらの振動は意味のある言語組織を反映していることを示唆している。
情報量と談話構造との関係を強調させるだけでなく,言語学的粒度の異なる構造的圧力を明らかにするための一般的な枠組みを提供する。
関連論文リスト
- Using Information Theory to Characterize Prosodic Typology: The Case of Tone, Pitch-Accent and Stress-Accent [22.63155507847401]
我々は,韻律を用いて語彙を区別する言語は,韻律と単語の同一性の間に高い相互情報を示すべきであると予測した。
テキストとピッチ曲線の相互情報を推定するために、5つの言語ファミリーで10の言語で発音された文を読み取る話者のデータセットを使用する。
論文 参考訳(メタデータ) (2025-05-12T15:25:17Z) - Towards Understanding Text Hallucination of Diffusion Models via Local Generation Bias [76.85949078144098]
本稿では,拡散モデルが個々のシンボルを正しく生成するが,それらを意味のない方法で組み立てるテキスト幻覚に焦点を当てる。
このような現象は,ネットワークの局所的生成バイアスに起因すると考えられる。
また、ハイパーキューブ上の2層学習パリティポイントを含む特定のケースのトレーニングダイナミクスを理論的に解析する。
論文 参考訳(メタデータ) (2025-03-05T15:28:50Z) - Examining and Adapting Time for Multilingual Classification via Mixture of Temporal Experts [4.796752450839119]
複数の言語で時間をかけて分類器を一般化するフレームワークを開発する。
分析の結果,分類性能は言語によって異なることがわかった。
我々の研究は分析的な洞察を提供し、時間を考慮したモデルの必要性に対処する。
論文 参考訳(メタデータ) (2025-02-12T22:30:18Z) - Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse [54.08750245737734]
話者は、階層的に構造化された談話モデル内の位置に基づいて、情報率を変調する。
階層的予測器は談話の情報輪郭の重要な予測器であり,深い階層的予測器は浅い予測器よりも予測力が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-21T14:42:37Z) - On the Role of Context in Reading Time Prediction [50.87306355705826]
我々は,リアルタイム言語理解において,読者がコンテキストをどのように統合するかについて,新たな視点を提示する。
提案手法は,言語単位の処理作業が文脈内情報の内容のアフィン関数であることを示す素因的理論に基づいている。
論文 参考訳(メタデータ) (2024-09-12T15:52:22Z) - Decoding Multilingual Topic Dynamics and Trend Identification through ARIMA Time Series Analysis on Social Networks: A Novel Data Translation Framework Enhanced by LDA/HDP Models [0.08246494848934444]
われわれは、コロナウイルスパンデミックの間、チュニジアのソーシャルネットワーク内での対話や、スポーツや政治などの有名なテーマに焦点を当てている。
まず、これらのテーマに関連するコメントの多言語コーパスを集約することから始めます。
次に、言語的差異に対処するために、ノー・イングリッシュ・トゥ・イングリッシュ・マシン翻訳手法を導入する。
論文 参考訳(メタデータ) (2024-03-18T00:01:10Z) - Putting Context in Context: the Impact of Discussion Structure on Text
Classification [13.15873889847739]
本稿では,英語における姿勢検出のための大規模データセットに関する一連の実験を提案する。
異なる種類の文脈情報の寄与を評価する。
構造情報はテキスト分類には非常に有用であるが,特定の状況下でのみ有用であることを示す。
論文 参考訳(メタデータ) (2024-02-05T12:56:22Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - Generic Temporal Reasoning with Differential Analysis and Explanation [61.96034987217583]
時間差分解析でギャップを埋めるTODAYという新しいタスクを導入する。
TODAYは、システムがインクリメンタルな変化の効果を正しく理解できるかどうかを評価する。
共同学習においてTODAYの指導スタイルと説明アノテーションが有効であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。