論文の概要: Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse
- arxiv url: http://arxiv.org/abs/2410.16062v1
- Date: Mon, 21 Oct 2024 14:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:16.496452
- Title: Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse
- Title(参考訳): 驚き! 一様情報密度は物語ではない:長めの談話における素粒子の予測
- Authors: Eleftheria Tsipidi, Franz Nowak, Ryan Cotterell, Ethan Wilcox, Mario Giulianelli, Alex Warstadt,
- Abstract要約: 話者は、階層的に構造化された談話モデル内の位置に基づいて、情報率を変調する。
階層的予測器は談話の情報輪郭の重要な予測器であり,深い階層的予測器は浅い予測器よりも予測力が高いことがわかった。
- 参考スコア(独自算出の注目度): 54.08750245737734
- License:
- Abstract: The Uniform Information Density (UID) hypothesis posits that speakers tend to distribute information evenly across linguistic units to achieve efficient communication. Of course, information rate in texts and discourses is not perfectly uniform. While these fluctuations can be viewed as theoretically uninteresting noise on top of a uniform target, another explanation is that UID is not the only functional pressure regulating information content in a language. Speakers may also seek to maintain interest, adhere to writing conventions, and build compelling arguments. In this paper, we propose one such functional pressure; namely that speakers modulate information rate based on location within a hierarchically-structured model of discourse. We term this the Structured Context Hypothesis and test it by predicting the surprisal contours of naturally occurring discourses extracted from large language models using predictors derived from discourse structure. We find that hierarchical predictors are significant predictors of a discourse's information contour and that deeply nested hierarchical predictors are more predictive than shallow ones. This work takes an initial step beyond UID to propose testable hypotheses for why the information rate fluctuates in predictable ways
- Abstract(参考訳): 均一情報密度(UID)仮説は、話者が言語単位に均等に情報を分配し、効率的なコミュニケーションを実現する傾向があることを示唆している。
もちろん、テキストや談話の情報レートは完全に均一ではない。
これらのゆらぎは、一様ターゲットの上の理論的に興味をそそらないノイズと見なすことができるが、別の説明として、UIDが言語における唯一の機能的圧力規制情報コンテンツではない。
また、話し手は関心を保ち、コンベンションに固執し、説得力のある議論を築こうとすることもある。
そこで本稿では,話者が階層的に構造化された談話モデル内の位置に基づいて情報レートを変調する機能的圧力を提案する。
これを構造化文脈仮説(Structured Context hypothesis)と呼び、談話構造から派生した予測器を用いて、大きな言語モデルから抽出された自然発生の談話の副次的輪郭を予測して検証する。
階層的予測器は談話の情報輪郭の重要な予測器であり,深い階層的予測器は浅い予測器よりも予測力が高いことがわかった。
この研究は、情報レートが予測可能な方法で変動する理由の検証可能な仮説を提案するために、UIDを超えて最初の一歩を踏み出した。
関連論文リスト
- Removing Speaker Information from Speech Representation using Variable-Length Soft Pooling [16.73336092521471]
本稿では,音声の構造的性質を利用して話者情報を除去することを目的とする。
ニューラルネットワークはこれらの境界を予測し、イベントベースの表現抽出のための可変長プーリングを可能にする。
学習した表現が内容情報を含み、話者情報とは無関係であることを確認するため、リブリライトの音声ABXタスクとSUPERBの話者識別タスクを用いてモデルの評価を行った。
論文 参考訳(メタデータ) (2024-04-01T01:49:09Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - A Cross-Linguistic Pressure for Uniform Information Density in Word
Order [79.54362557462359]
実数列が反実数列よりも大きな情報均一性をもたらすかどうかを計算モデルを用いて検証する。
SVO言語の中では、実語順は逆語順よりも一様である。
言語的に不可解な反実順序のみが、実際の順序の均一性を超えている。
論文 参考訳(メタデータ) (2023-06-06T14:52:15Z) - CUE: An Uncertainty Interpretation Framework for Text Classifiers Built
on Pre-Trained Language Models [28.750894873827068]
本稿では,PLMモデルに固有の不確かさを解釈することを目的とした,CUEと呼ばれる新しいフレームワークを提案する。
摂動と原文表現の予測不確実性の違いを比較することにより,不確実性の原因となる潜伏次元を同定することができる。
論文 参考訳(メタデータ) (2023-06-06T11:37:46Z) - How to Plant Trees in Language Models: Data and Architectural Effects on
the Emergence of Syntactic Inductive Biases [28.58785395946639]
事前学習は、微調整後にタスクを実行する際に、階層的な構文的特徴に依存するように言語モデルを教えることができることを示す。
アーキテクチャの特徴(深さ、幅、パラメータ数)と、事前学習コーパスのジャンルとサイズに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-31T14:38:14Z) - Revisiting Entropy Rate Constancy in Text [43.928576088761844]
均一な情報密度仮説は、人間がほぼ均等に情報を発話や談話に分配する傾向があることを示している。
我々は、ニューラル言語モデルによるGenzel & Charniak(2002)の主張を再評価し、エントロピー速度の不安定性を支持する明確な証拠を見出すことに失敗した。
論文 参考訳(メタデータ) (2023-05-20T03:48:31Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Revisiting the Uniform Information Density Hypothesis [44.277066511088634]
読み出し時間と受理可能性データを用いて,一様情報密度(UID)仮説について検討する。
受理性判定では,情報密度の非均一性が受理性低下の予測であることを示す。
論文 参考訳(メタデータ) (2021-09-23T20:41:47Z) - Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文 参考訳(メタデータ) (2021-06-15T18:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。