論文の概要: Counting trees: A treebank-driven exploration of syntactic variation in speech and writing across languages
- arxiv url: http://arxiv.org/abs/2505.22774v1
- Date: Wed, 28 May 2025 18:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.485849
- Title: Counting trees: A treebank-driven exploration of syntactic variation in speech and writing across languages
- Title(参考訳): 木を数える:木バンクによる言語間の音声と文字の統語的変動の探索
- Authors: Kaja Dobrovoljc,
- Abstract要約: 我々は、構文構造をデレクシカルな依存(サブ)ツリーとして定義し、音声および記述されたユニバーサル依存ツリーバンクからそれらを抽出する。
各コーパスについて, 構文的在庫の大きさ, 多様性, 分布, その重なり合い, 音声の最も特徴的な構造を解析した。
その結果、どちらの言語でも、音声コーパスは、記述されたコーパスよりも、より多様で多様な構文構造を含まないことが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel treebank-driven approach to comparing syntactic structures in speech and writing using dependency-parsed corpora. Adopting a fully inductive, bottom-up method, we define syntactic structures as delexicalized dependency (sub)trees and extract them from spoken and written Universal Dependencies (UD) treebanks in two syntactically distinct languages, English and Slovenian. For each corpus, we analyze the size, diversity, and distribution of syntactic inventories, their overlap across modalities, and the structures most characteristic of speech. Results show that, across both languages, spoken corpora contain fewer and less diverse syntactic structures than their written counterparts, with consistent cross-linguistic preferences for certain structural types across modalities. Strikingly, the overlap between spoken and written syntactic inventories is very limited: most structures attested in speech do not occur in writing, pointing to modality-specific preferences in syntactic organization that reflect the distinct demands of real-time interaction and elaborated writing. This contrast is further supported by a keyness analysis of the most frequent speech-specific structures, which highlights patterns associated with interactivity, context-grounding, and economy of expression. We argue that this scalable, language-independent framework offers a useful general method for systematically studying syntactic variation across corpora, laying the groundwork for more comprehensive data-driven theories of grammar in use.
- Abstract(参考訳): 本稿では,係り受け型コーパスを用いた音声と文章の構文構造を比較するための,ツリーバンク駆動型手法を提案する。
完全な帰納的ボトムアップ手法を用いて,構文構造をデレクシカルな依存(サブ)ツリーとして定義し,音声および書き起こされたユニバーサル依存(UD)ツリーバンクから英語とスロベニア語を区別した2つの言語で抽出する。
各コーパスについて, 構文的在庫の大きさ, 多様性, 分布, その重なり合い, 音声の最も特徴的な構造を解析した。
いずれの言語においても、音声コーパスは、記述された言語に比べて、より多様で多様でない構文構造を含んでおり、特定の構造型に対する一貫した言語的嗜好がモダリティを越えて存在することを示している。
言語で証明されたほとんどの構造は、リアルタイムの相互作用と精巧な文章の要求を反映した、統語的組織におけるモダリティ固有の嗜好を指している。
このコントラストは、対話性、コンテキストグラウンド、表現のエコノミーに関連するパターンを強調する、最も頻繁な音声特化構造のキーネス分析によってさらに支持される。
このスケーラブルで言語に依存しないフレームワークは、コーパス間の構文変化を体系的に研究する上で有用な汎用的手法であり、より包括的なデータ駆動文法理論の基礎となる。
関連論文リスト
- Exploring syntactic information in sentence embeddings through multilingual subject-verb agreement [1.4335183427838039]
我々は,特定の特性を持つ大規模でキュレートされた合成データを開発するためのアプローチを採っている。
我々は、ブラックバード言語行列(Blackbird Language Matrices)と呼ばれる新しい複数選択タスクとデータセットを使用して、特定の文法構造現象に焦点を当てる。
多言語テキストを一貫した方法で訓練したにもかかわらず、多言語事前学習言語モデルには言語固有の違いがあることが示される。
論文 参考訳(メタデータ) (2024-09-10T14:58:55Z) - Linguistic Structure Induction from Language Models [1.8130068086063336]
この論文は、教師なし環境で言語モデル(LM)から選挙区構造と依存関係構造を生成することに焦点を当てている。
本稿では,エンコーダネットワークにトランスフォーマーアーキテクチャを組み込んだStructFormer(SF)について詳細に検討し,その構成と依存性について述べる。
この分野の課題を分析し、対処するための6つの実験を提示します。
論文 参考訳(メタデータ) (2024-03-11T16:54:49Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and
Entailment Recognition [63.51569687229681]
文中の各命題の文的含意関係を個別に認識する必要性について論じる。
提案するPropSegmEntは45K以上の提案のコーパスであり, 専門家によるアノテートを行う。
我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
論文 参考訳(メタデータ) (2022-12-21T04:03:33Z) - Syntactic Substitutability as Unsupervised Dependency Syntax [31.488677474152794]
依存関係関係や構文置換可能性の定義において、より一般的な性質を暗黙的にモデル化する。
この性質は、依存関係の両端にある単語が、同じカテゴリの単語で置き換えられるという事実を捉えている。
使用する代替品の数を増やすことで、自然データに対する解析精度が向上することを示す。
論文 参考訳(メタデータ) (2022-11-29T09:01:37Z) - Oracle Linguistic Graphs Complement a Pretrained Transformer Language
Model: A Cross-formalism Comparison [13.31232311913236]
言語グラフ表現が神経言語モデリングを補完し改善する程度について検討する。
全体としては、セマンティックな選挙区構造は言語モデリングのパフォーマンスに最も有用である。
論文 参考訳(メタデータ) (2021-12-15T04:29:02Z) - Syntactic representation learning for neural network based TTS with
syntactic parse tree traversal [49.05471750563229]
本稿では,構文解析木に基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。
実験の結果,提案手法の有効性が示された。
複数の構文解析木を持つ文では、合成音声から韻律的差異が明確に認識される。
論文 参考訳(メタデータ) (2020-12-13T05:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。