論文の概要: To Drop or Not to Drop? Predicting Argument Ellipsis Judgments: A Case Study in Japanese
- arxiv url: http://arxiv.org/abs/2404.11315v1
- Date: Wed, 17 Apr 2024 12:26:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 14:14:33.713373
- Title: To Drop or Not to Drop? Predicting Argument Ellipsis Judgments: A Case Study in Japanese
- Title(参考訳): 転落・落落・落落の予測 : 日本語を事例として
- Authors: Yukiko Ishizuki, Tatsuki Kuribayashi, Yuichiroh Matsubayashi, Ryohei Sasano, Kentaro Inui,
- Abstract要約: 本研究では,日本語のバランスコーパスにおいて,2000以上のデータポイントで特定の議論を省略すべきか否かについて検討する。
データは、ネイティブ話者がこうした判断に対して共通の基準を共有していることを示している。
システムの予測と特定の言語的側面における人間の判断とのギャップが明らかになる。
- 参考スコア(独自算出の注目度): 26.659122101710068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speakers sometimes omit certain arguments of a predicate in a sentence; such omission is especially frequent in pro-drop languages. This study addresses a question about ellipsis -- what can explain the native speakers' ellipsis decisions? -- motivated by the interest in human discourse processing and writing assistance for this choice. To this end, we first collect large-scale human annotations of whether and why a particular argument should be omitted across over 2,000 data points in the balanced corpus of Japanese, a prototypical pro-drop language. The data indicate that native speakers overall share common criteria for such judgments and further clarify their quantitative characteristics, e.g., the distribution of related linguistic factors in the balanced corpus. Furthermore, the performance of the language model-based argument ellipsis judgment model is examined, and the gap between the systems' prediction and human judgments in specific linguistic aspects is revealed. We hope our fundamental resource encourages further studies on natural human ellipsis judgment.
- Abstract(参考訳): 話者は文中の述語についての特定の議論を省略することがある。
この研究は、人間による談話処理への関心と、この選択に対する支援書の執筆に動機づけられた、エリプシス(母語話者のエリプシスの決定を説明できるもの)に関する疑問に対処する。
そこで我々はまず,日本語のバランスの取れたコーパスにおいて,2000以上のデータポイントで特定の議論を省略すべきか否か,またその理由について,大規模な人文アノテーションを収集する。
その結果,母語話者はこれらの判断の共通基準を共有し,その量的特徴,例えば,バランスの取れたコーパスにおける関連言語因子の分布を明らかにした。
さらに,言語モデルに基づく議論楕円判断モデルの性能について検討し,特定の言語的側面におけるシステムの予測と人間の判断とのギャップを明らかにする。
我々の基本的な資源は、自然のヒトの楕円体判定に関するさらなる研究を促進することを願っている。
関連論文リスト
- Does Dependency Locality Predict Non-canonical Word Order in Hindi? [5.540151072128081]
依存性長最小化は、非標準的(OSV)構文選択の重要な予測因子である。
談話予測可能性は、構成順序の選好の主要な決定要因として現れる。
この研究は、語順決定における期待適応の役割に光を当てている。
論文 参考訳(メタデータ) (2024-05-13T13:24:17Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Is Argument Structure of Learner Chinese Understandable: A Corpus-Based
Analysis [8.883799596036484]
本稿では,中国語学習者における議論構造誤りのコーパスに基づく解析について述べる。
分析用データには、言語学習者が生成した文と、母語話者による補正が含まれている。
2人の高校生が手作業で作成したセマンティックロールラベリングアノテーションとデータを結合する。
論文 参考訳(メタデータ) (2023-08-17T21:10:04Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - Natural Language Decompositions of Implicit Content Enable Better Text
Representations [56.85319224208865]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - Cross-Lingual Speaker Identification Using Distant Supervision [84.51121411280134]
本稿では,文脈推論の欠如や言語間一般化の低さといった問題に対処する話者識別フレームワークを提案する。
その結果,2つの英語話者識別ベンチマークにおいて,従来の最先端手法よりも9%の精度,5%の精度で性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-11T20:49:44Z) - Construction and Evaluation of a Self-Attention Model for Semantic
Understanding of Sentence-Final Particles [0.0]
文末助詞は,命題に対する話者の精神的態度や介助者を表現するため,話し言葉において重要な役割を担っている。
本稿では,言語やイメージに加えて,様々な主観的感覚を入力として捉え,単語と主観的感覚の関係を学習する自己認識モデルを提案する。
論文 参考訳(メタデータ) (2022-10-01T13:54:54Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Text as Causal Mediators: Research Design for Causal Estimates of
Differential Treatment of Social Groups via Language Aspects [7.175621752912443]
本研究では,社会集団信号の自然的直接的・間接的影響が話者の反応に与える影響を推定するために,観察的(実験的でない)データに対する因果的研究設計を提案する。
本稿では、この枠組みの約束と課題について、アメリカ合衆国最高裁判所の口頭弁論における司法の中断に対する擁護者の性別の影響に関する理論的ケーススタディを通して説明する。
論文 参考訳(メタデータ) (2021-09-15T19:15:35Z) - Evaluating Models of Robust Word Recognition with Serial Reproduction [8.17947290421835]
広範囲確率的生成言語モデルと人間の言語的期待を捉える能力の比較を行った。
先行した言語的文脈の抽象表現を利用するこれらのモデルは、連続再生の過程で人々が行った変化を最もよく予測する。
論文 参考訳(メタデータ) (2021-01-24T20:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。