論文の概要: Does Dependency Locality Predict Non-canonical Word Order in Hindi?
- arxiv url: http://arxiv.org/abs/2405.07730v1
- Date: Mon, 13 May 2024 13:24:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 13:45:23.794555
- Title: Does Dependency Locality Predict Non-canonical Word Order in Hindi?
- Title(参考訳): ヒンディー語における非標準語順は局所性によって予測されるか?
- Authors: Sidharth Ranjan, Marten van Schijndel,
- Abstract要約: 依存性長最小化は、非標準的(OSV)構文選択の重要な予測因子である。
談話予測可能性は、構成順序の選好の主要な決定要因として現れる。
この研究は、語順決定における期待適応の役割に光を当てている。
- 参考スコア(独自算出の注目度): 5.540151072128081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous work has shown that isolated non-canonical sentences with Object-before-Subject (OSV) order are initially harder to process than their canonical counterparts with Subject-before-Object (SOV) order. Although this difficulty diminishes with appropriate discourse context, the underlying cognitive factors responsible for alleviating processing challenges in OSV sentences remain a question. In this work, we test the hypothesis that dependency length minimization is a significant predictor of non-canonical (OSV) syntactic choices, especially when controlling for information status such as givenness and surprisal measures. We extract sentences from the Hindi-Urdu Treebank corpus (HUTB) that contain clearly-defined subjects and objects, systematically permute the preverbal constituents of those sentences, and deploy a classifier to distinguish between original corpus sentences and artificially generated alternatives. The classifier leverages various discourse-based and cognitive features, including dependency length, surprisal, and information status, to inform its predictions. Our results suggest that, although there exists a preference for minimizing dependency length in non-canonical corpus sentences amidst the generated variants, this factor does not significantly contribute in identifying corpus sentences above and beyond surprisal and givenness measures. Notably, discourse predictability emerges as the primary determinant of constituent-order preferences. These findings are further supported by human evaluations involving 44 native Hindi speakers. Overall, this work sheds light on the role of expectation adaptation in word-ordering decisions. We conclude by situating our results within the theories of discourse production and information locality.
- Abstract(参考訳): 従来の研究では、対象前オブジェクト(OSV)順序を持つ孤立した非標準文は、対象前オブジェクト(SOV)順序を持つ標準文よりも処理が難しいことが示されている。
この困難さは適切な会話の文脈で減少するが、OSV文の処理課題を軽減するための基礎となる認知的要因は依然として疑問である。
本研究では,依存性長最小化が非標準構文選択(OSV)の有意な予測因子であることを示す。
我々は、明確に定義された主題や対象を含むHUTB(Hindi-Urdu Treebank corpus)から文を抽出し、それらの文の前動詞構成を体系的にパーミュレートし、元のコーパス文と人工的に生成された代替品を区別するための分類器を配置する。
分類器は、依存性の長さ、前提、情報ステータスなど、様々な言論に基づく認知的特徴を活用して、その予測を知らせる。
結果より, 生成した変種の中では, 非標準コーパス文の係り受け長を最小化する傾向がみられたが, 本因子は, 上述のコーパス文の同定に大きく寄与していないことが示唆された。
特に、談話予測可能性が、構成順序の選好の主決定要因として現れる。
これらの知見は、ヒンディー語話者44名による人的評価によってさらに裏付けられている。
全体として、この研究は語順決定における期待適応の役割に光を当てている。
我々は、談話生成理論と情報局所性の理論にその結果を集中させることで結論付ける。
関連論文リスト
- Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse [54.08750245737734]
話者は、階層的に構造化された談話モデル内の位置に基づいて、情報率を変調する。
階層的予測器は談話の情報輪郭の重要な予測器であり,深い階層的予測器は浅い予測器よりも予測力が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-21T14:42:37Z) - To Drop or Not to Drop? Predicting Argument Ellipsis Judgments: A Case Study in Japanese [26.659122101710068]
本研究では,日本語のバランスコーパスにおいて,2000以上のデータポイントで特定の議論を省略すべきか否かについて検討する。
データは、ネイティブ話者がこうした判断に対して共通の基準を共有していることを示している。
システムの予測と特定の言語的側面における人間の判断とのギャップが明らかになる。
論文 参考訳(メタデータ) (2024-04-17T12:26:52Z) - Natural Language Decompositions of Implicit Content Enable Better Text
Representations [56.85319224208865]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - A bounded rationality account of dependency length minimization in Hindi [0.0]
DependenCY LENGTH MINIMIZATIONの原理は、効果的なコミュニケーションのために人間の言語の構造を形成すると考えられている。
典型的には、長短成分と後短長成分の配置は、文全体の依存長を最小にすることが知られている。
本研究では,ヒンディー語における単語順の嗜好について,主動詞の横に最短助詞のみを置くという仮説を検証した。
論文 参考訳(メタデータ) (2023-04-22T13:53:50Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Discourse Context Predictability Effects in Hindi Word Order [14.88833412862455]
文中の単語と構文構造が次の文の語順にどのように影響するかを検討する。
我々は,言論に基づく多くの特徴と認知的特徴を用いて,依存関係の長さ,前提,情報状態などの予測を行う。
情報ステータスとLSTMに基づく談話予測が単語の順序選択に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2022-10-25T11:53:01Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Deep Subjecthood: Higher-Order Grammatical Features in Multilingual BERT [7.057643880514415]
MBERT(Multilingual BERT)が文法をエンコードするには,複数言語の埋め込み空間にまたがるモルフォシンタクティックアライメントの高次文法的特徴がどのように現れるかを検討する。
論文 参考訳(メタデータ) (2021-01-26T19:21:59Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。