論文の概要: Semantically Cohesive Word Grouping in Indian Languages
- arxiv url: http://arxiv.org/abs/2501.03988v1
- Date: Tue, 07 Jan 2025 18:46:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:49:46.250550
- Title: Semantically Cohesive Word Grouping in Indian Languages
- Title(参考訳): インド語における意味的結合型単語グループ化
- Authors: N J Karthika, Adyasha Patra, Nagasai Saketh Naidu, Arnab Bhattacharya, Ganesh Ramakrishnan, Chaitali Dangarikar,
- Abstract要約: インドの言語は屈折的かつ凝集的であり、通常節なしの語順に従う。
主要なインド諸言語にまたがる文の構造は、その依存関係解析木が考慮されるときに類似している。
本稿では,インド語の文の計算処理や言語処理において,単語グループ化が重要な前処理ステップとなることを提案する。
- 参考スコア(独自算出の注目度): 18.524219186230713
- License:
- Abstract: Indian languages are inflectional and agglutinative and typically follow clause-free word order. The structure of sentences across most major Indian languages are similar when their dependency parse trees are considered. While some differences in the parsing structure occur due to peculiarities of a language or its preferred natural way of conveying meaning, several apparent differences are simply due to the granularity of representation of the smallest semantic unit of processing in a sentence. The semantic unit is typically a word, typographically separated by whitespaces. A single whitespace-separated word in one language may correspond to a group of words in another. Hence, grouping of words based on semantics helps unify the parsing structure of parallel sentences across languages and, in the process, morphology. In this work, we propose word grouping as a major preprocessing step for any computational or linguistic processing of sentences for Indian languages. Among Indian languages, since Hindi is one of the least agglutinative, we expect it to benefit the most from word-grouping. Hence, in this paper, we focus on Hindi to study the effects of grouping. We perform quantitative assessment of our proposal with an intrinsic method that perturbs sentences by shuffling words as well as an extrinsic evaluation that verifies the importance of word grouping for the task of Machine Translation (MT) using decomposed prompting. We also qualitatively analyze certain aspects of the syntactic structure of sentences. Our experiments and analyses show that the proposed grouping technique brings uniformity in the syntactic structures, as well as aids underlying NLP tasks.
- Abstract(参考訳): インドの言語は屈折的かつ凝集的であり、通常節なしの語順に従う。
主要なインド諸言語にまたがる文の構造は、その依存関係解析木が考慮されるときに類似している。
解析構造におけるいくつかの相違は、言語の特異性や、その好まれる意味を伝える自然な方法によるものであるが、いくつかの明らかな相違は、文中の処理の最小の意味単位の表現の粒度によるものである。
意味単位は典型的には単語であり、文字的に空白で区切られる。
ある言語における1つの白色空間で区切られた単語は、別の言語の単語群に対応することができる。
したがって、意味論に基づく単語のグルーピングは、言語間およびその過程において、パラレル文のパース構造を統一するのに役立つ。
本研究では,インド語の文の計算処理や言語処理において,単語グループ化が重要な前処理ステップとなることを提案する。
インドの言語の中で、ヒンディー語は最も不可解な言語であるので、単語分類の恩恵を最も受けられるものと期待している。
そこで本稿では,グループ化の効果を研究するため,ヒンディー語に焦点をあてる。
我々は,単語をシャッフルすることで文を摂動する本質的な手法と,分解プロンプトを用いた機械翻訳(MT)タスクにおける単語グループ化の重要性を検証する外生的評価を用いて,提案手法の定量的評価を行う。
また,文の構文構造を定性的に解析する。
実験と分析により,提案手法は構文構造に一様性をもたらすとともに,NLPタスクの基盤となる支援をもたらすことが示された。
関連論文リスト
- Urdu Dependency Parsing and Treebank Development: A Syntactic and Morphological Perspective [0.0]
依存関係解析を用いて、ウルドゥー語でニュース記事を分析する。
最良ラベル付き精度(LA)は70%,未ラベル付きアタッチメントスコア(UAS)は84%であった。
論文 参考訳(メタデータ) (2024-06-13T19:30:32Z) - Syntactic Variation Across the Grammar: Modelling a Complex Adaptive
System [0.76146285961466]
16か国49の英語話者の方言変化をモデル化した。
その結果,構文変化の重要な部分は文法の異なる部分間の相互作用から成り立っていることがわかった。
ニュージーランド英語は、オーストラリア英語の phrasal verb に類似しているが、同時に英英語の dative phrase にも類似している。
論文 参考訳(メタデータ) (2023-09-21T08:14:34Z) - PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and
Entailment Recognition [63.51569687229681]
文中の各命題の文的含意関係を個別に認識する必要性について論じる。
提案するPropSegmEntは45K以上の提案のコーパスであり, 専門家によるアノテートを行う。
我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
論文 参考訳(メタデータ) (2022-12-21T04:03:33Z) - Discourse Context Predictability Effects in Hindi Word Order [14.88833412862455]
文中の単語と構文構造が次の文の語順にどのように影響するかを検討する。
我々は,言論に基づく多くの特徴と認知的特徴を用いて,依存関係の長さ,前提,情報状態などの予測を行う。
情報ステータスとLSTMに基づく談話予測が単語の順序選択に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2022-10-25T11:53:01Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Quantifying Synthesis and Fusion and their Impact on Machine Translation [79.61874492642691]
自然言語処理(NLP)では、一般に、融合や凝集のような厳密な形態を持つ言語全体をラベル付けする。
本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。
本研究では, 英語, ドイツ語, トルコ語の非教師なし・教師付き形態素分割法について検討する一方, 融合ではスペイン語を用いた半自動手法を提案する。
そして、機械翻訳品質と単語(名詞と動詞)における合成・融合の程度との関係を分析する。
論文 参考訳(メタデータ) (2022-05-06T17:04:58Z) - Clustering and Network Analysis for the Embedding Spaces of Sentences
and Sub-Sentences [69.3939291118954]
本稿では,文とサブ文の埋め込みを対象とする包括的クラスタリングとネットワーク解析について検討する。
その結果,1つの手法が最もクラスタリング可能な埋め込みを生成することがわかった。
一般に、スパン部分文の埋め込みは、原文よりもクラスタリング特性が優れている。
論文 参考訳(メタデータ) (2021-10-02T00:47:35Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Unsupervised Separation of Native and Loanwords for Malayalam and Telugu [3.4925763160992402]
ある言語からの単語は翻訳なしで別の言語で採用され、後者の言語で書かれたテキストで文字化された形で現れる。
この現象は、多くの単語が英語から借用されているインドの言語で特に広まっている。
本稿では,アグリニティブ・ドラヴィダ語からの単語の大規模なデータセットから,借用語を自動的かつ教師なしの方法で識別するタスクに対処する。
論文 参考訳(メタデータ) (2020-02-12T04:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。