論文の概要: A Novel Multi-Task Learning Approach for Context-Sensitive Compound Type
Identification in Sanskrit
- arxiv url: http://arxiv.org/abs/2208.10310v1
- Date: Mon, 22 Aug 2022 13:41:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:04:18.214216
- Title: A Novel Multi-Task Learning Approach for Context-Sensitive Compound Type
Identification in Sanskrit
- Title(参考訳): サンスクリットにおける文脈感性複合型同定のための新しいマルチタスク学習手法
- Authors: Jivnesh Sandhan, Ashish Gupta, Hrishikesh Terdalkar, Tushar Sandhan,
Suvendu Samanta, Laxmidhar Behera and Pawan Goyal
- Abstract要約: 本稿では,文脈情報を組み込んだ新しいマルチタスク学習アーキテクチャを提案する。
SaCTIのベンチマークデータセットの実験では、最先端システムと比較して6.1ポイント(精度)と7.7ポイント(F1スコア)の絶対ゲインを示している。
- 参考スコア(独自算出の注目度): 13.742271198030998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The phenomenon of compounding is ubiquitous in Sanskrit. It serves for
achieving brevity in expressing thoughts, while simultaneously enriching the
lexical and structural formation of the language. In this work, we focus on the
Sanskrit Compound Type Identification (SaCTI) task, where we consider the
problem of identifying semantic relations between the components of a compound
word. Earlier approaches solely rely on the lexical information obtained from
the components and ignore the most crucial contextual and syntactic information
useful for SaCTI. However, the SaCTI task is challenging primarily due to the
implicitly encoded context-sensitive semantic relation between the compound
components.
Thus, we propose a novel multi-task learning architecture which incorporates
the contextual information and enriches the complementary syntactic information
using morphological tagging and dependency parsing as two auxiliary tasks.
Experiments on the benchmark datasets for SaCTI show 6.1 points (Accuracy) and
7.7 points (F1-score) absolute gain compared to the state-of-the-art system.
Further, our multi-lingual experiments demonstrate the efficacy of the proposed
architecture in English and Marathi languages.The code and datasets are
publicly available at https://github.com/ashishgupta2598/SaCTI
- Abstract(参考訳): サンスクリットでは複合化現象が普遍的である。
思考の表現における簡潔さを達成するのに役立ち、同時に言語の語彙的・構造的構成も豊かにする。
本研究では,サンスクリット複合型識別(SaCTI)タスクに着目し,複合語の構成要素間の意味的関係を識別する問題を考察する。
以前のアプローチでは、コンポーネントから得られる語彙情報のみに依存しており、SaCTIに有用な最も重要な文脈情報や構文情報を無視していた。
しかし、SaCTIタスクは、主に複合コンポーネント間の暗黙的に符号化されたコンテキスト依存の意味関係のため、難しい。
そこで本研究では,文脈情報を取り込んで,形態素的タグ付けと係り受け解析を2つの補助タスクとして活用する,新しいマルチタスク学習アーキテクチャを提案する。
SaCTIのベンチマークデータセットの実験では、最先端システムと比較して6.1ポイント(精度)と7.7ポイント(F1スコア)の絶対ゲインを示している。
さらに,複数言語による実験により,提案手法の有効性が実証された。コードとデータセットはhttps://github.com/ashishgupta2598/sactiで公開されている。
関連論文リスト
- Incorporating Lexical and Syntactic Knowledge for Unsupervised Cross-Lingual Transfer [4.944761231728674]
我々は"Lexicon-Syntax Enhanced Multilingual BERT"と呼ばれる新しいフレームワークを提案する。
我々は、ベースモデルとしてMultilingual BERTを使用し、学習能力を高めるために2つの手法を用いています。
実験の結果、このフレームワークはゼロショット・クロスランガル転送のすべてのベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2024-04-25T14:10:52Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - Subspace Chronicles: How Linguistic Information Emerges, Shifts and
Interacts during Language Model Training [56.74440457571821]
我々は、構文、意味論、推論を含むタスクを、200万の事前学習ステップと5つのシードで分析する。
タスクや時間にまたがる重要な学習フェーズを特定し、その間にサブスペースが出現し、情報を共有し、後に専門化するために混乱する。
この結果は,モデル解釈可能性,マルチタスク学習,限られたデータからの学習に影響を及ぼす。
論文 参考訳(メタデータ) (2023-10-25T09:09:55Z) - DepNeCTI: Dependency-based Nested Compound Type Identification for
Sanskrit [7.04795623262177]
本研究はネスト化合物型同定(NeCTI)の新たな課題を紹介する。
マルチコンポーネント化合物のネストしたスパンを特定し、それら間の暗黙的な意味関係をデコードすることを目的としている。
我々の知る限りでは、これはこの課題を提案する語彙意味論の分野における最初の試みである。
論文 参考訳(メタデータ) (2023-10-14T06:11:53Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Linguistically-Informed Neural Architectures for Lexical, Syntactic and
Semantic Tasks in Sanskrit [1.184066113335041]
この論文は、サンスクリット写本を自然言語技術を通じてエンドユーザーにとってよりアクセスしやすくすることを目的としている。
サンスクリットの形態的豊かさ、複合性、自由語順性、低リソース性は、ディープラーニングソリューションを開発する上で重要な課題となっている。
我々は,サンスクリットの堅牢なNLP技術開発に不可欠な4つの基本課題を特定した。
論文 参考訳(メタデータ) (2023-08-17T06:33:33Z) - $\mu$PLAN: Summarizing using a Content Plan as Cross-Lingual Bridge [72.64847925450368]
言語間の要約は、異なる言語で入力文書が与えられた1つの言語で要約を生成することで構成される。
この研究は、中間計画段階を言語横断橋として利用する言語横断要約へのアプローチである$mu$PLANを提示する。
論文 参考訳(メタデータ) (2023-05-23T16:25:21Z) - A Comprehensive Understanding of Code-mixed Language Semantics using
Hierarchical Transformer [28.3684494647968]
コード混合言語のセマンティクスを学習するための階層型トランスフォーマーベースアーキテクチャ(HIT)を提案する。
提案手法を17のデータセット上で6つのインド語と9つのNLPタスクで評価した。
論文 参考訳(メタデータ) (2022-04-27T07:50:18Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - Multilingual Irony Detection with Dependency Syntax and Neural Models [61.32653485523036]
これは構文知識からの貢献に焦点を当て、普遍依存スキームに従って構文が注釈付けされた言語資源を活用する。
その結果, 依存性をベースとした微粒な構文情報は, アイロンの検出に有用であることが示唆された。
論文 参考訳(メタデータ) (2020-11-11T11:22:05Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。