論文の概要: DepNeCTI: Dependency-based Nested Compound Type Identification for
Sanskrit
- arxiv url: http://arxiv.org/abs/2310.09501v1
- Date: Sat, 14 Oct 2023 06:11:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 20:04:05.109670
- Title: DepNeCTI: Dependency-based Nested Compound Type Identification for
Sanskrit
- Title(参考訳): DepNeCTI:サンスクリットの依存型ネスト化合物型同定
- Authors: Jivnesh Sandhan, Yaswanth Narsupalli, Sreevatsa Muppirala, Sriram
Krishnan, Pavankumar Satuluri, Amba Kulkarni and Pawan Goyal
- Abstract要約: 本研究はネスト化合物型同定(NeCTI)の新たな課題を紹介する。
マルチコンポーネント化合物のネストしたスパンを特定し、それら間の暗黙的な意味関係をデコードすることを目的としている。
我々の知る限りでは、これはこの課題を提案する語彙意味論の分野における最初の試みである。
- 参考スコア(独自算出の注目度): 7.04795623262177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-component compounding is a prevalent phenomenon in Sanskrit, and
understanding the implicit structure of a compound's components is crucial for
deciphering its meaning. Earlier approaches in Sanskrit have focused on binary
compounds and neglected the multi-component compound setting. This work
introduces the novel task of nested compound type identification (NeCTI), which
aims to identify nested spans of a multi-component compound and decode the
implicit semantic relations between them. To the best of our knowledge, this is
the first attempt in the field of lexical semantics to propose this task.
We present 2 newly annotated datasets including an out-of-domain dataset for
this task. We also benchmark these datasets by exploring the efficacy of the
standard problem formulations such as nested named entity recognition,
constituency parsing and seq2seq, etc. We present a novel framework named
DepNeCTI: Dependency-based Nested Compound Type Identifier that surpasses the
performance of the best baseline with an average absolute improvement of 13.1
points F1-score in terms of Labeled Span Score (LSS) and a 5-fold enhancement
in inference efficiency. In line with the previous findings in the binary
Sanskrit compound identification task, context provides benefits for the NeCTI
task. The codebase and datasets are publicly available at:
https://github.com/yaswanth-iitkgp/DepNeCTI
- Abstract(参考訳): 多成分複合化はサンスクリットで一般的な現象であり、その意味を解読するには化合物の暗黙の構造を理解することが不可欠である。
サンスクリットの初期のアプローチは二成分化合物に焦点を当てており、多成分化合物の設定を無視していた。
本研究は,nested compound type Identification (NeCTI) の新たな課題を紹介し,Nested spans of a multi-component compoundを同定し,それら間の暗黙的な意味関係をデコードすることを目的とする。
我々の知る限りでは、これはこの課題を提案する語彙意味論の分野における最初の試みである。
このタスクのために、ドメイン外データセットを含む2つの新しいアノテートデータセットを提案する。
また,ネスト付き名前付きエンティティ認識や構成構文解析,seq2seqなどの標準問題定式化の有効性を検討することで,これらのデータセットのベンチマークを行った。
ラベル付きスパンスコア(lss)と5倍の推論効率向上で,13.1ポイントのf1-scoreを平均的に絶対的に改善し,最高のベースラインのパフォーマンスを上回った,依存性ベースのネスト型識別子であるdepnectiという新しいフレームワークを提案する。
バイナリサンスクリット複合識別タスクにおける以前の発見と並行して、コンテキストはNeCTIタスクに利益をもたらす。
コードベースとデータセットは、https://github.com/yaswanth-iitkgp/DepNeCTIで公開されている。
関連論文リスト
- SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - HIORE: Leveraging High-order Interactions for Unified Entity Relation
Extraction [85.80317530027212]
本稿では,統合エンティティ関係抽出のための新しい手法であるHIOREを提案する。
重要な洞察は、単語ペア間の複雑な関連を活用することである。
実験の結果,HIOREは従来最高の統一モデルよりも1.11.8 F1ポイント向上した。
論文 参考訳(メタデータ) (2023-05-07T14:57:42Z) - A Novel Multi-Task Learning Approach for Context-Sensitive Compound Type
Identification in Sanskrit [13.742271198030998]
本稿では,文脈情報を組み込んだ新しいマルチタスク学習アーキテクチャを提案する。
SaCTIのベンチマークデータセットの実験では、最先端システムと比較して6.1ポイント(精度)と7.7ポイント(F1スコア)の絶対ゲインを示している。
論文 参考訳(メタデータ) (2022-08-22T13:41:51Z) - Multi-Modal Association based Grouping for Form Structure Extraction [14.134131448981295]
形態構造抽出のための新しいマルチモーダル手法を提案する。
我々は、TextBlocks、Text Fields、Choice Fields、Choice Groupsなどの高階構造を抽出する。
提案手法は, それぞれ90.29%, 73.80%, 83.12%, 52.72%のリコールを達成している。
論文 参考訳(メタデータ) (2021-07-09T12:49:34Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Multilingual Irony Detection with Dependency Syntax and Neural Models [61.32653485523036]
これは構文知識からの貢献に焦点を当て、普遍依存スキームに従って構文が注釈付けされた言語資源を活用する。
その結果, 依存性をベースとした微粒な構文情報は, アイロンの検出に有用であることが示唆された。
論文 参考訳(メタデータ) (2020-11-11T11:22:05Z) - Local Additivity Based Data Augmentation for Semi-supervised NER [59.90773003737093]
名前付きエンティティ認識(NER)は、深層言語理解の第1段階の1つである。
現在のNERモデルは、人間の注釈付きデータに大きく依存している。
半教師付きNERのための局所付加性に基づくデータ拡張法(LADA)を提案する。
論文 参考訳(メタデータ) (2020-10-04T20:46:26Z) - Nominal Compound Chain Extraction: A New Task for Semantic-enriched
Lexical Chain [34.352862428120126]
本稿では, 同一の意味的トピックを共有するすべての名目化合物を抽出・クラスタリングする, NCCE(Nominal Compound Chain extract)という新しいタスクを導入する。
さらに,そのタスクを2段階の予測(複合抽出と連鎖検出)としてモデル化し,提案したジョイントフレームワークを用いて処理する。
実験は手動でアノテートしたコーパスに基づいており、NCCEタスクの必要性が証明されている。
論文 参考訳(メタデータ) (2020-09-19T06:20:37Z) - Fine-Grained Named Entity Typing over Distantly Supervised Data Based on
Refined Representations [16.30478830298353]
Fine-Grained Named Entity Typing (FG-NET) は自然言語処理(NLP)の鍵となるコンポーネントである
本稿では,コーパスレベルの文脈的手がかりをエンド分類に先立ち,ノイズの多い参照表現を洗練させるエッジ重み付き注意グラフ畳み込みネットワークを提案する。
実験により,提案モデルではマクロf1とマイクロf1の相対スコアが10.2%,マクロf1が8.3%であった。
論文 参考訳(メタデータ) (2020-04-07T17:26:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。