論文の概要: A hybrid entity-centric approach to Persian pronoun resolution
- arxiv url: http://arxiv.org/abs/2211.06257v1
- Date: Fri, 11 Nov 2022 14:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 15:21:47.476084
- Title: A hybrid entity-centric approach to Persian pronoun resolution
- Title(参考訳): ペルシャ代名詞分解に対するハイブリッドエンティティ中心アプローチ
- Authors: Hassan Haji Mohammadi, Alireza Talebpour, Ahmad Mahmoudi Aznaveh,
Samaneh Yazdani
- Abstract要約: 本稿では,複数の規則に基づくシーブと,代名詞のための機械学習シーブを組み合わせたハイブリッドモデルを提案する。
この目的のために、7つの高精度な規則に基づく泥棒がペルシア語のために設計されている。
提案手法は,パイプライン設計と機械学習とルールベース手法の利点を組み合わせた模範的性能を示す。
- 参考スコア(独自算出の注目度): 5.419608513284392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pronoun resolution is a challenging subset of an essential field in natural
language processing called coreference resolution. Coreference resolution is
about finding all entities in the text that refers to the same real-world
entity. This paper presents a hybrid model combining multiple rulebased sieves
with a machine-learning sieve for pronouns. For this purpose, seven
high-precision rule-based sieves are designed for the Persian language. Then, a
random forest classifier links pronouns to the previous partial clusters. The
presented method demonstrates exemplary performance using pipeline design and
combining the advantages of machine learning and rulebased methods. This method
has solved some challenges in end-to-end models. In this paper, the authors
develop a Persian coreference corpus called Mehr in the form of 400 documents.
This corpus fixes some weaknesses of the previous corpora in the Persian
language. Finally, the efficiency of the presented system compared to the
earlier model in Persian is reported by evaluating the proposed method on the
Mehr and Uppsala test sets.
- Abstract(参考訳): 代名詞分解は、コア参照分解(coreference resolution)と呼ばれる自然言語処理において不可欠な部分集合である。
coreference resolutionは、同じ現実世界のエンティティを参照するテキスト中のすべてのエンティティを見つけることである。
本稿では,複数のルールベースシーブと代名詞用機械学習シーブを組み合わせたハイブリッドモデルを提案する。
この目的のために、7つの高度な規則に基づくシーブがペルシャ語のために設計されている。
そして、ランダムな森林分類器が代名詞を前の部分クラスタにリンクする。
提案手法は,パイプライン設計と機械学習とルールベース手法の利点を組み合わせた模範的性能を示す。
この手法はエンドツーエンドモデルにおけるいくつかの課題を解決した。
本研究では,400文書の形で,ペルシア語のコリファレンスコーパスであるmehrを開発した。
このコーパスはペルシア語の以前のコーパスのいくつかの弱点を修正している。
最後に,mehrおよびuppsalaテストセットにおける提案手法を評価することにより,ペルシャの先行モデルと比較して,提案システムの効率を報告した。
関連論文リスト
- Persian Pronoun Resolution: Leveraging Neural Networks and Language Models [8.604145658574689]
本研究では,ParsBERTのような事前学習型トランスフォーマーモデルを利用して,ペルシャ代名詞分解のための最初のエンドツーエンドニューラルネットワークシステムを提案する。
本システムでは,参照検出と先行リンクの両方を共同で最適化し,従来の最先端システムよりも3.37F1スコアの改善を実現した。
論文 参考訳(メタデータ) (2024-05-17T11:56:00Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - One model to rule them all: ranking Slovene summarizers [0.0]
与えられたテキストに対して最適な要約モデルを推奨するシステムを提案する。
提案システムは、入力内容を解析する完全に接続されたニューラルネットワークを用いる。
提案したSloMetaSumモデルの性能を自動評価し,その一部を手動で評価する。
論文 参考訳(メタデータ) (2023-06-20T13:12:58Z) - Conjunct Resolution in the Face of Verbal Omissions [51.220650412095665]
本稿では,テキスト上で直接動作する接続分解タスクを提案し,コーディネーション構造に欠けている要素を復元するために,分割・言い換えパラダイムを利用する。
クラウドソースアノテーションによる自然に発生する動詞の省略例を10万件以上を含む,大規模なデータセットをキュレートする。
我々は、このタスクのために様々な神経ベースラインをトレーニングし、最良の手法が適切なパフォーマンスを得る一方で、改善のための十分なスペースを残していることを示す。
論文 参考訳(メタデータ) (2023-05-26T08:44:02Z) - A Sequence-to-Sequence Approach for Arabic Pronoun Resolution [0.0]
本稿では,アラビア代名詞解決のためのシーケンス・ツー・シーケンス学習手法を提案する。
提案手法はAnATArデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-05-19T08:53:41Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - ARMAN: Pre-training with Semantically Selecting and Reordering of
Sentences for Persian Abstractive Summarization [7.16879432974126]
本稿では,トランスフォーマーをベースとしたエンコーダデコーダモデルARMANを提案する。
ARMANでは、修正されたセマンティックスコアに基づいて文書からの有能な文が選択され、擬似要約を形成する。
提案手法は,ROUGEとBERTScoreで計測された6つの要約タスクに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-09-09T08:35:39Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。