論文の概要: Efficient Entity Candidate Generation for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2206.15163v1
- Date: Thu, 30 Jun 2022 09:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 13:37:40.081133
- Title: Efficient Entity Candidate Generation for Low-Resource Languages
- Title(参考訳): 低リソース言語のための効率的なエンティティ候補生成
- Authors: Alberto Garc\'ia-Dur\'an, Akhil Arora, Robert West
- Abstract要約: 候補生成はエンティティリンクにおいて重要なモジュールである。
知識ベースを効果的に活用することが証明された複数のNLPタスクにおいて重要な役割を果たす。
本稿では,言語間エンティティリンクの文脈における候補生成問題の詳細な分析を行う。
- 参考スコア(独自算出の注目度): 13.789451365205665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Candidate generation is a crucial module in entity linking. It also plays a
key role in multiple NLP tasks that have been proven to beneficially leverage
knowledge bases. Nevertheless, it has often been overlooked in the monolingual
English entity linking literature, as naive approaches obtain very good
performance. Unfortunately, the existing approaches for English cannot be
successfully transferred to poorly resourced languages. This paper constitutes
an in-depth analysis of the candidate generation problem in the context of
cross-lingual entity linking with a focus on low-resource languages. Among
other contributions, we point out limitations in the evaluation conducted in
previous works. We introduce a characterization of queries into types based on
their difficulty, which improves the interpretability of the performance of
different methods. We also propose a light-weight and simple solution based on
the construction of indexes whose design is motivated by more complex transfer
learning based neural approaches. A thorough empirical analysis on 9 real-world
datasets under 2 evaluation settings shows that our simple solution outperforms
the state-of-the-art approach in terms of both quality and efficiency for
almost all datasets and query types.
- Abstract(参考訳): 候補生成はエンティティリンクの重要なモジュールである。
また、知識ベースを有効活用することが証明された複数のnlpタスクにおいて重要な役割を果たす。
それにもかかわらず、ナイーブなアプローチが非常に良いパフォーマンスを得るため、文学をつなぐ単言語英語の実体では見過ごされがちである。
残念ながら、既存の英語のアプローチは、リソース不足の言語にうまく移行できない。
本稿では,低リソース言語に焦点をあてたクロスリンガルエンティティの文脈における候補生成問題の詳細な分析を行う。
その他の貢献として,先行研究における評価の限界を指摘した。
本稿では,その難易度に基づいてクエリを型にキャラクタリゼーションすることにより,異なるメソッドのパフォーマンスの解釈性を向上させる。
また,より複雑な伝達学習に基づくニューラルアプローチによる設計を動機とする指標の構成に基づく,軽量でシンプルな解を提案する。
2つの評価条件の下で9つの実世界のデータセットを徹底的に分析した結果、私たちのシンプルなソリューションは、ほぼすべてのデータセットとクエリタイプの品質と効率の両面で最先端のアプローチよりも優れています。
関連論文リスト
- Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - FRASIMED: a Clinical French Annotated Resource Produced through
Crosslingual BERT-Based Annotation Projection [0.6116681488656472]
本稿では,言語横断的アノテーション投影による注釈付きデータセットの翻訳版を生成する手法を紹介する。
本報告では,フランスにおける2'051の合成臨床症例からなる注釈コーパスであるFRASIMED(Francial Annotated Resource with Semantic Information for Medical Detection)の作成について述べる。
論文 参考訳(メタデータ) (2023-09-19T17:17:28Z) - Extracting Multi-valued Relations from Language Models [36.944060044138304]
我々は, 潜在言語表現を解析し, 実体化された多目的関係知識を得る可能性について検討する。
候補オブジェクトのランク付けには,既存のプロンプト技術を評価し,ドメイン知識を取り入れた新しい手法を提案する。
選択法のうち、学習された関係性特異しきい値よりも高い確率で対象を選択すると、49.5%のF1スコアが得られる。
論文 参考訳(メタデータ) (2023-07-06T16:48:32Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - On the Usability of Transformers-based models for a French
Question-Answering task [2.44288434255221]
本稿では,大規模学習問題におけるトランスフォーマーに基づく言語モデルのユーザビリティに着目した。
本稿では,低リソース環境下での競合性を示すFrALBERTの新しいコンパクトモデルを提案する。
論文 参考訳(メタデータ) (2022-07-19T09:46:15Z) - Visualizing the Relationship Between Encoded Linguistic Information and
Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。
我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。
実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文 参考訳(メタデータ) (2022-03-29T19:03:10Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Few-shot Named Entity Recognition with Cloze Questions [3.561183926088611]
本稿では,クローゼクエスト機構とファインチューニングを併用した数ショット学習手法であるPET(Pattern-Exploiting Training)の簡易かつ直感的な適応を提案する。
提案手法は,他の数発のベースラインに対して,標準的な微調整や同等あるいは改良された結果よりもはるかに優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-24T11:08:59Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Improving Candidate Generation for Low-resource Cross-lingual Entity
Linking [81.41804263432684]
XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。
本稿では,(1)エンティティ参照とKBエントリの切断を減らすこと,(2)低リソースシナリオへのモデルの堅牢性を改善すること,の3つの改良を提案する。
論文 参考訳(メタデータ) (2020-03-03T05:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。