論文の概要: Efficient Entity Candidate Generation for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2206.15163v1
- Date: Thu, 30 Jun 2022 09:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 13:37:40.081133
- Title: Efficient Entity Candidate Generation for Low-Resource Languages
- Title(参考訳): 低リソース言語のための効率的なエンティティ候補生成
- Authors: Alberto Garc\'ia-Dur\'an, Akhil Arora, Robert West
- Abstract要約: 候補生成はエンティティリンクにおいて重要なモジュールである。
知識ベースを効果的に活用することが証明された複数のNLPタスクにおいて重要な役割を果たす。
本稿では,言語間エンティティリンクの文脈における候補生成問題の詳細な分析を行う。
- 参考スコア(独自算出の注目度): 13.789451365205665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Candidate generation is a crucial module in entity linking. It also plays a
key role in multiple NLP tasks that have been proven to beneficially leverage
knowledge bases. Nevertheless, it has often been overlooked in the monolingual
English entity linking literature, as naive approaches obtain very good
performance. Unfortunately, the existing approaches for English cannot be
successfully transferred to poorly resourced languages. This paper constitutes
an in-depth analysis of the candidate generation problem in the context of
cross-lingual entity linking with a focus on low-resource languages. Among
other contributions, we point out limitations in the evaluation conducted in
previous works. We introduce a characterization of queries into types based on
their difficulty, which improves the interpretability of the performance of
different methods. We also propose a light-weight and simple solution based on
the construction of indexes whose design is motivated by more complex transfer
learning based neural approaches. A thorough empirical analysis on 9 real-world
datasets under 2 evaluation settings shows that our simple solution outperforms
the state-of-the-art approach in terms of both quality and efficiency for
almost all datasets and query types.
- Abstract(参考訳): 候補生成はエンティティリンクの重要なモジュールである。
また、知識ベースを有効活用することが証明された複数のnlpタスクにおいて重要な役割を果たす。
それにもかかわらず、ナイーブなアプローチが非常に良いパフォーマンスを得るため、文学をつなぐ単言語英語の実体では見過ごされがちである。
残念ながら、既存の英語のアプローチは、リソース不足の言語にうまく移行できない。
本稿では,低リソース言語に焦点をあてたクロスリンガルエンティティの文脈における候補生成問題の詳細な分析を行う。
その他の貢献として,先行研究における評価の限界を指摘した。
本稿では,その難易度に基づいてクエリを型にキャラクタリゼーションすることにより,異なるメソッドのパフォーマンスの解釈性を向上させる。
また,より複雑な伝達学習に基づくニューラルアプローチによる設計を動機とする指標の構成に基づく,軽量でシンプルな解を提案する。
2つの評価条件の下で9つの実世界のデータセットを徹底的に分析した結果、私たちのシンプルなソリューションは、ほぼすべてのデータセットとクエリタイプの品質と効率の両面で最先端のアプローチよりも優れています。
関連論文リスト
- Evaluating and explaining training strategies for zero-shot cross-lingual news sentiment analysis [8.770572911942635]
いくつかの低リソース言語で新しい評価データセットを導入する。
我々は、機械翻訳の使用を含む、様々なアプローチを実験する。
言語間の相似性は言語間移動の成功を予測するのに十分ではないことを示す。
論文 参考訳(メタデータ) (2024-09-30T07:59:41Z) - ConVerSum: A Contrastive Learning-based Approach for Data-Scarce Solution of Cross-Lingual Summarization Beyond Direct Equivalents [4.029675201787349]
言語間の要約は自然言語処理の洗練された分野である。
高品質なCLSデータがない場合、CLSには実現可能な解決策がない。
コントラスト学習のパワーを活かしたCLSのための新しいデータ効率のアプローチであるConVerSumを提案する。
論文 参考訳(メタデータ) (2024-08-17T19:03:53Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - FRASIMED: a Clinical French Annotated Resource Produced through
Crosslingual BERT-Based Annotation Projection [0.6116681488656472]
本稿では,言語横断的アノテーション投影による注釈付きデータセットの翻訳版を生成する手法を紹介する。
本報告では,フランスにおける2'051の合成臨床症例からなる注釈コーパスであるFRASIMED(Francial Annotated Resource with Semantic Information for Medical Detection)の作成について述べる。
論文 参考訳(メタデータ) (2023-09-19T17:17:28Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - Visualizing the Relationship Between Encoded Linguistic Information and
Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。
我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。
実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文 参考訳(メタデータ) (2022-03-29T19:03:10Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Improving Candidate Generation for Low-resource Cross-lingual Entity
Linking [81.41804263432684]
XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。
本稿では,(1)エンティティ参照とKBエントリの切断を減らすこと,(2)低リソースシナリオへのモデルの堅牢性を改善すること,の3つの改良を提案する。
論文 参考訳(メタデータ) (2020-03-03T05:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。