Fugu-MT 論文翻訳(概要): Efficient Entity Candidate Generation for Low-Resource Languages

論文の概要: Efficient Entity Candidate Generation for Low-Resource Languages

arxiv url: http://arxiv.org/abs/2206.15163v1
Date: Thu, 30 Jun 2022 09:49:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-01 13:37:40.081133
Title: Efficient Entity Candidate Generation for Low-Resource Languages
Title（参考訳）: 低リソース言語のための効率的なエンティティ候補生成
Authors: Alberto Garc\'ia-Dur\'an, Akhil Arora, Robert West
Abstract要約: 候補生成はエンティティリンクにおいて重要なモジュールである。知識ベースを効果的に活用することが証明された複数のNLPタスクにおいて重要な役割を果たす。本稿では,言語間エンティティリンクの文脈における候補生成問題の詳細な分析を行う。
参考スコア（独自算出の注目度）: 13.789451365205665
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Candidate generation is a crucial module in entity linking. It also plays a key role in multiple NLP tasks that have been proven to beneficially leverage knowledge bases. Nevertheless, it has often been overlooked in the monolingual English entity linking literature, as naive approaches obtain very good performance. Unfortunately, the existing approaches for English cannot be successfully transferred to poorly resourced languages. This paper constitutes an in-depth analysis of the candidate generation problem in the context of cross-lingual entity linking with a focus on low-resource languages. Among other contributions, we point out limitations in the evaluation conducted in previous works. We introduce a characterization of queries into types based on their difficulty, which improves the interpretability of the performance of different methods. We also propose a light-weight and simple solution based on the construction of indexes whose design is motivated by more complex transfer learning based neural approaches. A thorough empirical analysis on 9 real-world datasets under 2 evaluation settings shows that our simple solution outperforms the state-of-the-art approach in terms of both quality and efficiency for almost all datasets and query types.
Abstract（参考訳）: 候補生成はエンティティリンクの重要なモジュールである。また、知識ベースを有効活用することが証明された複数のnlpタスクにおいて重要な役割を果たす。それにもかかわらず、ナイーブなアプローチが非常に良いパフォーマンスを得るため、文学をつなぐ単言語英語の実体では見過ごされがちである。残念ながら、既存の英語のアプローチは、リソース不足の言語にうまく移行できない。本稿では,低リソース言語に焦点をあてたクロスリンガルエンティティの文脈における候補生成問題の詳細な分析を行う。その他の貢献として,先行研究における評価の限界を指摘した。本稿では,その難易度に基づいてクエリを型にキャラクタリゼーションすることにより,異なるメソッドのパフォーマンスの解釈性を向上させる。また,より複雑な伝達学習に基づくニューラルアプローチによる設計を動機とする指標の構成に基づく,軽量でシンプルな解を提案する。 2つの評価条件の下で9つの実世界のデータセットを徹底的に分析した結果、私たちのシンプルなソリューションは、ほぼすべてのデータセットとクエリタイプの品質と効率の両面で最先端のアプローチよりも優れています。

関連論文リスト

Fluent Alignment with Disfluent Judges: Post-training for Lower-resource Languages [16.671158083515373]
対象言語における命令調整を伴わない言語モデルを構築した。当社のアプローチでは,2つの一般的なアプローチと比較したオンライン学習手法を用いている。ノルウェーのBokmlに関するケーススタディを行い,母国語話者による評価を通して流布度を評価する。
論文参考訳（メタデータ） (2025-12-09T16:31:48Z)
Low-Resource English-Tigrinya MT: Leveraging Multilingual Models, Custom Tokenizers, and Clean Evaluation Benchmarks [6.177998679139308]
ニューラルネットワーク翻訳(NMT)の進歩にもかかわらず、Tigrinyaのような低リソース言語はいまだに保存されていない。本稿では,多言語事前学習モデルを用いた翻訳学習手法について検討し,形態的に豊かな低リソース言語に対する翻訳品質を向上させる。
論文参考訳（メタデータ） (2025-09-24T15:02:57Z)
Evaluating LLMs' Multilingual Capabilities for Bengali: Benchmark Creation and Performance Analysis [0.0]
ベンガル語はNLP研究においてあまり表現されていない言語である。ベンガルのNLP性能を阻害する課題を系統的に検討する。ベンガル語では英語と比較して一貫した性能差がみられた。
論文参考訳（メタデータ） (2025-07-31T05:16:43Z)
Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文参考訳（メタデータ） (2025-05-24T12:31:27Z)
MAGE: Multi-Head Attention Guided Embeddings for Low Resource Sentiment Classification [0.19381162067627603]
本稿では,Language-Independent Data Augmentation (LiDA) とマルチヘッドアテンションに基づく重み付き埋め込みを組み合わせた高度なモデルを提案する。このアプローチは、データ不足の問題に対処するだけでなく、低リソース言語処理と分類タスクにおける将来の研究の基盤となる。
論文参考訳（メタデータ） (2025-02-25T08:53:27Z)
Align, Generate, Learn: A Novel Closed-Loop Framework for Cross-Lingual In-Context Learning [0.0]
言語間インコンテキスト学習(XICL)は、多言語タスクに対処するために大規模言語モデル(LLM)を活用するための変換パラダイムとして登場した。タスク関連事例を内部的に選択・活用するために, LLMの生成能力を活用する, 自己管理型フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-12T05:36:51Z)
Evaluating and explaining training strategies for zero-shot cross-lingual news sentiment analysis [8.770572911942635]
いくつかの低リソース言語で新しい評価データセットを導入する。我々は、機械翻訳の使用を含む、様々なアプローチを実験する。言語間の相似性は言語間移動の成功を予測するのに十分ではないことを示す。
論文参考訳（メタデータ） (2024-09-30T07:59:41Z)
ConVerSum: A Contrastive Learning-based Approach for Data-Scarce Solution of Cross-Lingual Summarization Beyond Direct Equivalents [4.029675201787349]
言語間の要約は自然言語処理の洗練された分野である。高品質なCLSデータがない場合、CLSには実現可能な解決策がない。コントラスト学習のパワーを活かしたCLSのための新しいデータ効率のアプローチであるConVerSumを提案する。
論文参考訳（メタデータ） (2024-08-17T19:03:53Z)
Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文参考訳（メタデータ） (2024-05-07T21:58:45Z)
Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文参考訳（メタデータ） (2024-03-04T10:48:13Z)
Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文参考訳（メタデータ） (2023-12-01T00:54:02Z)
FRASIMED: a Clinical French Annotated Resource Produced through Crosslingual BERT-Based Annotation Projection [0.6116681488656472]
本稿では,言語横断的アノテーション投影による注釈付きデータセットの翻訳版を生成する手法を紹介する。本報告では,フランスにおける2'051の合成臨床症例からなる注釈コーパスであるFRASIMED(Francial Annotated Resource with Semantic Information for Medical Detection)の作成について述べる。
論文参考訳（メタデータ） (2023-09-19T17:17:28Z)
IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文参考訳（メタデータ） (2023-04-20T20:30:34Z)
Visualizing the Relationship Between Encoded Linguistic Information and Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文参考訳（メタデータ） (2022-03-29T19:03:10Z)
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。 IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文参考訳（メタデータ） (2022-01-27T18:53:22Z)
Incorporating Linguistic Knowledge for Abstractive Multi-document Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。依存関係情報を言語誘導型注意機構に処理する。言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文参考訳（メタデータ） (2021-09-23T08:13:35Z)
Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。 NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文参考訳（メタデータ） (2020-06-17T03:24:38Z)
Improving Candidate Generation for Low-resource Cross-lingual Entity Linking [81.41804263432684]
XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。本稿では,(1)エンティティ参照とKBエントリの切断を減らすこと,(2)低リソースシナリオへのモデルの堅牢性を改善すること,の3つの改良を提案する。
論文参考訳（メタデータ） (2020-03-03T05:32:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。