論文の概要: Multilingual Entity Linking Using Dense Retrieval
- arxiv url: http://arxiv.org/abs/2406.16892v1
- Date: Mon, 13 May 2024 18:57:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 06:41:31.147860
- Title: Multilingual Entity Linking Using Dense Retrieval
- Title(参考訳): Dense Retrievalを用いた多言語エンティティリンク
- Authors: Dominik Farhan,
- Abstract要約: 本論文では,複数の言語で高速に学習・操作できるシステムを開発する。
我々の研究は、限られたリソースでも複数の言語で動作する競争力のあるニューラルネットワークベースのELシステムを構築することが可能であることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity linking (EL) is the computational process of connecting textual mentions to corresponding entities. Like many areas of natural language processing, the EL field has greatly benefited from deep learning, leading to significant performance improvements. However, present-day approaches are expensive to train and rely on diverse data sources, complicating their reproducibility. In this thesis, we develop multiple systems that are fast to train, demonstrating that competitive entity linking can be achieved without a large GPU cluster. Moreover, we train on a publicly available dataset, ensuring reproducibility and accessibility. Our models are evaluated for 9 languages giving an accurate overview of their strengths. Furthermore, we offer a~detailed analysis of bi-encoder training hyperparameters, a popular approach in EL, to guide their informed selection. Overall, our work shows that building competitive neural network based EL systems that operate in multiple languages is possible even with limited resources, thus making EL more approachable.
- Abstract(参考訳): エンティティリンク(EL)は、テキスト参照を対応するエンティティに接続する計算プロセスである。
自然言語処理の多くの分野と同様に、ELフィールドはディープラーニングの恩恵を受けており、大幅なパフォーマンス向上につながっている。
しかし、今日のアプローチは、様々なデータソースを訓練し、頼りにし、再現性を複雑にしている。
この論文では、高速にトレーニングできる複数のシステムを開発し、大きなGPUクラスタを使わずに競合するエンティティリンクを実現することを実証する。
さらに、公開データセットをトレーニングし、再現性とアクセシビリティを確保します。
我々のモデルは9つの言語で評価され、その強みを正確に概観する。
さらに,両エンコーダ訓練用ハイパーパラメータの詳細な解析を行い,その情報選択の指導を行う。
全体として、我々の研究は、複数の言語で動作する競争力のあるニューラルネットワークベースのELシステムを構築することは、限られたリソースでも可能であることを示し、ELをより親しみやすいものにしている。
関連論文リスト
- All Against Some: Efficient Integration of Large Language Models for Message Passing in Graph Neural Networks [51.19110891434727]
事前訓練された知識と強力なセマンティック理解能力を持つ大規模言語モデル(LLM)は、最近、視覚とテキストデータを使用してアプリケーションに恩恵をもたらす顕著な能力を示している。
E-LLaGNNは、グラフから限られたノード数を増やして、グラフ学習のメッセージパッシング手順を強化するオンデマンドLLMサービスを備えたフレームワークである。
論文 参考訳(メタデータ) (2024-07-20T22:09:42Z) - Input Conditioned Graph Generation for Language Agents [31.2175071107555]
言語エージェントをグラフとして抽象化する既存のフレームワークを用いて,学習可能な動的言語エージェントを開発する。
我々は与えられた入力に基づいて通信の流れを表すエッジを生成することを学び、それによって言語エージェントの内部通信を調整する。
提案手法は,MMLUとCMMLUを併用したデータセットにおいて,従来の静的アプローチを約6%の精度で上回り,疎度誘導損失のトレーニングでは10%以上の精度で適用できる。
論文 参考訳(メタデータ) (2024-06-17T13:53:15Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Instructed Language Models with Retrievers Are Powerful Entity Linkers [87.16283281290053]
Instructed Generative Entity Linker (INSGENEL)は、カジュアル言語モデルが知識ベース上でエンティティリンクを実行することを可能にする最初のアプローチである。
INSGENEL は、+6.8 F1 点が平均的に上昇する以前の生成的代替よりも優れていた。
論文 参考訳(メタデータ) (2023-11-06T16:38:51Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Towards More Equitable Question Answering Systems: How Much More Data Do
You Need? [15.401330338654203]
ステップバックして、既存のリソースを最大限に活用して、多くの言語でQAシステムを開発するためのアプローチを研究します。
具体的には、自動翻訳とコンテキスト-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せの順に拡張された数ショットアプローチの有効性を評価するために、広範囲に分析を行った。
我々は、QAデータセットやシステムの言語カバレッジを高めることを目的として、固定アノテーション予算をより活用するための将来のデータセット開発活動を提案する。
論文 参考訳(メタデータ) (2021-05-28T21:32:04Z) - Better Together -- An Ensemble Learner for Combining the Results of
Ready-made Entity Linking Systems [2.163881720692685]
我々は、同一コーパス上の異なるELシステムの結果を活用することで、性能を最適化できると主張している。
本稿では,複数の既製のELシステムの出力を,インメンションごとに正しいリンクを予測することで活用する,監視手法を提案する。
論文 参考訳(メタデータ) (2021-01-14T14:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。