論文の概要: Silver Retriever: Advancing Neural Passage Retrieval for Polish Question
Answering
- arxiv url: http://arxiv.org/abs/2309.08469v2
- Date: Thu, 22 Feb 2024 13:26:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 18:40:17.281558
- Title: Silver Retriever: Advancing Neural Passage Retrieval for Polish Question
Answering
- Title(参考訳): Silver Retriever: ポーランドの質問応答のためのニューラルネットワーク検索の改善
- Authors: Piotr Rybak, Maciej Ogrodniczuk
- Abstract要約: 今回紹介するSilver Retrieverは、手動または弱いラベル付きデータセットの多様なコレクションをトレーニングしたポーランドのニューラルレトリバーだ。
Silver Retrieverは他のポーランドのモデルよりもはるかに優れた結果を得ることができ、より大きな多言語モデルと競合する。
- 参考スコア(独自算出の注目度): 1.746529892290768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern open-domain question answering systems often rely on accurate and
efficient retrieval components to find passages containing the facts necessary
to answer the question. Recently, neural retrievers have gained popularity over
lexical alternatives due to their superior performance. However, most of the
work concerns popular languages such as English or Chinese. For others, such as
Polish, few models are available. In this work, we present Silver Retriever, a
neural retriever for Polish trained on a diverse collection of manually or
weakly labeled datasets. Silver Retriever achieves much better results than
other Polish models and is competitive with larger multilingual models.
Together with the model, we open-source five new passage retrieval datasets.
- Abstract(参考訳): 現代のオープンドメイン質問応答システムは、質問に答えるために必要な事実を含む文を見つけるために、正確で効率的な検索コンポーネントに依存することが多い。
近年、神経レトリバーは、その優れた性能のために語彙的な代替品よりも人気を博している。
しかし、ほとんどの作品は英語や中国語などのポピュラーな言語に関係している。
ポーランド語など他の言語では、ほとんどモデルがない。
本稿では、手動または弱いラベル付きデータセットの多様なコレクションをトレーニングしたポーランドのニューラルレトリバーであるSilver Retrieverを紹介する。
Silver Retrieverは他のポーランドのモデルよりもはるかに優れた結果をもたらし、より大きな多言語モデルと競合する。
このモデルとともに、我々は5つの新しい経路検索データセットをオープンソース化した。
関連論文リスト
- Multimodal Reranking for Knowledge-Intensive Visual Question Answering [77.24401833951096]
回答生成のための知識候補のランク付け品質を向上させるためのマルチモーダル・リランカを提案する。
OK-VQAとA-OKVQAの実験は、遠隔監視からのマルチモーダルリランカーが一貫した改善をもたらすことを示している。
論文 参考訳(メタデータ) (2024-07-17T02:58:52Z) - XAMPLER: Learning to Retrieve Cross-Lingual In-Context Examples [64.79218405438871]
XAMPLER: 言語横断学習の課題に対処するための手法であるクロス言語実例検索法を紹介する。
XAMPLERは最初、英語の肯定的な例と否定的な例を用いて、多言語小言語モデルGlot500に基づいてレトリバーを訓練する。
ターゲット言語の文脈内学習の例として、英語の例を直接検索することができる。
論文 参考訳(メタデータ) (2024-05-08T15:13:33Z) - Unsupervised Multilingual Dense Retrieval via Generative Pseudo Labeling [32.10366004426449]
本稿では,教師なしの高密度多言語レトリバーUMRについて紹介する。
本稿では,多言語高密度検索器の性能を反復的に向上する2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T07:49:06Z) - PIRB: A Comprehensive Benchmark of Polish Dense and Hybrid Text
Retrieval Methods [0.552480439325792]
ポーランド語情報検索ベンチマーク(PIRB, Polish Information Retrieval Benchmark)は、ポーランド語のための41のテキスト情報検索タスクを含む総合的な評価フレームワークである。
このベンチマークには、既存のデータセットに加えて、医学、法律、ビジネス、物理学、言語学など、さまざまなトピックをカバーする、10の新しい未発表データセットが含まれている。
我々は,20以上の密度・疎度検索モデルの評価を行い,そのベースラインモデルについて検討した。
論文 参考訳(メタデータ) (2024-02-20T19:53:36Z) - Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval [56.65147231836708]
SWIM-IRは, 微調整多言語高密度検索のための33言語を含む合成検索訓練データセットである。
SAPは、ターゲット言語における情報クエリの生成において、大きな言語モデル(LLM)を支援する。
我々のモデルはSWIM-Xと呼ばれ、人間に指示された高密度検索モデルと競合する。
論文 参考訳(メタデータ) (2023-11-10T00:17:10Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - MAUPQA: Massive Automatically-created Polish Question Answering Dataset [1.6752182911522522]
オープンドメインの質問応答システムは、ニューラルパスレトリバーをトレーニングするための注釈付きデータセットに大きく依存し始めている。
弱ラベル付きデータセットを自動的に収集する方法を示し、ニューラルパス検索モデルの性能にどのように影響するかを示す。
本研究の結果,ポーランド語とHerBERT-QAニューラルレトリバーのための40万近い質問パスペアからなるMAUPQAデータセットを公表した。
論文 参考訳(メタデータ) (2023-05-09T14:36:04Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z) - Learning to Retrieve Passages without Supervision [58.31911597824848]
オープンドメイン質問応答(ODQA)のためのダンスレトリバーは,問合せペアの大規模データセットをトレーニングすることで,優れた性能を発揮することが示されている。
そこで本研究では,自己教師型で高密度検索が学べるかどうかを考察し,アノテーションを使わずに効果的に適用する。
論文 参考訳(メタデータ) (2021-12-14T19:18:08Z) - One Question Answering Model for Many Languages with Cross-lingual Dense
Passage Retrieval [39.061900747689094]
CORAはクロスランガルなオープン・レトリーバル・アンサー・ジェネレーション・モデルである。
言語固有の注釈付きデータや知識ソースが利用できない場合でも、多くの言語で質問に答えることができる。
論文 参考訳(メタデータ) (2021-07-26T06:02:54Z) - Teaching a New Dog Old Tricks: Resurrecting Multilingual Retrieval Using
Zero-shot Learning [30.868309879441615]
我々は、事前訓練された多言語言語モデルを利用して、英語コレクションで訓練された検索システムを非英語クエリや文書に転送することで、データの欠如に対処する。
提案手法は,アラビア語,中国語,スペイン語の教師なし検索手法を著しく上回りうることを示す。
論文 参考訳(メタデータ) (2019-12-30T20:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。