論文の概要: Wikipedia-based Datasets in Russian Information Retrieval Benchmark RusBEIR
- arxiv url: http://arxiv.org/abs/2511.05079v1
- Date: Fri, 07 Nov 2025 08:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.715276
- Title: Wikipedia-based Datasets in Russian Information Retrieval Benchmark RusBEIR
- Title(参考訳): ロシア語情報検索ベンチマークRusBEIRにおけるウィキペディアベースのデータセット
- Authors: Grigory Kovalev, Natalia Loukachevitch, Mikhail Tikhomirov, Olga Babina, Pavel Mamaev,
- Abstract要約: 我々は,ロシア語ウィキペディアの"Did you know..."セクションから構築された,ロシアの情報検索データセットについて紹介する。
私たちのデータセットは、ファクトチェック、検索強化生成、フルドキュメント検索など、さまざまな検索タスクをサポートします。
- 参考スコア(独自算出の注目度): 0.4893345190925178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a novel series of Russian information retrieval datasets constructed from the "Did you know..." section of Russian Wikipedia. Our datasets support a range of retrieval tasks, including fact-checking, retrieval-augmented generation, and full-document retrieval, by leveraging interesting facts and their referenced Wikipedia articles annotated at the sentence level with graded relevance. We describe the methodology for dataset creation that enables the expansion of existing Russian Information Retrieval (IR) resources. Through extensive experiments, we extend the RusBEIR research by comparing lexical retrieval models, such as BM25, with state-of-the-art neural architectures fine-tuned for Russian, as well as multilingual models. Results of our experiments show that lexical methods tend to outperform neural models on full-document retrieval, while neural approaches better capture lexical semantics in shorter texts, such as in fact-checking or fine-grained retrieval. Using our newly created datasets, we also analyze the impact of document length on retrieval performance and demonstrate that combining retrieval with neural reranking consistently improves results. Our contribution expands the resources available for Russian information retrieval research and highlights the importance of accurate evaluation of retrieval models to achieve optimal performance. All datasets are publicly available at HuggingFace. To facilitate reproducibility and future research, we also release the full implementation on GitHub.
- Abstract(参考訳): 本稿では,ロシア語ウィキペディアの"Did you know..."セクションから構築した,ロシア語情報検索データセットについて紹介する。
我々のデータセットは、興味のある事実や参照されたウィキペディアの記事に関連性のある文レベルで注釈をつけることによって、事実チェック、検索強化生成、全文書検索など、さまざまな検索タスクをサポートしている。
本稿では、既存のロシア情報検索(IR)リソースの拡張を可能にするデータセット作成手法について述べる。
広範な実験を通じて、BM25のような語彙検索モデルと、ロシア語や多言語モデルに微調整された最先端のニューラルネットワークアーキテクチャを比較して、RusBEIRの研究を拡張した。
実験の結果、語彙法はフルドキュメント検索においてニューラルネットワークよりも優れている傾向を示し、一方、ニューラルネットワークアプローチは、事実チェックやきめ細かな検索など、短いテキストの語彙意味をよりよく捉えている。
新たに作成したデータセットを用いて、文書長が検索性能に与える影響を分析し、検索とニューラルリグレートを組み合わせた結果が一貫して改善されることを実証する。
我々の貢献は、ロシアの情報検索研究に利用可能な資源を拡張し、最適な性能を達成するために、検索モデルの正確な評価の重要性を強調している。
すべてのデータセットはHuggingFaceで公開されている。
再現性と今後の研究を容易にするため、GitHubで完全な実装をリリースしています。
関連論文リスト
- MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [48.73595915402094]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。
本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文 参考訳(メタデータ) (2025-05-26T10:31:26Z) - Interpreting Multilingual and Document-Length Sensitive Relevance Computations in Neural Retrieval Models through Axiomatic Causal Interventions [0.0]
本研究は,ニューラル検索モデルにおけるリバースエンジニアリング関連性のための軸的因果介入の分析と拡張である。
従来の論文から重要な実験を再現し、クエリ項に関する情報がモデルエンコーディングで取得されることを確認した。
この作業は、スペイン語と中国語のデータセットにアクティベーションパッチを適用し、文書の長さの情報もモデルにエンコードされているかどうかを調べることで拡張する。
論文 参考訳(メタデータ) (2025-05-04T15:30:45Z) - Building Russian Benchmark for Evaluation of Information Retrieval Models [0.0]
RusBEIRは、ロシア語における情報検索モデルの評価のためのベンチマークである。
適応、翻訳、新しく作成されたデータセットを統合し、語彙モデルとニューラルモデルの比較を可能にする。
論文 参考訳(メタデータ) (2025-04-17T12:11:14Z) - GeAR: Generation Augmented Retrieval [82.20696567697016]
本稿では,新しい方法であるtextbfGe$nerationを紹介する。
対照的な学習を通じて、グローバルなドキュメントクエリの類似性を改善すると同時に、よく設計されたフュージョンとデコードモジュールを統合する。
検索機として使用する場合、GeARはバイエンコーダよりも計算コストがかかることはない。
論文 参考訳(メタデータ) (2025-01-06T05:29:00Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Leveraging Advantages of Interactive and Non-Interactive Models for
Vector-Based Cross-Lingual Information Retrieval [12.514666775853598]
対話型モデルと非対話型モデルの利点を活用する新しいフレームワークを提案する。
非対話型アーキテクチャ上でモデルを構築できる半対話型機構を導入するが、各文書を関連付けられた多言語クエリと共にエンコードする。
本手法は,計算効率を維持しながら検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-03T03:03:19Z) - Enhancing Extractive Text Summarization with Topic-Aware Graph Neural
Networks [21.379555672973975]
本稿では,グラフニューラルネットワーク(GNN)に基づく抽出要約モデルを提案する。
本モデルでは,文章選択のための文書レベルの特徴を提供する潜在トピックを発見するために,共同ニューラルトピックモデル(NTM)を統合している。
実験結果から,CNN/DMおよびNYTデータセットにおいて,本モデルがほぼ最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T09:30:04Z) - Learning from Context or Names? An Empirical Study on Neural Relation
Extraction [112.06614505580501]
テキストにおける2つの主要な情報ソースの効果について検討する:テキストコンテキストとエンティティ参照(名前)
本稿では,関係抽出のための実体型コントラスト事前学習フレームワーク(RE)を提案する。
我々のフレームワークは、異なるREシナリオにおけるニューラルモデルの有効性と堅牢性を改善することができる。
論文 参考訳(メタデータ) (2020-10-05T11:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。