論文の概要: Anveshana: A New Benchmark Dataset for Cross-Lingual Information Retrieval On English Queries and Sanskrit Documents
- arxiv url: http://arxiv.org/abs/2505.19494v1
- Date: Mon, 26 May 2025 04:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.163769
- Title: Anveshana: A New Benchmark Dataset for Cross-Lingual Information Retrieval On English Queries and Sanskrit Documents
- Title(参考訳): Anveshana: 英語クエリとサンスクリット文書の言語間情報検索のためのベンチマークデータセット
- Authors: Manoj Balaji Jagadeeshan, Prince Raj, Pawan Goyal,
- Abstract要約: この研究はサンスクリット語のニュアンスに関する最先端のモデルである。
これはサンスクリット文書の要約手法を適用してQA処理を改善する。
3400の英語とサンスクリットの問合せ文書のデータセットが研究の基盤となっている。
- 参考スコア(独自算出の注目度): 7.967320126793103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The study presents a comprehensive benchmark for retrieving Sanskrit documents using English queries, focusing on the chapters of the Srimadbhagavatam. It employs a tripartite approach: Direct Retrieval (DR), Translation-based Retrieval (DT), and Query Translation (QT), utilizing shared embedding spaces and advanced translation methods to enhance retrieval systems in a RAG framework. The study fine-tunes state-of-the-art models for Sanskrit's linguistic nuances, evaluating models such as BM25, REPLUG, mDPR, ColBERT, Contriever, and GPT-2. It adapts summarization techniques for Sanskrit documents to improve QA processing. Evaluation shows DT methods outperform DR and QT in handling the cross-lingual challenges of ancient texts, improving accessibility and understanding. A dataset of 3,400 English-Sanskrit query-document pairs underpins the study, aiming to preserve Sanskrit scriptures and share their philosophical importance widely. Our dataset is publicly available at https://huggingface.co/datasets/manojbalaji1/anveshana
- Abstract(参考訳): この研究は、Srimadbhagavatamの章に焦点をあてて、英語のクエリを使ってサンスクリット文書を検索するための包括的なベンチマークを示す。
直接検索(DR)、翻訳ベースの検索(DT)、クエリ変換(QT)という三部構成のアプローチを採用し、共有埋め込み空間と高度な翻訳手法を利用してRAGフレームワークにおける検索システムを強化する。
この研究は、BM25、REPLUG、mDPR、ColBERT、Contriever、GPT-2などのモデルを評価し、サンスクリットの言語ニュアンスに関する最先端のモデルを評価する。
これはサンスクリット文書の要約手法を適用してQA処理を改善する。
DT法は, 従来のテキストの言語横断的課題に対処し, アクセシビリティと理解を向上させる上で, DR法とQT法より優れていることを示す。
3400の英語とサンスクリットの問合せ文書のデータセットは、サンスクリットの経典を保存し、その哲学的重要性を広く共有することを目的として、この研究を支えている。
私たちのデータセットはhttps://huggingface.co/datasets/manojbalaji1/anveshanaで公開されています。
関連論文リスト
- CLIRudit: Cross-Lingual Information Retrieval of Scientific Documents [2.0277446818410994]
本稿では,言語間の学術的探索を評価するための新しいデータセットであるCLIRuditを提案する。
データセットは、カナダのパブリッシングプラットフォームである'Erudit'のバイリンガルな記事メタデータを使って構築されている。
論文 参考訳(メタデータ) (2025-04-22T20:55:08Z) - Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness [30.00463676754559]
49言語にまたがる14kのウィキペディア文書と組み合わせた720の領域紛争クエリからなるベンチマークであるBordIRLinesを紹介した。
実験の結果,多言語文書を検索することで応答の整合性が向上し,純言語文書よりも地政学的バイアスが低減されることがわかった。
言語間RAGがIRから文書の内容にどのように影響するかについて、さらなる実験と事例研究を行った。
論文 参考訳(メタデータ) (2024-10-02T01:59:07Z) - Hindi-BEIR : A Large Scale Retrieval Benchmark in Hindi [8.21020989074456]
進行中の研究にもかかわらず、ヒンディー語で検索モデルを評価するための包括的なベンチマークが欠如している。
我々は、ヒンディー語に翻訳された英語のBEIRデータセットのサブセット、既存のヒンディー語検索データセット、検索用の合成データセットを含むBEIRベンチマークのヒンディー語版を紹介する。
本ベンチマークでは,タスクやドメイン固有の課題の特定と検索性能への影響を明らかにするため,最先端の多言語検索モデルの評価を行う。
論文 参考訳(メタデータ) (2024-08-18T10:55:04Z) - MACT: Model-Agnostic Cross-Lingual Training for Discourse Representation Structure Parsing [4.536003573070846]
意味表現解析モデルのための言語間学習戦略を導入する。
事前訓練された言語モデルにエンコードされた言語間のアライメントを利用する。
実験では、英語、ドイツ語、イタリア語、オランダ語におけるDRS節とグラフ解析の大幅な改善が示されている。
論文 参考訳(メタデータ) (2024-06-03T07:02:57Z) - Building a Japanese Document-Level Relation Extraction Dataset Assisted by Cross-Lingual Transfer [23.978072734886272]
この研究は、既存の英語資源を効果的に活用して、非英語におけるDocRE研究を促進することを目的としている。
英語のデータセットを日本語に転送することでデータセットを構築する。
翻訳されたデータセットが日本語文書の人間のアノテーションを補助できるかどうかについて検討する。
論文 参考訳(メタデータ) (2024-04-25T10:59:02Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Mr. TyDi: A Multi-lingual Benchmark for Dense Retrieval [51.004601358498135]
Mr. TyDiは、11の類型的多様言語における単言語検索のためのベンチマークデータセットである。
このリソースの目的は、非英語言語における高密度検索技術の研究を促進することである。
論文 参考訳(メタデータ) (2021-08-19T16:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。