論文の概要: Nepali Passport Question Answering: A Low-Resource Dataset for Public Service Applications
- arxiv url: http://arxiv.org/abs/2603.13320v1
- Date: Wed, 04 Mar 2026 15:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.30145
- Title: Nepali Passport Question Answering: A Low-Resource Dataset for Public Service Applications
- Title(参考訳): ネパールのパスポートに関する質問に答える - 公共サービスアプリケーションのための低リソースデータセット
- Authors: Funghang Limbu Begha, Praveen Acharya, Bal Krishna Bal,
- Abstract要約: 我々は、パスポート関連サービスの頻繁な質問(FAQ)に焦点を当て、IRモデルのトレーニングと評価のためのデータセットを構築する。
問合せ検索における意味的類似性のための微調整変換器を用いた埋め込みモデルを構築した。
その結果,細調整したSBERTモデルの方がBM25より優れており,マルチリンガルなE5埋め込みモデルの方が検索性能が高いことがわかった。
- 参考スコア(独自算出の注目度): 2.14745216810916
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Nepali, a low-resource language, faces significant challenges in building an effective information retrieval system due to the unavailability of annotated data and computational linguistic resources. In this study, we attempt to address this gap by preparing a pair-structured Nepali Question-Answer dataset. We focus on Frequently Asked Questions (FAQs) for passport-related services, building a data set for training and evaluation of IR models. In our study, we have fine-tuned transformer-based embedding models for semantic similarity in question-answer retrieval. The fine-tuned models were compared with the baseline BM25. In addition, we implement a hybrid retrieval approach, integrating fine-tuned models with BM25, and evaluate the performance of the hybrid retrieval. Our results show that the fine-tuned SBERT-based models outperform BM25, whereas multilingual E5 embedding-based models achieve the highest retrieval performance among all evaluated models.
- Abstract(参考訳): 低リソース言語であるネパール語は、注釈付きデータや計算言語資源が利用できないため、効果的な情報検索システムを構築する上で大きな課題に直面している。
本研究では,このギャップに,2つの構造を持つネパール質問応答データセットを作成して対処する。
我々は、パスポート関連サービスの頻繁な質問(FAQ)に焦点を当て、IRモデルのトレーニングと評価のためのデータセットを構築する。
本研究では,質問応答検索における意味的類似性を考慮した変換器を用いた埋め込みモデルを提案する。
微調整されたモデルはベースラインのBM25と比較された。
さらに, ハイブリッド検索手法を実装し, 微調整モデルとBM25を統合し, ハイブリッド検索の性能評価を行った。
その結果,細調整SBERTモデルの方がBM25より優れており,マルチリンガルE5埋め込みモデルでは全ての評価モデルの中で最も高い検索性能が得られた。
関連論文リスト
- Maximally-Informative Retrieval for State Space Model Generation [59.954191072042526]
テスト時に特定のクエリに対するモデル不確実性を最小化するために、Retrieval In-Context Optimization (RICO)を導入する。
文書検索に外部に依存した従来の検索強化生成(RAG)とは異なり,本手法はモデルから直接のフィードバックを利用する。
モデル勾配を用いた標準のトップ$kの検索は、最適化手順を近似し、残余損失への接続を提供することを示す。
論文 参考訳(メタデータ) (2025-06-13T18:08:54Z) - Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - From Retrieval to Generation: Comparing Different Approaches [15.31883349259767]
我々は,知識集約型タスクに対する検索ベース,生成ベース,ハイブリッドモデルの評価を行った。
我々は、高密度レトリバー、特にDPRは、NQ上でトップ1の精度が50.17%のODQAにおいて高い性能を発揮することを示す。
また、WikiText-103を用いて言語モデリングタスクを解析し、BM25のような検索に基づくアプローチは、生成的手法やハイブリッド手法に比べて難易度が低いことを示す。
論文 参考訳(メタデータ) (2025-02-27T16:29:14Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Predicting Census Survey Response Rates With Parsimonious Additive Models and Structured Interactions [12.818275315985971]
本研究では, フレキシブルで解釈可能な非パラメトリックモデル群を用いて, アンケート応答率を予測することの問題点を考察する。
この研究は、米国国勢調査局(US Census Bureau)の有名なROAMアプリケーションによって動機付けられている。
論文 参考訳(メタデータ) (2021-08-24T17:49:55Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。