論文の概要: AmharicIR+Instr: A Two-Dataset Resource for Neural Retrieval and Instruction Tuning
- arxiv url: http://arxiv.org/abs/2602.09914v1
- Date: Tue, 10 Feb 2026 15:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.659125
- Title: AmharicIR+Instr: A Two-Dataset Resource for Neural Retrieval and Instruction Tuning
- Title(参考訳): AmharicIR+Instr:ニューラル検索とインストラクションチューニングのための2つのデータセットリソース
- Authors: Tilahun Yeshambel, Moncef Garouani, Josiane Mothe,
- Abstract要約: ニューラルネットワークと命令追従型テキスト生成の研究を支援する2つのデータセットをリリースする。
検索ランクデータセットは、クエリ正負の文書三つ子を手作業で検証する1,091を含む。
命令プロンプト応答データセットは、複数のドメインと命令タイプにまたがる6,285個のAmharicプロンプト応答ペアからなる。
- 参考スコア(独自算出の注目度): 3.5047438945401717
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Neural retrieval and GPT-style generative models rely on large, high-quality supervised data, which is still scarce for low-resource languages such as Amharic. We release an Amharic data resource consisting of two datasets that supports research on (i) neural retrieval-ranking and (ii) instruction-following text generation. The retrieval-ranking dataset contains 1,091 manually verified query-positive-negative document triplets drawn from diverse Amharic sources and constructed to support contrastive training and benchmarking of neural retrievers (e.g., DPR, ColBERT-style late interaction and SPLADE-style sparse neural retrieval). Triplets are created through a combination of expert-curated queries, web-derived queries, and LLM-assisted generation, with positive/negative documents selected from the web or synthesized by LLMs and then validated by native speakers. The instruction prompt-response dataset comprises 6,285 Amharic prompt-response pairs spanning multiple domains and instruction types, generated with several LLMs and refined through manual review and correction for grammaticality, relevance, fluency, and factual plausibility. We release both datasets with standardized splits and formats (CSV,JSON,JSONL) to enable reproducible work on Amharic retrieval, ranking, and generative modelling. These datasets also come with a methodology that can be generalized to other low-resource languages.
- Abstract(参考訳): ニューラル検索とGPTスタイルの生成モデルは大規模で高品質な教師付きデータに依存しており、それでもアムハラ語のような低リソース言語では不十分である。
研究を支援する2つのデータセットからなるAmharicデータリソースをリリースする。
一 神経検索等級
(ii)命令追従テキスト生成。
検索基準データセットは、さまざまなアムハラソースから抽出され、ニューラル検索器(例えば、DPR、ColBERTスタイルの遅延相互作用、SPLADEスタイルのスパースニューラル検索)のコントラストトレーニングとベンチマークをサポートするために構築された、手動で検証されたクエリ陽性の文書三重項を含む。
Tripletは、専門家によるクエリ、Webからのクエリ、LLMによる生成の組み合わせによって作成され、Webから選択された肯定的/否定的なドキュメント、あるいはLLMによって合成され、その後ネイティブスピーカーによって検証される。
複数のドメインと命令タイプにまたがる6,285個のAmharicプロンプト応答ペアからなる命令プロンプト応答データセット。
両データセットを標準化した分割とフォーマット(CSV,JSON,JSONL)でリリースし、アムハラ語検索、ランキング、生成モデリングにおける再現可能な作業を可能にする。
これらのデータセットには、他の低リソース言語に一般化可能な方法論も含まれている。
関連論文リスト
- Measuring Bias of Web-filtered Text Datasets and Bias Propagation Through Training [22.53813258871828]
大規模言語モデル(LLM)の事前学習データセットのバイアスについて,データセット分類実験により検討した。
ニューラルネットワークは、単一のテキストシーケンスが属するデータセットを驚くほどよく分類することができる。
論文 参考訳(メタデータ) (2024-12-03T21:43:58Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Triples-to-isiXhosa (T2X): Addressing the Challenges of Low-Resource
Agglutinative Data-to-Text Generation [9.80836683456026]
我々は,低リソースかつ凝集性の高いisiXhosaのデータ・トゥ・テキストに取り組む。
我々はWebNLGのサブセットに基づいた新しいデータセットであるTriples-to-isiXhosa (T2X)を紹介する。
本研究では,T2X の評価フレームワークを開発し,データ記述の精度を計測する。
論文 参考訳(メタデータ) (2024-03-12T11:53:27Z) - HAGRID: A Human-LLM Collaborative Dataset for Generative
Information-Seeking with Attribution [46.41448772928026]
本稿では,Human-in-the-loop Attributable Generative Retrieval for Information-seeking dataset(Human-in-the-loop Attributable Generative Retrieval for Information-seeking dataset)を提案する。
ブラックボックスプロプライエタリな検索エンジンに焦点を当てた最近の取り組みとは異なり、私たちはMIRACLの英語サブセットの上にデータセットを構築しました。
論文 参考訳(メタデータ) (2023-07-31T17:49:18Z) - Large Language Model as Attributed Training Data Generator: A Tale of
Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。
本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。
属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-28T03:31:31Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。