論文の概要: Dense Retrieval for Low Resource Languages -- the Case of Amharic Language
- arxiv url: http://arxiv.org/abs/2503.18570v1
- Date: Mon, 24 Mar 2025 11:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:37:55.715935
- Title: Dense Retrieval for Low Resource Languages -- the Case of Amharic Language
- Title(参考訳): 低資源言語のためのDense Retrieval--アムハラ語の場合
- Authors: Tilahun Yeshambel, Moncef Garouani, Serge Molina, Josiane Mothe,
- Abstract要約: 本報告では,アムハラ語で高密度レトリバーを用いた場合,いくつかの問題点と結果について報告する。
アディスアベバ大学によるアムハラ情報検索への取り組みと課題は、プレゼンテーション中に展開される。
- 参考スコア(独自算出の注目度): 2.731148860597694
- License:
- Abstract: This paper reports some difficulties and some results when using dense retrievers on Amharic, one of the low-resource languages spoken by 120 millions populations. The efforts put and difficulties faced by University Addis Ababa toward Amharic Information Retrieval will be developed during the presentation.
- Abstract(参考訳): 本稿では,人口1億2000万人の低資源言語の一つであるアムハラ語で高密度レトリバーを用いた場合,いくつかの問題点と結果について報告する。
アディスアベバ大学によるアムハラ情報検索への取り組みと課題は、プレゼンテーション中に展開される。
関連論文リスト
- Think Outside the Data: Colonial Biases and Systemic Issues in Automated Moderation Pipelines for Low-Resource Languages [13.011117871938561]
我々は、低リソース言語のためのモデレーションツールを構築する際に、AI研究者や実践者が直面する課題について検討する。
有害コンテンツの自動検出を専門とする22人のAI研究者と実践者を対象に半構造化インタビューを行った。
以上の結果から,研究者がデータにアクセスすることに対するソーシャルメディア企業の規制が,これらの言語の歴史的疎外化を悪化させることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-23T17:01:53Z) - Low-resourced Languages and Online Knowledge Repositories: A Need-Finding Study [5.735035463793008]
本研究は、人気のあるOKRウィキペディアにおいて、低リソース言語コントリビュータが直面している課題について検討する。
私たちはエチオピアの3つの言語(Afan Oromo、Amharic、Tigrinya)に焦点を当てています。
当社の研究は、低リソースの言語話者にオンライン知識リポジトリをアクセスできるようにする上で、デザイナを支援することを願っています。
論文 参考訳(メタデータ) (2024-05-26T19:20:26Z) - XAMPLER: Learning to Retrieve Cross-Lingual In-Context Examples [64.79218405438871]
XAMPLER: 言語横断学習の課題に対処するための手法であるクロス言語実例検索法を紹介する。
XAMPLERはまず、多言語小言語モデルであるGlot500に基づいてレトリバーを訓練する。
ターゲット言語の文脈内学習の例として、英語の例を直接検索することができる。
論文 参考訳(メタデータ) (2024-05-08T15:13:33Z) - MahaSQuAD: Bridging Linguistic Divides in Marathi Question-Answering [0.4194295877935868]
この研究は、低リソース言語における効率的なQnAデータセットの欠如のギャップを埋めようとしている。
118,516のトレーニング、11,873のバリデーション、11,803のテストサンプルからなる、Indic言語Marathiのための最初の完全なSQuADデータセットであるMahaSQuADを紹介した。
論文 参考訳(メタデータ) (2024-04-20T12:16:35Z) - Predicting positive transfer for improved low-resource speech
recognition using acoustic pseudo-tokens [31.83988006684616]
我々は、ターゲット言語を、類似の高リソースの「ドナー」言語からのデータで補うことが役立つことを示す。
例えば、60時間ドナーのヒンディーが補充された低リソースのパンジャービの10時間のみの事前訓練は、70時間ドナーのパンジャービの70時間ドナーのほぼ同程度である。
論文 参考訳(メタデータ) (2024-02-03T23:54:03Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - Cross-lingual Offensive Language Identification for Low Resource
Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。
このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文 参考訳(メタデータ) (2021-09-08T11:29:44Z) - Survey of Low-Resource Machine Translation [65.52755521004794]
現在、世界中で約7000の言語が話されており、ほとんど全ての言語ペアは機械翻訳モデルのトレーニングのための重要なリソースを欠いている。
翻訳データが少ない場合に有用な翻訳モデルを作成するという課題に対処する研究への関心が高まっている。
論文 参考訳(メタデータ) (2021-09-01T16:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。