論文の概要: Text Information Retrieval in Tetun: A Preliminary Study
- arxiv url: http://arxiv.org/abs/2406.07331v1
- Date: Tue, 11 Jun 2024 15:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 22:09:04.600834
- Title: Text Information Retrieval in Tetun: A Preliminary Study
- Title(参考訳): テトゥーンにおけるテキスト情報検索 : 予備研究
- Authors: Gabriel de Jesus,
- Abstract要約: テトゥン語はティモール=レステの公用語の1つであり、ポルトガル語と並んでいる。
2002年にTimor-Lesteが独立を回復し、992,400人以上の話者を抱える低リソース言語である。
メディアは主にテトゥンを使用し、毎日10以上の全国紙がテトゥンでニュースを放送している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Tetun is one of Timor-Leste's official languages alongside Portuguese. It is a low-resource language with over 932,400 speakers that started developing when Timor-Leste restored its independence in 2002. The media mainly uses Tetun, and more than ten national online newspapers actively broadcast news in Tetun every day. However, since information retrieval-based solutions for Tetun do not exist, finding Tetun information on the internet is challenging. This work aims to investigate and develop solutions that can enable the application of information retrieval techniques to develop search solutions for Tetun. We present a preliminary result of an experiment conducted on the task of ad-hoc retrieval in Tetun.
- Abstract(参考訳): テトゥン語(Tetun)は、ティモール=レステの公用語の一つ。
2002年にTimor-Lesteが独立を回復し、992,400人以上の話者を抱える低リソース言語である。
メディアは主にテトゥンを使用し、毎日10以上の全国紙がテトゥンでニュースを放送している。
しかし,テトゥーン情報検索ソリューションは存在しないため,インターネット上でテトゥーン情報を見つけることは困難である。
本研究は,Tetunの検索ソリューション開発において,情報検索技術の適用を可能にするソリューションを研究・開発することを目的とする。
テトゥンにおけるアドホック検索の課題に対する予備的な実験結果を示す。
関連論文リスト
- Exploring News Summarization and Enrichment in a Highly Resource-Scarce Indian Language: A Case Study of Mizo [7.393476206148905]
本研究では,三蔵ニュース記事の総合的な要約を生成するための簡易手法の有効性について検討する。
我々は,500件のミゾニュース記事とそれに対応する豊富な総論要約を公開している。
人的評価は,提案手法がミゾニュース記事の情報カバレッジを著しく向上させることを確認した。
論文 参考訳(メタデータ) (2024-04-25T17:23:04Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Cyberbullying Detection for Low-resource Languages and Dialects: Review
of the State of the Art [0.9831489366502298]
この論文では、バングラ語、ヒンディー語、ドラヴィダ語など、23の低資源言語と方言がカバーされている。
本調査では,サイバーいじめの信頼性定義の欠如を含む,過去の研究における研究ギャップのいくつかを明らかにした。
これらの提案に基づき,バングラのチタゴニア方言におけるサイバーいじめデータセットを収集,公開する。
論文 参考訳(メタデータ) (2023-08-30T03:52:28Z) - Identifying Informational Sources in News Articles [109.70475599552523]
我々は、ニュース執筆に使用される情報ソースの、最大かつ最も広範囲にアノテートされたデータセットを構築した。
本稿では,ニュース記事中のソースの構成性を研究するための新しいタスクであるソース予測を導入する。
論文 参考訳(メタデータ) (2023-05-24T08:56:35Z) - WebCPM: Interactive Web Search for Chinese Long-form Question Answering [104.676752359777]
LFQA(Long-form Question answering)は、複雑でオープンな質問に、段落長の詳細な回答で答えることを目的としている。
中国初のLFQAデータセットであるWebCPMを紹介する。
高品質な質問応答対5,500件,支援事実14,315件,Web検索121,330件を収集した。
論文 参考訳(メタデータ) (2023-05-11T14:47:29Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - Learnings from Technological Interventions in a Low Resource Language:
Enhancing Information Access in Gondi [10.096480120676878]
我々はヒンディー語からゴンディ語への6万通以上の翻訳コーパスを作成した。
ゴンディ語は、南インドと中央インドで約230万人の部族が話している低資源の脆弱言語である。
論文 参考訳(メタデータ) (2022-11-29T13:03:37Z) - A Review of Bangla Natural Language Processing Tasks and the Utility of
Transformer Models [2.5768647103950357]
研究コミュニティで利用可能なBangla NLPタスク、リソース、ツールについてレビューする。
我々は、現在最先端のアルゴリズムを用いて、9つのNLPタスクのために、さまざまなプラットフォームから収集されたデータセットをベンチマークした。
個人と統合されたデータセットを用いてその結果を報告し、今後の研究のためのデータを提供する。
論文 参考訳(メタデータ) (2021-07-08T13:49:46Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z) - Learnings from Technological Interventions in a Low Resource Language: A
Case-Study on Gondi [13.9876704685177]
ゴンディ語は、南インドと中央インドで約230万人の部族が話している低資源の脆弱言語である。
これらの介入の最後には、12,000語未満の翻訳語や文を収集しました。
プロジェクトの大きな目標は、実行可能な言語テクノロジの構築とデプロイに十分なデータをゴンディで収集することだ。
論文 参考訳(メタデータ) (2020-04-21T20:03:57Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。