論文の概要: Task-Lens: Cross-Task Utility Based Speech Dataset Profiling for Low-Resource Indian Languages
- arxiv url: http://arxiv.org/abs/2602.23388v1
- Date: Mon, 16 Feb 2026 04:06:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:07.949458
- Title: Task-Lens: Cross-Task Utility Based Speech Dataset Profiling for Low-Resource Indian Languages
- Title(参考訳): Task-Lens: 低リソースインド言語のためのクロスタスクユーティリティに基づく音声データセットプロファイリング
- Authors: Swati Sharma, Divya V. Sharma, Anubha Gupta,
- Abstract要約: 既存のインドの音声データセットのクロスタスクプロファイリングは、データの不足を軽減できる。
本研究では,9つの下流音声タスクに対する50のインド音声データセットの可読性を評価するクロスタスク調査であるTask-Lensを提案する。
以上の結果から,インドにおける多くの音声データセットには,複数の下流タスクをサポートする未使用メタデータが含まれていることがわかった。
- 参考スコア(独自算出の注目度): 11.658182072375487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rising demand for inclusive speech technologies amplifies the need for multilingual datasets for Natural Language Processing (NLP) research. However, limited awareness of existing task-specific resources in low-resource languages hinders research. This challenge is especially acute in linguistically diverse countries, such as India. Cross-task profiling of existing Indian speech datasets can alleviate the data scarcity challenge. This involves investigating the utility of datasets across multiple downstream tasks rather than focusing on a single task. Prior surveys typically catalogue datasets for a single task, leaving comprehensive cross-task profiling as an open opportunity. Therefore, we propose Task-Lens, a cross-task survey that assesses the readiness of 50 Indian speech datasets spanning 26 languages for nine downstream speech tasks. First, we analyze which datasets contain metadata and properties suitable for specific tasks. Next, we propose task-aligned enhancements to unlock datasets to their full downstream potential. Finally, we identify tasks and Indian languages that are critically underserved by current resources. Our findings reveal that many Indian speech datasets contain untapped metadata that can support multiple downstream tasks. By uncovering cross-task linkages and gaps, Task-Lens enables researchers to explore the broader applicability of existing datasets and to prioritize dataset creation for underserved tasks and languages.
- Abstract(参考訳): 包括的音声技術に対する需要の高まりは、自然言語処理(NLP)研究のための多言語データセットの必要性を増幅する。
しかし、低リソース言語における既存のタスク固有のリソースに対する認識の制限は研究を妨げる。
この課題は特にインドなどの言語学的に多様である。
既存のインドの音声データセットのクロスタスクプロファイリングは、データの不足を軽減できる。
これには、単一のタスクに集中するのではなく、複数のダウンストリームタスクにわたるデータセットの有用性の調査が含まれる。
以前の調査では、単一のタスクのためにデータセットをカタログ化し、包括的なクロスタスクプロファイリングをオープンな機会として残している。
そこで本研究では,26の言語にまたがる50のインド語音声データセットの可読性を評価するタスク-レンスを提案する。
まず、特定のタスクに適したメタデータやプロパティを含むデータセットを分析します。
次に、データセットをフルダウンストリームの可能性にアンロックするためのタスク整合性拡張を提案する。
最後に、現状の資源によって重要視されているタスクやインド語を識別する。
以上の結果から,インドにおける多くの音声データセットには,複数の下流タスクをサポートする未使用メタデータが含まれていることがわかった。
Task-Lensは、タスク間のリンクとギャップを明らかにすることで、既存のデータセットの広範な適用性を調査し、未観測のタスクや言語に対するデータセット生成の優先順位付けを可能にする。
関連論文リスト
- A Survey on Spoken Italian Datasets and Corpora [0.3222802562733787]
この調査は、66のイタリア語のデータセットを包括的に分析する。
データセットは、音声タイプ、ソースとコンテキスト、人口統計学的特徴と言語学的特徴によって分類される。
データセットの不足,代表性,アクセシビリティに関する課題について論じる。
論文 参考訳(メタデータ) (2025-01-11T14:33:57Z) - INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [25.402797722575805]
インデックスQAベンチマーク(Indic QA Benchmark)は、インドの主要言語11言語を対象にした、文脈に基づく質問応答のためのデータセットである。
評価の結果,学習データに強い英語バイアスがあるため,低資源言語では弱い性能を示した。
また、入力を英語に翻訳して処理し、その結果をソース言語に変換して出力するTranslate Testパラダイムについても検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文 参考訳(メタデータ) (2022-11-28T18:54:33Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue [70.65782786401257]
本研究は、オープンドメイン対話における少数サンプルタスク転送のベンチマークであるFETAを導入することにより、対話型タスク転送について検討する。
FETAには10タスクと7タスクがアノテートされた2つの基礎的な会話が含まれており、データセット内タスク転送の研究を可能にする。
3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析する。
論文 参考訳(メタデータ) (2022-05-12T17:59:00Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Low resource language dataset creation, curation and classification:
Setswana and Sepedi -- Extended Abstract [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
分類のためのベースラインを提案し,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-03-30T18:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。