論文の概要: An Overview of Indian Language Datasets used for Text Summarization
- arxiv url: http://arxiv.org/abs/2203.16127v2
- Date: Fri, 1 Apr 2022 10:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 11:28:55.162201
- Title: An Overview of Indian Language Datasets used for Text Summarization
- Title(参考訳): テキスト要約に用いるインド語データセットの概要
- Authors: Shagun Sinha and Girish Nath Jha
- Abstract要約: インド言語テキスト要約(ILTS)データセットのプールは成長しているか、それともリソースの貧困があるのか?
我々は、2012-2022年に公開されたILTS研究で報告されたデータセットに焦点を当てた。
ILTSと英語のデータセットの調査では、2つの類似点と1つのコントラストが明らかになった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we survey Text Summarization (TS) datasets in Indian Languages
(ILs), which are also low-resource languages (LRLs). We seek to answer one
primary question: is the pool of Indian Language Text Summarization (ILTS)
dataset growing or is there a resource poverty? To an-swer the primary
question, we pose two sub-questions that we seek about ILTS datasets: first,
what characteristics: format and domain do ILTS datasets have? Second, how
different are those characteristics of ILTS datasets from high-resource
languages (HRLs) particularly English. We focus on datasets reported in
published ILTS research works during 2012-2022. The survey of ILTS and English
datasets reveals two similarities and one contrast. The two similarities are:
first, the domain of dataset commonly is news (Hermann et al., 2015). The
second similarity is the format of the dataset which is both extractive and
abstractive. The contrast is in how the research in dataset development has
progressed. ILs face a slow speed of development and public release of datasets
as compared with English. We argue that the relatively lower number of ILTS
datasets is because of two reasons: first, absence of a dedicated forum for
developing TS tools and resources; and second, lack of shareable standard
datasets in the public domain.
- Abstract(参考訳): 本稿では,低リソース言語 (LRL) であるインド言語 (IL) におけるテキスト要約 (TS) データセットについて調査する。
インド言語テキスト要約(ILTS)データセットのプールは成長しているか、それともリソースの貧困があるのか?
第一の質問に答えるために、私たちはILTSデータセットについて探している2つのサブクェリ(第一に、ILTSデータセットが持つ特徴:フォーマットとドメインは何か?
第二に、高リソース言語(HRL)、特に英語からのILTSデータセットの特徴がどの程度異なるか。
2012-2022年に公開されたILTS研究で報告されたデータセットに焦点を当てた。
ILTSと英語のデータセットの調査では、2つの類似点と1つのコントラストが明らかになった。
まず、データセットのドメインは一般的にnews(hermann et al., 2015)である。
2つめの類似点は、抽出的かつ抽象的なデータセットの形式である。
対照的に、データセット開発の研究は進展している。
ILは、英語と比較して、開発速度とデータセットの公開速度が遅い。
まず、TSツールやリソースを開発するための専用のフォーラムがないこと、そして第2に、パブリックドメインで共有可能な標準データセットがないことである。
関連論文リスト
- IndicVoices-R: Unlocking a Massive Multilingual Multi-speaker Speech Corpus for Scaling Indian TTS [0.9092013845117769]
IndicVoices-R (IV-R) は、ASRデータセットから派生したインド最大の多言語TSデータセットである。
IV-Rは、LJ、Speech LibriTTS、IndicTTSといったゴールドスタンダードのTSデータセットの品質と一致する。
私たちは、22の公用語すべてを対象とした最初のTSモデルをリリースします。
論文 参考訳(メタデータ) (2024-09-09T06:28:47Z) - Datasets for Multilingual Answer Sentence Selection [59.28492975191415]
ヨーロッパ5言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)でAS2のための新しい高品質データセットを導入する。
その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:50:29Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - IndiBias: A Benchmark Dataset to Measure Social Biases in Language Models for Indian Context [32.48196952339581]
インドにおける社会的バイアスを評価するためのベンチマークデータセットであるIndiBiasを紹介する。
バイアスの次元には、性別、宗教、キャスト、年齢、地域、身体的外観、職業が含まれる。
我々のデータセットには800の文対と300の偏差測定が含まれている。
論文 参考訳(メタデータ) (2024-03-29T12:32:06Z) - RuBia: A Russian Language Bias Detection Dataset [3.8501658629243076]
本稿では,RuBiaと呼ばれるロシア語に特化して設計されたバイアス検出データセットを提案する。
RuBiaデータセットは、性別、国籍、社会経済的地位、多様性の4つの領域に分けられる。
ルビアには、19の国に2000近いユニークな文が散在している。
論文 参考訳(メタデータ) (2024-03-26T10:01:01Z) - IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。
提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文 参考訳(メタデータ) (2024-03-12T18:14:48Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Cross-Lingual Knowledge Distillation for Answer Sentence Selection in
Low-Resource Languages [90.41827664700847]
低リソース言語のためのAS2モデルの学習方法として、英語の強力なAS2教師からCLKD(Cross-Lingual Knowledge Distillation)を提案する。
提案手法を評価するために,1)Xtr-WikiQA,(9言語用ウィキQAデータセット,2)TyDi-AS2,8言語にまたがる70万以上の質問を持つ多言語AS2データセットを紹介する。
論文 参考訳(メタデータ) (2023-05-25T17:56:04Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - DiS-ReX: A Multilingual Dataset for Distantly Supervised Relation
Extraction [15.649929244635269]
これらの問題を緩和する新しいデータセットであるDiS-ReXを提案する。
私たちのデータセットには150万以上の文があり、36の関連クラスを持つ4つの言語にまたがっている。
また,mBERTを用いて文を符号化し,多言語DS-REのベンチマーク結果を提供する。
論文 参考訳(メタデータ) (2021-04-17T22:44:38Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。