Fugu-MT 論文翻訳(概要): An Overview of Indian Language Datasets used for Text Summarization

論文の概要: An Overview of Indian Language Datasets used for Text Summarization

arxiv url: http://arxiv.org/abs/2203.16127v1
Date: Wed, 30 Mar 2022 08:09:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-31 14:43:19.691407
Title: An Overview of Indian Language Datasets used for Text Summarization
Title（参考訳）: テキスト要約に用いるインド語データセットの概要
Authors: Shagun Sinha and Girish Nath Jha
Abstract要約: 低リソース言語 (LRL) であるインドランゲージ (IL) におけるテキスト要約 (TS) データセットを調査した。インド言語テキスト要約(ILTS)データセットのプールは増加するのか、それとも深刻なリソース不足があるのか? ILTSと英語のデータセットの調査では、2つの類似点と1つのコントラストが明らかになった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper, we survey Text Summarization (TS) datasets in Indian Lan-guages (ILs), which are also low-resource languages (LRLs). We seek to answer one primary question: is the pool of Indian Language Text Summarization (ILTS) dataset growing or is there a serious resource poverty? To an-swer the primary question, we pose two sub-questions that we seek about ILTS datasets: first, what characteristics: format and domain do ILTS da-tasets have? Second, how different are those characteristics of ILTS datasets from high-resource languages (HRLs) particularly English. The survey of ILTS and English datasets reveals two similarities and one contrast. The two similarities are: first, the domain of dataset commonly is news (Hermann et al., 2015). The second similarity is the format of the dataset which is both extractive and abstractive. The contrast is in how the research in dataset development has progressed. ILs face a slow speed of development and public release of datasets as compared with English. We conclude that the relatively lower number of ILTS datasets is because of two reasons: first, absence of a dedicated forum for developing TS tools. And second, lack of shareable standard datasets in the public domain.
Abstract（参考訳）: 本稿では,低リソース言語 (LRL) であるインドランゲージ (IL) におけるテキスト要約 (TS) データセットについて調査する。インド語テキスト要約(ilts)データセットのプールは増加しているか、それとも深刻なリソース不足があるのか? 第一の質問に答えるために、私たちはILTSデータセットについて求めている2つのサブクエストを提示します。第二に、高リソース言語(HRL)、特に英語からのILTSデータセットの特徴がどの程度異なるか。 ILTSと英語のデータセットの調査では、2つの類似点と1つのコントラストが明らかになった。まず、データセットのドメインは一般的にnews(hermann et al., 2015)である。 2つめの類似点は、抽出的かつ抽象的なデータセットの形式である。対照的に、データセット開発の研究は進展している。 ILは、英語と比較して、開発速度とデータセットの公開速度が遅い。 ILTSデータセットが比較的少ないのは、まず、TSツールを開発するための専用のフォーラムがない、という2つの理由からである、と結論付けています。次に、パブリックドメインで共有可能な標準データセットがない。

関連論文リスト

BESSTIE: A Benchmark for Sentiment and Sarcasm Classification for Varieties of English [8.823927892310238]
BESSTIEは、オーストラリア(en-AU)、インド(en-IN)、イギリス(en-UK)の3種類の英語に対する感情と皮肉の分類のベンチマークである。位置に基づくフィルタリングとトピックに基づくフィルタリングという2つの手法を用いて,これらの言語品種のデータセットを収集する。言語変異のネイティブ話者は、感情ラベルと皮肉ラベルでデータセットを手動で注釈付けする。
論文参考訳（メタデータ） (2024-12-06T02:34:40Z)
IndicVoices-R: Unlocking a Massive Multilingual Multi-speaker Speech Corpus for Scaling Indian TTS [0.9092013845117769]
IndicVoices-R (IV-R) は、ASRデータセットから派生したインド最大の多言語TSデータセットである。 IV-Rは、LJ、Speech LibriTTS、IndicTTSといったゴールドスタンダードのTSデータセットの品質と一致する。私たちは、22の公用語すべてを対象とした最初のTSモデルをリリースします。
論文参考訳（メタデータ） (2024-09-09T06:28:47Z)
Datasets for Multilingual Answer Sentence Selection [59.28492975191415]
ヨーロッパ5言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)でAS2のための新しい高品質データセットを導入する。その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであることが示唆された。
論文参考訳（メタデータ） (2024-06-14T16:50:29Z)
Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。 GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文参考訳（メタデータ） (2024-05-27T08:08:51Z)
IndiBias: A Benchmark Dataset to Measure Social Biases in Language Models for Indian Context [32.48196952339581]
インドにおける社会的バイアスを評価するためのベンチマークデータセットであるIndiBiasを紹介する。バイアスの次元には、性別、宗教、キャスト、年齢、地域、身体的外観、職業が含まれる。我々のデータセットには800の文対と300の偏差測定が含まれている。
論文参考訳（メタデータ） (2024-03-29T12:32:06Z)
RuBia: A Russian Language Bias Detection Dataset [3.8501658629243076]
本稿では,RuBiaと呼ばれるロシア語に特化して設計されたバイアス検出データセットを提案する。 RuBiaデータセットは、性別、国籍、社会経済的地位、多様性の4つの領域に分けられる。ルビアには、19の国に2000近いユニークな文が散在している。
論文参考訳（メタデータ） (2024-03-26T10:01:01Z)
IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文参考訳（メタデータ） (2024-03-12T18:14:48Z)
Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文参考訳（メタデータ） (2023-11-06T19:00:05Z)
Cross-Lingual Knowledge Distillation for Answer Sentence Selection in Low-Resource Languages [90.41827664700847]
低リソース言語のためのAS2モデルの学習方法として、英語の強力なAS2教師からCLKD(Cross-Lingual Knowledge Distillation)を提案する。提案手法を評価するために,1)Xtr-WikiQA,(9言語用ウィキQAデータセット,2)TyDi-AS2,8言語にまたがる70万以上の質問を持つ多言語AS2データセットを紹介する。
論文参考訳（メタデータ） (2023-05-25T17:56:04Z)
Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文参考訳（メタデータ） (2023-01-22T18:22:55Z)
DiS-ReX: A Multilingual Dataset for Distantly Supervised Relation Extraction [15.649929244635269]
これらの問題を緩和する新しいデータセットであるDiS-ReXを提案する。私たちのデータセットには150万以上の文があり、36の関連クラスを持つ4つの言語にまたがっている。また,mBERTを用いて文を符号化し,多言語DS-REのベンチマーク結果を提供する。
論文参考訳（メタデータ） (2021-04-17T22:44:38Z)
Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文参考訳（メタデータ） (2020-08-21T20:59:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。