論文の概要: An Overview of Indian Language Datasets used for Text Summarization
- arxiv url: http://arxiv.org/abs/2203.16127v1
- Date: Wed, 30 Mar 2022 08:09:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 14:43:19.691407
- Title: An Overview of Indian Language Datasets used for Text Summarization
- Title(参考訳): テキスト要約に用いるインド語データセットの概要
- Authors: Shagun Sinha and Girish Nath Jha
- Abstract要約: 低リソース言語 (LRL) であるインドランゲージ (IL) におけるテキスト要約 (TS) データセットを調査した。
インド言語テキスト要約(ILTS)データセットのプールは増加するのか、それとも深刻なリソース不足があるのか?
ILTSと英語のデータセットの調査では、2つの類似点と1つのコントラストが明らかになった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we survey Text Summarization (TS) datasets in Indian
Lan-guages (ILs), which are also low-resource languages (LRLs). We seek to
answer one primary question: is the pool of Indian Language Text Summarization
(ILTS) dataset growing or is there a serious resource poverty? To an-swer the
primary question, we pose two sub-questions that we seek about ILTS datasets:
first, what characteristics: format and domain do ILTS da-tasets have? Second,
how different are those characteristics of ILTS datasets from high-resource
languages (HRLs) particularly English. The survey of ILTS and English datasets
reveals two similarities and one contrast. The two similarities are: first, the
domain of dataset commonly is news (Hermann et al., 2015). The second
similarity is the format of the dataset which is both extractive and
abstractive. The contrast is in how the research in dataset development has
progressed. ILs face a slow speed of development and public release of datasets
as compared with English. We conclude that the relatively lower number of ILTS
datasets is because of two reasons: first, absence of a dedicated forum for
developing TS tools. And second, lack of shareable standard datasets in the
public domain.
- Abstract(参考訳): 本稿では,低リソース言語 (LRL) であるインドランゲージ (IL) におけるテキスト要約 (TS) データセットについて調査する。
インド語テキスト要約(ilts)データセットのプールは増加しているか、それとも深刻なリソース不足があるのか?
第一の質問に答えるために、私たちはILTSデータセットについて求めている2つのサブクエストを提示します。
第二に、高リソース言語(HRL)、特に英語からのILTSデータセットの特徴がどの程度異なるか。
ILTSと英語のデータセットの調査では、2つの類似点と1つのコントラストが明らかになった。
まず、データセットのドメインは一般的にnews(hermann et al., 2015)である。
2つめの類似点は、抽出的かつ抽象的なデータセットの形式である。
対照的に、データセット開発の研究は進展している。
ILは、英語と比較して、開発速度とデータセットの公開速度が遅い。
ILTSデータセットが比較的少ないのは、まず、TSツールを開発するための専用のフォーラムがない、という2つの理由からである、と結論付けています。
次に、パブリックドメインで共有可能な標準データセットがない。
関連論文リスト
- IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。
提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文 参考訳(メタデータ) (2024-03-12T18:14:48Z) - IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning
Datasets for Indian Languages [37.79850860981589]
本研究は、Indic LLMの開発に特化して設計された、拡張性のあるリソーススイートを紹介する。
このアプローチでは、高度にキュレートされた手作業による検証データ、検証されていないが価値のあるデータ、合成データを組み合わせています。
命令ファインチューニングでは、既存のIndicデータセットをアマルガメートし、英語データセットをインド語に翻訳・翻訳し、LLaMa2とMixtralモデルを利用する。
論文 参考訳(メタデータ) (2024-03-11T00:46:56Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Cross-Lingual Knowledge Distillation for Answer Sentence Selection in
Low-Resource Languages [90.41827664700847]
低リソース言語のためのAS2モデルの学習方法として、英語の強力なAS2教師からCLKD(Cross-Lingual Knowledge Distillation)を提案する。
提案手法を評価するために,1)Xtr-WikiQA,(9言語用ウィキQAデータセット,2)TyDi-AS2,8言語にまたがる70万以上の質問を持つ多言語AS2データセットを紹介する。
論文 参考訳(メタデータ) (2023-05-25T17:56:04Z) - Context-Aware Transformer Pre-Training for Answer Sentence Selection [102.7383811376319]
本稿では,文脈AS2のダウンストリーム微調整タスクを模倣する3つの事前学習目標を提案する。
実験の結果,事前学習手法により,いくつかのデータセットにおいて,ベースライン文脈AS2精度を最大8%向上できることがわかった。
論文 参考訳(メタデータ) (2023-05-24T17:10:45Z) - V\=arta: A Large-Scale Headline-Generation Dataset for Indic Languages [21.018996007110324]
このデータセットには14の異なるIndic言語(および英語)の480万のニュース記事が含まれている。
私たちの知る限りでは、現在利用可能なIndic言語のキュレートされた記事のコレクションとしては、これが最大です。
論文 参考訳(メタデータ) (2023-05-10T03:07:17Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - A Data Bootstrapping Recipe for Low Resource Multilingual Relation
Classification [38.83366564843953]
IndoREは21Kのエンティティと3つのインド語と英語でタグ付けされた金の文を持つデータセットである。
まず,多言語BERT (mBERT) ベースのシステムから始める。
我々は、高価な金のインスタンスと翻訳された'銀のインスタンスと整合した'銀のインスタンスとの精度のトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:40:46Z) - DiS-ReX: A Multilingual Dataset for Distantly Supervised Relation
Extraction [15.649929244635269]
これらの問題を緩和する新しいデータセットであるDiS-ReXを提案する。
私たちのデータセットには150万以上の文があり、36の関連クラスを持つ4つの言語にまたがっている。
また,mBERTを用いて文を符号化し,多言語DS-REのベンチマーク結果を提供する。
論文 参考訳(メタデータ) (2021-04-17T22:44:38Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。