論文の概要: PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for
Languages in India
- arxiv url: http://arxiv.org/abs/2305.08828v2
- Date: Fri, 20 Oct 2023 00:42:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 08:32:40.028682
- Title: PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for
Languages in India
- Title(参考訳): pmindiasum:インドにおける多言語・言語横断の見出し要約
- Authors: Ashok Urlana, Pinzhen Chen, Zheng Zhao, Shay B. Cohen, Manish
Shrivastava, Barry Haddow
- Abstract要約: PMIndiaSumは、インドの言語に焦点を当てた多言語および大規模並列要約コーパスである。
私たちのコーパスは、4つの言語ファミリー、14の言語、196の言語ペアを持つ最大規模のトレーニングとテストの場を提供します。
- 参考スコア(独自算出の注目度): 33.31556860332746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces PMIndiaSum, a multilingual and massively parallel
summarization corpus focused on languages in India. Our corpus provides a
training and testing ground for four language families, 14 languages, and the
largest to date with 196 language pairs. We detail our construction workflow
including data acquisition, processing, and quality assurance. Furthermore, we
publish benchmarks for monolingual, cross-lingual, and multilingual
summarization by fine-tuning, prompting, as well as translate-and-summarize.
Experimental results confirm the crucial role of our data in aiding
summarization between Indian languages. Our dataset is publicly available and
can be freely modified and re-distributed.
- Abstract(参考訳): 本稿では,インドの言語に焦点を当てた多言語・大規模並列要約コーパスPMIndiaSumを紹介する。
私たちのコーパスは、4つの言語ファミリー、14の言語、196の言語ペアのトレーニングとテストの場を提供します。
データ取得、処理、品質保証を含む構築ワークフローを詳述します。
さらに,単言語,言語横断,多言語要約のベンチマークを細調整,プロンプト,翻訳・要約によって公開する。
実験の結果,インド語間の要約を支援するデータの重要性が確認された。
私たちのデータセットは公開されており、自由に修正と再配布が可能です。
関連論文リスト
- Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。
P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。
我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2024-10-21T16:19:41Z) - Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages [6.7638050195383075]
課題を分析し,インド語の多言語名称認識に適した手法を提案する。
主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。
我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-05-08T05:54:54Z) - Breaking Language Barriers: A Question Answering Dataset for Hindi and
Marathi [1.03590082373586]
本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。
ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
論文 参考訳(メタデータ) (2023-08-19T00:39:21Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - UIO at SemEval-2023 Task 12: Multilingual fine-tuning for sentiment
classification in low-resource languages [0.0]
本研究では,事前学習中に見つからない言語における感情分析の資源として,多言語大言語モデルをいかに活用できるかを示す。
言語は事前訓練で使用される言語と関連し、言語データは様々なコードスイッチングを含む。
最終細調整のための単言語データセットと多言語データセットの両方を実験し、数千のサンプルを含むデータセットを用いて、単言語細調整が最良の結果をもたらすことを確かめる。
論文 参考訳(メタデータ) (2023-04-27T13:51:18Z) - Evaluating Inter-Bilingual Semantic Parsing for Indian Languages [9.838755823660147]
本研究では,11の異なるインド言語を対象とした言語間セマンティック解析データセットIE-SEMPARSEを提案する。
本稿では,提案課題の実用性を強調し,既存の多言語Seq2seqモデルを複数の列車試験戦略で評価する。
論文 参考訳(メタデータ) (2023-04-25T17:24:32Z) - MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic
Parsing [48.216386761482525]
英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。
3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。
また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2022-12-27T13:58:30Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - A Multilingual Parallel Corpora Collection Effort for Indian Languages [43.62422999765863]
インドではヒンディー語、テルグ語、タミル語、マラヤラム語、グジャラート語、ウルドゥー語、ベンガル語、オリヤ語、マラティー語、パンジャービ語、英語の10言語に平行なコーパスを提示する。
コーパスは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。
論文 参考訳(メタデータ) (2020-07-15T14:00:18Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。