Fugu-MT 論文翻訳(概要): PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for Languages in India

論文の概要: PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for Languages in India

arxiv url: http://arxiv.org/abs/2305.08828v2
Date: Fri, 20 Oct 2023 00:42:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 08:32:40.028682
Title: PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for Languages in India
Title（参考訳）: pmindiasum:インドにおける多言語・言語横断の見出し要約
Authors: Ashok Urlana, Pinzhen Chen, Zheng Zhao, Shay B. Cohen, Manish Shrivastava, Barry Haddow
Abstract要約: PMIndiaSumは、インドの言語に焦点を当てた多言語および大規模並列要約コーパスである。私たちのコーパスは、4つの言語ファミリー、14の言語、196の言語ペアを持つ最大規模のトレーニングとテストの場を提供します。
参考スコア（独自算出の注目度）: 33.31556860332746
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces PMIndiaSum, a multilingual and massively parallel summarization corpus focused on languages in India. Our corpus provides a training and testing ground for four language families, 14 languages, and the largest to date with 196 language pairs. We detail our construction workflow including data acquisition, processing, and quality assurance. Furthermore, we publish benchmarks for monolingual, cross-lingual, and multilingual summarization by fine-tuning, prompting, as well as translate-and-summarize. Experimental results confirm the crucial role of our data in aiding summarization between Indian languages. Our dataset is publicly available and can be freely modified and re-distributed.
Abstract（参考訳）: 本稿では,インドの言語に焦点を当てた多言語・大規模並列要約コーパスPMIndiaSumを紹介する。私たちのコーパスは、4つの言語ファミリー、14の言語、196の言語ペアのトレーニングとテストの場を提供します。データ取得、処理、品質保証を含む構築ワークフローを詳述します。さらに,単言語,言語横断,多言語要約のベンチマークを細調整,プロンプト,翻訳・要約によって公開する。実験の結果,インド語間の要約を支援するデータの重要性が確認された。私たちのデータセットは公開されており、自由に修正と再配布が可能です。

関連論文リスト

Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.17354128553244]
多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。異なる言語群に対する学習がいかに異なるかを検討する。私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
論文参考訳（メタデータ） (2025-01-09T10:26:14Z)
Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。 P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文参考訳（メタデータ） (2024-10-21T16:19:41Z)
Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages [6.7638050195383075]
課題を分析し,インド語の多言語名称認識に適した手法を提案する。主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-05-08T05:54:54Z)
Breaking Language Barriers: A Question Answering Dataset for Hindi and Marathi [1.03590082373586]
本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
論文参考訳（メタデータ） (2023-08-19T00:39:21Z)
Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。 Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文参考訳（メタデータ） (2023-05-25T15:30:31Z)
UIO at SemEval-2023 Task 12: Multilingual fine-tuning for sentiment classification in low-resource languages [0.0]
本研究では,事前学習中に見つからない言語における感情分析の資源として,多言語大言語モデルをいかに活用できるかを示す。言語は事前訓練で使用される言語と関連し、言語データは様々なコードスイッチングを含む。最終細調整のための単言語データセットと多言語データセットの両方を実験し、数千のサンプルを含むデータセットを用いて、単言語細調整が最良の結果をもたらすことを確かめる。
論文参考訳（メタデータ） (2023-04-27T13:51:18Z)
Evaluating Inter-Bilingual Semantic Parsing for Indian Languages [9.838755823660147]
本研究では,11の異なるインド言語を対象とした言語間セマンティック解析データセットIE-SEMPARSEを提案する。本稿では,提案課題の実用性を強調し,既存の多言語Seq2seqモデルを複数の列車試験戦略で評価する。
論文参考訳（メタデータ） (2023-04-25T17:24:32Z)
MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic Parsing [48.216386761482525]
英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。 3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
論文参考訳（メタデータ） (2022-12-27T13:58:30Z)
Making a MIRACL: Multilingual Information Retrieval Across a Continuum of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。 18の言語にまたがるアドホック検索に焦点を当てている。我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文参考訳（メタデータ） (2022-10-18T16:47:18Z)
Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文参考訳（メタデータ） (2022-02-19T11:55:40Z)
A Multilingual Parallel Corpora Collection Effort for Indian Languages [43.62422999765863]
インドではヒンディー語、テルグ語、タミル語、マラヤラム語、グジャラート語、ウルドゥー語、ベンガル語、オリヤ語、マラティー語、パンジャービ語、英語の10言語に平行なコーパスを提示する。コーパスは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。
論文参考訳（メタデータ） (2020-07-15T14:00:18Z)
A Study of Cross-Lingual Ability and Language-specific Information in Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文参考訳（メタデータ） (2020-04-20T11:13:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。