論文の概要: Sequence-to-Sequence Resources for Catalan
- arxiv url: http://arxiv.org/abs/2202.06871v1
- Date: Mon, 14 Feb 2022 16:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 14:27:24.465386
- Title: Sequence-to-Sequence Resources for Catalan
- Title(参考訳): カタルーニャのシーケンス・ツー・シーケンス資源
- Authors: Ona de Gibert, Ksenia Kharitonova, Blanca Calvo Figueras, Jordi
Armengol-Estap\'e, Maite Melero
- Abstract要約: 我々はニュースワイヤの領域に2つの新しい抽象的要約データセットを示す。
また、パラレルなカタルーニャ語と英語のコーパスを3つの新しいテストセットと組み合わせて導入する。
カタルーニャ語における言語技術の発展を促進するために、オープンライセンスの下でこの成果のリソースを公開します。
- 参考スコア(独自算出の注目度): 0.6562256987706128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce sequence-to-sequence language resources for
Catalan, a moderately under-resourced language, towards two tasks, namely:
Summarization and Machine Translation (MT). We present two new abstractive
summarization datasets in the domain of newswire. We also introduce a parallel
Catalan-English corpus, paired with three different brand new test sets.
Finally, we evaluate the data presented with competing state of the art models,
and we develop baselines for these tasks using a newly created Catalan BART. We
release the resulting resources of this work under open license to encourage
the development of language technology in Catalan.
- Abstract(参考訳): そこで本研究では,中程度の低リソース言語であるカタルーニャ語に対して,要約と機械翻訳(MT)という2つのタスクに対してシーケンス・ツー・シーケンス言語リソースを導入する。
我々はニュースワイヤの領域に2つの新しい抽象的要約データセットを示す。
また、パラレルなカタルーニャ英語コーパスを3つの新しいテストセットと組み合わせて導入する。
最後に,アートモデルの競合状態を示すデータを評価し,新たに作成されたカタランバートを用いてこれらのタスクのベースラインを開発する。
カタルーニャ語における言語技術の発展を促進するために、この成果をオープンライセンスで公開します。
関連論文リスト
- A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - The Catalan Language CLUB [0.0]
カタルーニャ語理解ベンチマーク(CLUB)は、さまざまなNLUタスクを表すさまざまなデータセットを含んでいる。
AINAとPlanTLは、人工知能時代のカタルーニャ語を強化するための2つの公的資金提供イニシアチブの一部である。
論文 参考訳(メタデータ) (2021-12-03T13:15:17Z) - Are Multilingual Models the Best Choice for Moderately Under-resourced
Languages? A Comprehensive Assessment for Catalan [0.05277024349608833]
この研究はカタルーニャ語に焦点を当て、中規模のモノリンガル言語モデルが最先端の大規模多言語モデルとどの程度競合するかを探求することを目的としている。
クリーンで高品質なカタルーニャ語コーパス(CaText)を構築し、カタルーニャ語(BERTa)のためのトランスフォーマーベースの言語モデルを訓練し、様々な設定で徹底的に評価する。
その結果,カタルーニャ語理解ベンチマーク(CLUB, Catalan Language Understanding Benchmark)が,オープンリソースとして公開された。
論文 参考訳(メタデータ) (2021-07-16T13:52:01Z) - Multilingual Irony Detection with Dependency Syntax and Neural Models [61.32653485523036]
これは構文知識からの貢献に焦点を当て、普遍依存スキームに従って構文が注釈付けされた言語資源を活用する。
その結果, 依存性をベースとした微粒な構文情報は, アイロンの検出に有用であることが示唆された。
論文 参考訳(メタデータ) (2020-11-11T11:22:05Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Natural Language Processing Chains Inside a Cross-lingual Event-Centric
Knowledge Pipeline for European Union Under-resourced Languages [0.0]
本稿では、欧州連合言語のための言語処理チェーンを含むプラットフォームを開発するための戦略について述べる。
これらのチェーンは、ヨーロッパや他の世界に影響を与える可能性のある主要なイベントに関する多言語メディア情報を処理することを目的とした、イベント中心の知識処理パイプラインの第1ステップの一部です。
論文 参考訳(メタデータ) (2020-10-23T14:26:30Z) - Multilingual Stance Detection: The Catalonia Independence Corpus [11.393603788068777]
スタンス検出は、特定のトピックやクレームに関するテキストの態度を決定することを目的としている。
IberEval 2018でリリースされたTW-10 Referendumデータセットは、カタルーニャとスペインでマルチリンガルなスタンスアノテートデータを提供するための以前の取り組みである。
本稿では,カタルーニャ語とスペイン語のTwitterにおけるスタンス検出のための多言語データセットを提案する。
論文 参考訳(メタデータ) (2020-03-31T18:28:36Z) - Low resource language dataset creation, curation and classification:
Setswana and Sepedi -- Extended Abstract [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
分類のためのベースラインを提案し,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-03-30T18:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。