論文の概要: Cem Mil Podcasts: A Spoken Portuguese Document Corpus For Multi-modal,
Multi-lingual and Multi-Dialect Information Access Research
- arxiv url: http://arxiv.org/abs/2209.11871v2
- Date: Wed, 13 Dec 2023 14:39:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 21:30:46.969329
- Title: Cem Mil Podcasts: A Spoken Portuguese Document Corpus For Multi-modal,
Multi-lingual and Multi-Dialect Information Access Research
- Title(参考訳): Cem Mil Podcasts:多言語・多言語・多言語情報アクセス研究のためのポルトガル語文書コーパス
- Authors: Ekaterina Garmash, Edgar Tanaka, Ann Clifton, Joana Correia,
Sharmistha Jat, Winstead Zhu, Rosie Jones, Jussi Karlgren
- Abstract要約: 本稿では,学術研究目的でリリースされたポルトガル語のポッドキャストデータセットについて述べる。
ブラジルとポルトガルの方言の分布に関する情報だけでなく、収集されたデータのサンプル、収集に関する記述的な統計について概説する。
- 参考スコア(独自算出の注目度): 6.512858090111306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we describe the Portuguese-language podcast dataset we have
released for academic research purposes. We give an overview of how the data
was sampled, descriptive statistics over the collection, as well as information
about the distribution over Brazilian and Portuguese dialects. We give results
from experiments on multi-lingual summarization, showing that summarizing
podcast transcripts can be performed well by a system supporting both English
and Portuguese. We also show experiments on Portuguese podcast genre
classification using text metadata. Combining this collection with previously
released English-language collection opens up the potential for multi-modal,
multi-lingual and multi-dialect podcast information access research.
- Abstract(参考訳): 本稿では,学術研究目的でリリースしたポルトガル語のポッドキャストデータセットについて述べる。
ブラジルとポルトガルの方言の分布に関する情報だけでなく、収集されたデータのサンプル、収集に関する記述的な統計について概説する。
本研究は,多言語要約実験の結果から,英語とポルトガル語の両方をサポートするシステムを用いて,ポッドキャストの書き起こしの要約をうまく行うことができることを示した。
また,テキストメタデータを用いたポルトガル語ポッドキャストのジャンル分類実験を行った。
このコレクションと以前リリースされた英語コレクションを組み合わせることで、マルチモーダル、多言語、多言語ポッドキャスト情報アクセス研究の可能性が開ける。
関連論文リスト
- PublicHearingBR: A Brazilian Portuguese Dataset of Public Hearing Transcripts for Summarization of Long Documents [3.0347101044078766]
データセットはブラジル代議院が主催する公聴会の書き起こしからなり、ニュース記事や構成された要約と組み合わせられている。
このデータセットは、ポルトガル語における長期文書要約システムの開発と評価を支援する。
論文 参考訳(メタデータ) (2024-10-10T00:13:59Z) - Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - MFAQ: a Multilingual FAQ Dataset [9.625301186732598]
本稿では,最初の多言語FAQデータセットを公開する。
21の異なる言語で、Webから約6万のFAQペアを収集しました。
Dense Passage Retrieval(DPR)と同様のセットアップを採用し、このデータセット上でさまざまなバイエンコーダをテストする。
論文 参考訳(メタデータ) (2021-09-27T08:43:25Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - MLSUM: The Multilingual Summarization Corpus [29.943949944682196]
MLSUMは、最初の大規模MultiLingual Summarizationデータセットである。
5つの言語で1.5M以上の記事/サマリーペアを含む。
論文 参考訳(メタデータ) (2020-04-30T15:58:34Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。