論文の概要: TuGeBiC: A Turkish German Bilingual Code-Switching Corpus
- arxiv url: http://arxiv.org/abs/2205.00868v1
- Date: Mon, 2 May 2022 12:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 18:26:51.896348
- Title: TuGeBiC: A Turkish German Bilingual Code-Switching Corpus
- Title(参考訳): tugebic:トルコ語のバイリンガルコードスイッチングコーパス
- Authors: Jeanine Treffers-Daller and, Ozlem \c{C}etino\u{g}lu
- Abstract要約: トルコ・ドイツのバイリンガルからの自然発声サンプルの収集, 転写, アノテーションのプロセスについて述べる。
データは手動でトークン化され、正規化され、すべての適切な名前(会話で言及された参加者や場所の名前)が偽名に置き換えられた。
結果として得られたコーパスは、研究コミュニティで自由に利用できるようになった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we describe the process of collection, transcription, and
annotation of recordings of spontaneous speech samples from Turkish-German
bilinguals, and the compilation of a corpus called TuGeBiC. Participants in the
study were adult Turkish-German bilinguals living in Germany or Turkey at the
time of recording in the first half of the 1990s. The data were manually
tokenised and normalised, and all proper names (names of participants and
places mentioned in the conversations) were replaced with pseudonyms.
Token-level automatic language identification was performed, which made it
possible to establish the proportions of words from each language. The corpus
is roughly balanced between both languages. We also present quantitative
information about the number of code-switches, and give examples of different
types of code-switching found in the data. The resulting corpus has been made
freely available to the research community.
- Abstract(参考訳): 本稿では、トルコ語とドイツ語のバイリンガルからの自発音声の録音の収集、転写、注釈のプロセスと、tugebicと呼ばれるコーパスの編集について述べる。
この研究の参加者は、1990年代前半に録音された時点でドイツやトルコに住んでいた成人のトルコ系ドイツ人バイリンガルであった。
データは手動でトークン化・正規化され、すべての適切な名前(会話で言及された参加者や場所の名前)が偽名に置き換えられた。
トークンレベルの自動言語識別を行い、各言語からの単語の比率を確立することができた。
コーパスは両言語間で大まかにバランスを取っている。
また、コードスイッチ数に関する定量的な情報も提示し、データ中のさまざまなタイプのコードスイッチの例を示す。
その結果得られたコーパスは、研究コミュニティで自由に利用できるようになった。
関連論文リスト
- ZAEBUC-Spoken: A Multilingual Multidialectal Arabic-English Speech Corpus [8.96693684560691]
ZAEBUC-Spokenは多言語多言語対応アラビア語-英語音声コーパスである。
コーパスは自動音声認識(ASR)のための課題セットを提供する
我々は、既存の転写ガイドラインからインスピレーションを得て、会話音声、コードスイッチング、両方の言語の正書法といった問題を扱う一連のガイドラインを提示する。
論文 参考訳(メタデータ) (2024-03-27T01:19:23Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Transfer Learning across Several Centuries: Machine and Historian
Integrated Method to Decipher Royal Secretary's Diary [1.105375732595832]
歴史的テキストにおけるNERは、注釈付きコーパスの不足、多言語多様さ、様々なノイズ、現代の言語モデルとは全く異なる慣習といった課題に直面している。
本稿では,何世紀にもわたって記録された韓国の歴史的コーパス(SeungJeongWonと名づけられた王立書記官日記)を紹介する。
論文 参考訳(メタデータ) (2023-06-26T11:00:35Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - GupShup: An Annotated Corpus for Abstractive Summarization of
Open-Domain Code-Switched Conversations [28.693328393260906]
ヒンズー語と英語の会話を要約し,最初の会話要約データセットを開発した。
GupShupはヒンディー語で6,831以上の会話と、ヒンディー語とヒンディー語で対応する人間の注釈付き要約を含んでいる。
我々は,最先端の抽象要約モデルを訓練し,自動計測と人間評価の両方を用いてその性能を報告する。
論文 参考訳(メタデータ) (2021-04-17T15:42:01Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - ARPA: Armenian Paraphrase Detection Corpus and Models [0.0]
アルメニア語のためのセンテンシャルパラフレーズコーパスを生成するために半自動手法を用いる。
最初の文の収集はアルメニア語から英語に2度翻訳され、結果として語彙的には遠いが意味的に類似した文が対になる。
生成されたパラフレーズは手動でレビューされ、注釈付けされる。
論文 参考訳(メタデータ) (2020-09-26T14:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。