Fugu-MT 論文翻訳(概要): Shallow Discourse Annotation for Chinese TED Talks

論文の概要: Shallow Discourse Annotation for Chinese TED Talks

arxiv url: http://arxiv.org/abs/2003.04032v2
Date: Mon, 6 Apr 2020 15:05:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-25 08:41:40.322957
Title: Shallow Discourse Annotation for Chinese TED Talks
Title（参考訳）: 中国語TED講演における浅層談話アノテーション
Authors: Wanqiu Long, Xinyi Cai, James E. M. Reid, Bonnie Webber, Deyi Xiong
Abstract要約: 本研究は、TEDトークの形式として、中国語技術と中国語と英語の翻訳に新たなリソースを提供する。このリソースは、テキストではなく、計画された音声モノローグの談話レベルプロパティに注釈をつけることに特有である。
参考スコア（独自算出の注目度）: 36.167785641213925
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text corpora annotated with language-related properties are an important resource for the development of Language Technology. The current work contributes a new resource for Chinese Language Technology and for Chinese-English translation, in the form of a set of TED talks (some originally given in English, some in Chinese) that have been annotated with discourse relations in the style of the Penn Discourse TreeBank, adapted to properties of Chinese text that are not present in English. The resource is currently unique in annotating discourse-level properties of planned spoken monologues rather than of written text. An inter-annotator agreement study demonstrates that the annotation scheme is able to achieve highly reliable results.
Abstract（参考訳）: 言語関連プロパティを付加したテキストコーパスは,言語工学の発展に重要な資源である。現在の研究は、中国語技術と中国語と英語の翻訳に新たな資源を提供しており、英語にはない中国語のテキストの特性に適応した、ペン・ディスコース・ツリーバンク(penn discourse treebank)のスタイルで談話関係に注釈が付された一連のtedトーク(一部は英語で、一部は中国語で与えられる)の形式である。このリソースは、現在、テキストではなく、計画された話し言葉によるモノローグの談話レベルの特性を注釈する点でユニークである。アノテーション間合意研究では、アノテーションスキームが信頼性の高い結果が得られることを示す。

関連論文リスト

Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.038123093599815]
我々の目的は、連続手話から音声言語テキストへの翻訳である。署名ビデオと追加のコンテキストキューを組み込む。文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文参考訳（メタデータ） (2025-01-16T18:59:03Z)
PANDA -- Paired Anti-hate Narratives Dataset from Asia: Using an LLM-as-a-Judge to Create the First Chinese Counterspeech Dataset [3.8227015675440192]
現代標準中国語の流行にもかかわらず、中国語の対訳資源は事実上存在しない。中国本土でヘイトスピーチと戦うことに焦点を当てたコーパスを紹介する。
論文参考訳（メタデータ） (2025-01-01T01:56:32Z)
The Role of Handling Attributive Nouns in Improving Chinese-To-English Machine Translation [5.64086253718739]
特に、中国語の帰属名詞による翻訳課題を対象とし、英語翻訳における曖昧さをしばしば引き起こす。省略粒子X('DE')を手動で挿入することで、この臨界関数ワードの処理方法を改善する。
論文参考訳（メタデータ） (2024-12-18T20:37:52Z)
Bilingual Rhetorical Structure Parsing with Large Parallel Annotations [5.439020425819001]
我々は,大規模で多様な英語GUM RSTコーパスに対して,パラレルなロシア語アノテーションを導入する。我々のエンドツーエンドRTTは、英語とロシア語のコーパスで最先端の結果を得る。我々の知る限り、この研究は、手動で注釈付けされた並列コーパス上での言語間エンドツーエンドのRTT解析の可能性を評価する最初のものである。
論文参考訳（メタデータ） (2024-09-23T12:40:33Z)
Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation [3.9166923630129604]
Bailing-TTSは、高品質の中国語方言を生成できる大規模なTSモデルのファミリーである。中国語の方言表現学習は、特定のトランスフォーマーアーキテクチャと多段階学習プロセスを用いて開発されている。実験により、Bailing-TTSは人のような自然表現に向けて中国語の方言音声を生成することが示された。
論文参考訳（メタデータ） (2024-08-01T04:57:31Z)
Cross-Lingual Transfer Learning for Speech Translation [7.802021866251242]
本稿では,制限データを用いた音声基礎モデルの音声翻訳機能の拡張について検討する。 Whisperは、音声認識と英訳に強い性能を持つ音声基礎モデルであり、その例として用いられる。音声から音声への検索を用いて,エンコーダが生成した音声表現を分析し,異なる言語からの発話を共有意味空間にマッピングすることを示す。
論文参考訳（メタデータ） (2024-07-01T09:51:48Z)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文参考訳（メタデータ） (2024-06-16T16:10:51Z)
ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2023-05-24T07:42:15Z)
SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language Representations [51.08119762844217]
SenteConは、深層言語表現に人間の解釈可能性を導入する方法である。 SenteConは、下流タスクにおける予測性能にほとんど、あるいは全くコストをかからない高レベルな解釈性を提供する。
論文参考訳（メタデータ） (2023-05-24T05:06:28Z)
StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse Representations and Content Enhancing [73.81778485157234]
長文は通常、文よりも談話構造のような複雑な著者の言語的嗜好を含んでいる。我々は、入力されたストーリーを特定の著者スタイルに転送する必要があるノン並列ストーリー作者スタイル転送のタスクを定式化する。モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。
論文参考訳（メタデータ） (2022-08-29T08:47:49Z)
StyleBERT: Chinese pretraining by font style information [14.585511561131078]
実験により,中国における広範囲のNLPタスクにおいて,モデルが良好な性能を発揮することが示された。英語とは異なり、中国語にはグリフ情報などの特殊文字がある。
論文参考訳（メタデータ） (2022-02-21T02:45:12Z)
ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2021-06-30T13:06:00Z)
Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文参考訳（メタデータ） (2020-10-28T12:33:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。