論文の概要: Shallow Discourse Annotation for Chinese TED Talks
- arxiv url: http://arxiv.org/abs/2003.04032v2
- Date: Mon, 6 Apr 2020 15:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 08:41:40.322957
- Title: Shallow Discourse Annotation for Chinese TED Talks
- Title(参考訳): 中国語TED講演における浅層談話アノテーション
- Authors: Wanqiu Long, Xinyi Cai, James E. M. Reid, Bonnie Webber, Deyi Xiong
- Abstract要約: 本研究は、TEDトークの形式として、中国語技術と中国語と英語の翻訳に新たなリソースを提供する。
このリソースは、テキストではなく、計画された音声モノローグの談話レベルプロパティに注釈をつけることに特有である。
- 参考スコア(独自算出の注目度): 36.167785641213925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text corpora annotated with language-related properties are an important
resource for the development of Language Technology. The current work
contributes a new resource for Chinese Language Technology and for
Chinese-English translation, in the form of a set of TED talks (some originally
given in English, some in Chinese) that have been annotated with discourse
relations in the style of the Penn Discourse TreeBank, adapted to properties of
Chinese text that are not present in English. The resource is currently unique
in annotating discourse-level properties of planned spoken monologues rather
than of written text. An inter-annotator agreement study demonstrates that the
annotation scheme is able to achieve highly reliable results.
- Abstract(参考訳): 言語関連プロパティを付加したテキストコーパスは,言語工学の発展に重要な資源である。
現在の研究は、中国語技術と中国語と英語の翻訳に新たな資源を提供しており、英語にはない中国語のテキストの特性に適応した、ペン・ディスコース・ツリーバンク(penn discourse treebank)のスタイルで談話関係に注釈が付された一連のtedトーク(一部は英語で、一部は中国語で与えられる)の形式である。
このリソースは、現在、テキストではなく、計画された話し言葉によるモノローグの談話レベルの特性を注釈する点でユニークである。
アノテーション間合意研究では、アノテーションスキームが信頼性の高い結果が得られることを示す。
関連論文リスト
- GujiBERT and GujiGPT: Construction of Intelligent Information Processing
Foundation Language Models for Ancient Texts [11.289265479095956]
GujiBERTとGujiGPT言語モデルは、古代のテキストの知的情報処理に特化した基礎モデルである。
これらのモデルは、単純化された漢字と伝統的な漢字の両方を含む広範なデータセットで訓練されている。
これらのモデルは、公開データセットを使用して、さまざまなバリデーションタスクで例外的なパフォーマンスを示しています。
論文 参考訳(メタデータ) (2023-07-11T15:44:01Z) - A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language
Representations [51.08119762844217]
SenteConは、深層言語表現に人間の解釈可能性を導入する方法である。
SenteConは、下流タスクにおける予測性能にほとんど、あるいは全くコストをかからない高レベルな解釈性を提供する。
論文 参考訳(メタデータ) (2023-05-24T05:06:28Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Chinese Open Instruction Generalist: A Preliminary Release [33.81265396916227]
本研究では,4つのサブタスクの固有特性に適応した各種手法による中国語指導データセットの作成を目的としたプロジェクトを提案する。
我々は、品質を保証するために手作業でチェックされた約200万の中国語のインストラクションチューニングサンプルを収集した。
既存の英語と中国語の命令コーパスを要約し、新たに構築された中国語の命令コーパスの潜在的な応用を簡潔に述べる。
論文 参考訳(メタデータ) (2023-04-17T04:45:06Z) - StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse
Representations and Content Enhancing [73.81778485157234]
長文は通常、文よりも談話構造のような複雑な著者の言語的嗜好を含んでいる。
我々は、入力されたストーリーを特定の著者スタイルに転送する必要があるノン並列ストーリー作者スタイル転送のタスクを定式化する。
モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。
論文 参考訳(メタデータ) (2022-08-29T08:47:49Z) - StyleBERT: Chinese pretraining by font style information [14.585511561131078]
実験により,中国における広範囲のNLPタスクにおいて,モデルが良好な性能を発揮することが示された。
英語とは異なり、中国語にはグリフ情報などの特殊文字がある。
論文 参考訳(メタデータ) (2022-02-21T02:45:12Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。