論文の概要: Representing `how you say' with `what you say': English corpus of
focused speech and text reflecting corresponding implications
- arxiv url: http://arxiv.org/abs/2203.15483v1
- Date: Tue, 29 Mar 2022 12:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 22:33:52.452235
- Title: Representing `how you say' with `what you say': English corpus of
focused speech and text reflecting corresponding implications
- Title(参考訳): What you say」と「What you say」を表わす : 英語のコーパスとそれに対応する意味を反映したテキスト
- Authors: Naoaki Suzuki, Satoshi Nakamura
- Abstract要約: 音声通信では、何かが語られる方法(パラ言語情報)は、何を言うか(言語情報)と同じくらい重要である
現在の音声翻訳システムは、発話が言語的に同一であれば、同じ翻訳を返す。
本稿では,語彙・文法機器を用いて,言語領域にパラ言語情報をマッピングする手法を提案する。
- 参考スコア(独自算出の注目度): 10.103202030679844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In speech communication, how something is said (paralinguistic information)
is as crucial as what is said (linguistic information). As a type of
paralinguistic information, English speech uses sentence stress, the heaviest
prominence within a sentence, to convey emphasis. While different placements of
sentence stress communicate different emphatic implications, current speech
translation systems return the same translations if the utterances are
linguistically identical, losing paralinguistic information. Concentrating on
focus, a type of emphasis, we propose mapping paralinguistic information into
the linguistic domain within the source language using lexical and grammatical
devices. This method enables us to translate the paraphrased text
representations instead of the transcription of the original speech and obtain
translations that preserve paralinguistic information. As a first step, we
present the collection of an English corpus containing speech that differed in
the placement of focus along with the corresponding text, which was designed to
reflect the implied meaning of the speech. Also, analyses of our corpus
demonstrated that mapping of focus from the paralinguistic domain into the
linguistic domain involved various lexical and grammatical methods. The data
and insights from our analysis will further advance research into
paralinguistic translation. The corpus will be published via LDC.
- Abstract(参考訳): 音声コミュニケーションにおいて、何を言うか(パラ言語情報)は、何を言うか(言語情報)と同じくらい重要である。
パラ言語情報の一種として、英語の音声は、強調を伝えるために、文内の最も重い発音である文ストレスを使用する。
文ストレスの異なる配置は、異なる強調的意味を伝達するが、現在の音声翻訳システムは、発話が言語的に同一であれば、同じ翻訳を返す。
フォーカスを重視し,語彙的および文法的装置を用いて,言語的情報をソース言語内の言語領域にマッピングすることを提案する。
本手法により,原文の書き起こしに代えて言い換え文の表現を翻訳し,パラ言語情報を保持する翻訳を得ることができる。
第一段階として,音声の暗黙的意味を反映するように設計された対応するテキストとともに,焦点配置が異なる音声を含む英語コーパスの収集について述べる。
また, コーパスの分析では, パラ言語領域から言語領域への焦点のマッピングには様々な語彙的, 文法的手法が関係していた。
我々の分析から得られたデータと洞察は、パラ言語翻訳の研究をさらに進める。
コーパスはlcc経由で公開される。
関連論文リスト
- Assessing the Role of Lexical Semantics in Cross-lingual Transfer through Controlled Manipulations [15.194196775504613]
我々は、英語と対象言語の違いが、英語の事前訓練された表現空間と言語を整合させる能力にどのように影響するかを分析する。
文字や単語の順序などの特性はアライメント品質に限られた影響しか与えないが、翻訳エントロピーの尺度を用いて定義する2言語間の語彙マッチングの程度は、それに大きな影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-08-14T14:59:20Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - Enhancing expressivity transfer in textless speech-to-speech translation [0.0]
既存の最先端システムは、様々な言語で正確に表現力の取得と転送に関して不足している。
本研究では,個別音声単位レベルで動作し,多言語感情の埋め込みを利用する新しい手法を提案する。
対象言語における音声単位のピッチと持続時間を効果的に予測するために,これらの埋め込みがどのように使用できるかを示す。
論文 参考訳(メタデータ) (2023-10-11T08:07:22Z) - Improving Mandarin Prosodic Structure Prediction with Multi-level
Contextual Information [68.89000132126536]
本研究は,音声間言語情報を用いて韻律構造予測(PSP)の性能を向上させることを提案する。
提案手法は,韻律語(PW),韻律語(PPH),国際語句(IPH)の予測におけるF1スコアの向上を実現する。
論文 参考訳(メタデータ) (2023-08-31T09:19:15Z) - Learning Multilingual Expressive Speech Representation for Prosody
Prediction without Parallel Data [0.0]
本稿では,個別音声単位のレベルで音声から音声への感情翻訳を行う手法を提案する。
この埋め込みは、対象言語における音声単位のピッチと持続時間を予測するのに有効であることを示す。
我々は、英語とフランス語の音声信号に対する我々のアプローチを評価し、ベースライン法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-29T08:06:54Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Direct Speech-to-speech Translation without Textual Annotation using
Bottleneck Features [13.44542301438426]
テキストの注釈やコンテンツ情報なしに訓練できる音声音声合成モデルを提案する。
Mandarin-Cantonese音声翻訳実験は,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-12T10:03:10Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Pragmatic information in translation: a corpus-based study of tense and
mood in English and German [70.3497683558609]
文法的時制とムードは自然言語処理(NLP)研究において考慮すべき重要な言語現象である。
我々は翻訳における英語とドイツ語の時制とムードの対応について考察する。
特に重要なのは、ルールベース、フレーズベース統計およびニューラルマシン翻訳における時制とムードをモデル化することである。
論文 参考訳(メタデータ) (2020-07-10T08:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。