論文の概要: Designing the Business Conversation Corpus
- arxiv url: http://arxiv.org/abs/2008.01940v1
- Date: Wed, 5 Aug 2020 05:19:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 18:12:49.790143
- Title: Designing the Business Conversation Corpus
- Title(参考訳): ビジネス会話コーパスの設計
- Authors: Mat\=iss Rikters, Ryokan Ri, Tong Li, Toshiaki Nakazawa
- Abstract要約: 我々は,新たに構築された日英ビジネス会話並列コーパスを導入することで,会話テキストの機械翻訳品質を向上させることを目的とする。
コーパスの詳細な解析と自動翻訳の難題について述べる。
また、機械翻訳訓練シナリオにコーパスを追加して、結果のシステムの利用によるメリットを示す実験を行った。
- 参考スコア(独自算出の注目度): 20.491255702901288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the progress of machine translation of written text has come far in the
past several years thanks to the increasing availability of parallel corpora
and corpora-based training technologies, automatic translation of spoken text
and dialogues remains challenging even for modern systems. In this paper, we
aim to boost the machine translation quality of conversational texts by
introducing a newly constructed Japanese-English business conversation parallel
corpus. A detailed analysis of the corpus is provided along with challenging
examples for automatic translation. We also experiment with adding the corpus
in a machine translation training scenario and show how the resulting system
benefits from its use.
- Abstract(参考訳): パラレルコーパスとコーパスベースのトレーニング技術の普及により、ここ数年で機械翻訳の進歩が進んでいるが、現代のシステムにおいても、音声テキストと対話の自動翻訳は依然として困難である。
本稿では,新たに構築した日英ビジネス会話並列コーパスの導入により,会話テキストの機械翻訳品質の向上を目指す。
コーパスの詳細な分析と、自動翻訳の難解な例を提供する。
また、機械翻訳訓練シナリオにコーパスを追加して、結果のシステムの利用によるメリットを示す実験を行った。
関連論文リスト
- Context-Aware LLM Translation System Using Conversation Summarization and Dialogue History [10.596661157821462]
英語と韓国語を併用した文脈対応LLM翻訳システムを提案する。
提案手法では,2つの最新の対話を生データとして組み込んで,会話の要約を行い,文脈長を効果的に管理する。
論文 参考訳(メタデータ) (2024-10-22T07:45:18Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - BSTC: A Large-Scale Chinese-English Speech Translation Dataset [26.633433687767553]
BSTC (Baidu Speech Translation Corpus) は、中国語と英語の大規模翻訳データセットである。
このデータセットは、約68時間のマンダリンデータを含む講演や講義のライセンス付きビデオのコレクションに基づいて構築されている。
3名の経験豊富な通訳者に、模擬会議の設定で同時にテストトークを解釈するよう依頼しました。
論文 参考訳(メタデータ) (2021-04-08T07:38:51Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Preparation of Sentiment tagged Parallel Corpus and Testing its effect
on Machine Translation [12.447116722795899]
本稿では,英語・ベンガル語並列コーパスをタグ付けした同じ感情の調製について論じる。
翻訳モデルの出力はBLEUやTERなどの自動メトリクスを用いたベースライン翻訳モデルと比較されている。
論文 参考訳(メタデータ) (2020-07-28T09:04:47Z) - Contextual Neural Machine Translation Improves Translation of Cataphoric
Pronouns [50.245845110446496]
本研究では,将来の文脈で訓練された文脈的NMTモデルの性能と過去の文脈で訓練された文脈とを比較し,文脈としての将来の文の効果について検討する。
提案手法は, 文脈に依存しないトランスフォーマーよりも, 将来的な文脈の活用が著しく向上することを示し, 汎用的および代名詞的自動測定を用いた実験と評価を行った。
論文 参考訳(メタデータ) (2020-04-21T10:45:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。