論文の概要: Preparation of Sentiment tagged Parallel Corpus and Testing its effect
on Machine Translation
- arxiv url: http://arxiv.org/abs/2007.14074v1
- Date: Tue, 28 Jul 2020 09:04:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 02:10:00.817038
- Title: Preparation of Sentiment tagged Parallel Corpus and Testing its effect
on Machine Translation
- Title(参考訳): 感情タグ付き並列コーパスの作成とその機械翻訳への影響検証
- Authors: Sainik Kumar Mahata, Amrita Chandra, Dipankar Das, Sivaji
Bandyopadhyay
- Abstract要約: 本稿では,英語・ベンガル語並列コーパスをタグ付けした同じ感情の調製について論じる。
翻訳モデルの出力はBLEUやTERなどの自動メトリクスを用いたベースライン翻訳モデルと比較されている。
- 参考スコア(独自算出の注目度): 12.447116722795899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the current work, we explore the enrichment in the machine translation
output when the training parallel corpus is augmented with the introduction of
sentiment analysis. The paper discusses the preparation of the same sentiment
tagged English-Bengali parallel corpus. The preparation of raw parallel corpus,
sentiment analysis of the sentences and the training of a Character Based
Neural Machine Translation model using the same has been discussed extensively
in this paper. The output of the translation model has been compared with a
base-line translation model using automated metrics such as BLEU and TER as
well as manually.
- Abstract(参考訳): 本研究は,学習並列コーパスが強化されたときの機械翻訳出力の豊かさについて,感情分析の導入による検討である。
本稿では,同一の感情タグ付き英語・ベンガル並列コーパスの作成について述べる。
本稿では、生の並列コーパスの作成、文章の感情分析、およびそれを用いた文字ベースニューラルマシン翻訳モデルのトレーニングについて概説する。
翻訳モデルの出力は、BLEUやTERなどの自動メトリクスを用いたベースライン翻訳モデルと手動で比較されている。
関連論文リスト
- Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - Extended Parallel Corpus for Amharic-English Machine Translation [0.0]
リソース不足の言語であるamharicの機械翻訳に有用である。
コーパスを用いて,ニューラルマシン翻訳とフレーズベース統計機械翻訳モデルを訓練した。
論文 参考訳(メタデータ) (2021-04-08T06:51:08Z) - Designing the Business Conversation Corpus [20.491255702901288]
我々は,新たに構築された日英ビジネス会話並列コーパスを導入することで,会話テキストの機械翻訳品質を向上させることを目的とする。
コーパスの詳細な解析と自動翻訳の難題について述べる。
また、機械翻訳訓練シナリオにコーパスを追加して、結果のシステムの利用によるメリットを示す実験を行った。
論文 参考訳(メタデータ) (2020-08-05T05:19:44Z) - Parallel Corpus Filtering via Pre-trained Language Models [14.689457985200141]
Webcrawled Dataは、機械翻訳モデルをトレーニングするための並列コーパスの優れたソースを提供する。
最近の研究によると、ニューラルマシン翻訳システムは従来の統計機械翻訳法よりもノイズに敏感である。
本稿では,事前学習言語モデルを用いて,Webcrawled corporaからノイズの多い文ペアを抽出する手法を提案する。
論文 参考訳(メタデータ) (2020-05-13T06:06:23Z) - Contextual Neural Machine Translation Improves Translation of Cataphoric
Pronouns [50.245845110446496]
本研究では,将来の文脈で訓練された文脈的NMTモデルの性能と過去の文脈で訓練された文脈とを比較し,文脈としての将来の文の効果について検討する。
提案手法は, 文脈に依存しないトランスフォーマーよりも, 将来的な文脈の活用が著しく向上することを示し, 汎用的および代名詞的自動測定を用いた実験と評価を行った。
論文 参考訳(メタデータ) (2020-04-21T10:45:48Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z) - Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures
Translation [37.04364877980479]
本稿では,Coursera の公開講義から並列コーパスをマイニングする方法を紹介する。
提案手法は,連続空間の文表現よりも機械翻訳とコサイン類似性に頼って,文のアライメントを決定する。
日本語-英語の講義翻訳では,約4万行の並列データを抽出し,開発・テストセットを作成した。
論文 参考訳(メタデータ) (2019-12-26T01:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。