論文の概要: Word Order in English-Japanese Simultaneous Interpretation: Analyses and Evaluation using Chunk-wise Monotonic Translation
- arxiv url: http://arxiv.org/abs/2406.08940v2
- Date: Mon, 15 Jul 2024 10:42:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 00:16:39.337146
- Title: Word Order in English-Japanese Simultaneous Interpretation: Analyses and Evaluation using Chunk-wise Monotonic Translation
- Title(参考訳): 英和同時解釈における語順:チャンクワイド単調翻訳を用いた分析と評価
- Authors: Kosuke Doi, Yuka Ko, Mana Makinae, Katsuhito Sudoh, Satoshi Nakamura,
- Abstract要約: 本稿では,ソース言語の単語順に従う単調翻訳の特徴を同時解釈(SI)で解析する。
NAIST英語と日本語の単調翻訳評価データセットを用いて,チャンクワイド単調翻訳(CMT)文の特徴を解析した。
さらに,既存の音声翻訳(ST)と同時音声翻訳(simulST)モデルからの出力を評価し,CMT文の特徴について検討した。
- 参考スコア(独自算出の注目度): 13.713981533436135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper analyzes the features of monotonic translations, which follow the word order of the source language, in simultaneous interpreting (SI). Word order differences are one of the biggest challenges in SI, especially for language pairs with significant structural differences like English and Japanese. We analyzed the characteristics of chunk-wise monotonic translation (CMT) sentences using the NAIST English-to-Japanese Chunk-wise Monotonic Translation Evaluation Dataset and identified some grammatical structures that make monotonic translation difficult in English-Japanese SI. We further investigated the features of CMT sentences by evaluating the output from the existing speech translation (ST) and simultaneous speech translation (simulST) models on the NAIST English-to-Japanese Chunk-wise Monotonic Translation Evaluation Dataset as well as on existing test sets. The results indicate the possibility that the existing SI-based test set underestimates the model performance. The results also suggest that using CMT sentences as references gives higher scores to simulST models than ST models, and that using an offline-based test set to evaluate the simulST models underestimates the model performance.
- Abstract(参考訳): 本稿では,ソース言語の単語順に従う単調翻訳の特徴を同時解釈(SI)で解析する。
単語順序の違いは、特に英語と日本語のような大きな構造的な違いを持つ言語ペアにおいて、SIにおける最大の課題の1つである。
本研究では,NAIST 英語-日本語文法翻訳評価データセットを用いて,チャンクワイドモノトニック翻訳(CMT)文の特徴を解析し,英語-日本語 SI でモノトニック翻訳が困難となる文法構造を同定した。
さらに,既存の音声翻訳(ST)と同時音声翻訳(simulST)モデルからの出力を,NAIST英語と日本語の単調翻訳評価データセットおよび既存のテストセット上で評価することにより,CMT文の特徴について検討した。
その結果、既存のSIベースのテストセットがモデル性能を過小評価している可能性が示唆された。
また,CMT文を参照として使用すると,STモデルよりもSimulSTモデルの方が高いスコアが得られること,および,SimulSTモデルを評価するオフラインベースのテストセットを用いることでモデル性能を過小評価すること,などが示唆された。
関連論文リスト
- Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。
我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文 参考訳(メタデータ) (2024-04-30T12:41:00Z) - Tagged End-to-End Simultaneous Speech Translation Training using
Simultaneous Interpretation Data [16.05089716626287]
SIとオフラインの混合データを用いてSimulSTモデルをトレーニングする効果的な方法を提案する。
実験結果から, BLEURTのレイテンシの異なる範囲での改善が示された。
論文 参考訳(メタデータ) (2023-06-14T15:42:06Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Rethinking the Reasonability of the Test Set for Simultaneous Machine
Translation [14.758033756564858]
同時機械翻訳(SimulMT)モデルは、原文の終了前に翻訳を開始する。
一般的な全文翻訳テストセットは、ソース文全体のオフライン翻訳によって取得される。
我々は,SiMuST-Cと表記されるMuST-C英語-中国語テストセットに基づいて,モノトニックテストセットを手動で注釈付けする。
論文 参考訳(メタデータ) (2023-03-02T05:06:44Z) - Improving Simultaneous Machine Translation with Monolingual Data [94.1085601198393]
同時機械翻訳(SiMT)は通常、全文ニューラルネットワーク翻訳(NMT)モデルからシーケンスレベルの知識蒸留(Seq-KD)によって行われる。
本稿では,Sq-KD で蒸留した外部モノリンガルデータとバイリンガルデータを組み合わせて,SiMT の学生を訓練する SiMT の改善のためにモノリンガルデータを活用することを提案する。
論文 参考訳(メタデータ) (2022-12-02T14:13:53Z) - Compositional Evaluation on Japanese Textual Entailment and Similarity [20.864082353441685]
自然言語推論(NLI)とセマンティックテキスト類似性(STS)は、事前訓練された言語モデルの合成評価に広く用いられている。
言語普遍論への関心が高まりつつあるにもかかわらず、ほとんどのNLI/STS研究は英語にのみ焦点を絞っている。
日本語で利用可能な多言語NLI/STSデータセットは存在しない。
論文 参考訳(メタデータ) (2022-08-09T15:10:56Z) - Anticipation-free Training for Simultaneous Translation [70.85761141178597]
同時翻訳(SimulMT)は、原文が完全に利用可能になる前に翻訳を開始することで翻訳プロセスを高速化する。
既存の手法は遅延を増大させるか、SimulMTモデルに適応的な読み書きポリシーを導入し、局所的なリオーダーを処理し、翻訳品質を改善する。
本稿では,翻訳過程をモノトニック翻訳ステップと並べ替えステップに分解する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-30T16:29:37Z) - It is Not as Good as You Think! Evaluating Simultaneous Machine
Translation on Interpretation Data [58.105938143865906]
我々は、実解釈データに基づいて、SiMTシステムをトレーニングし、テストすべきであると主張している。
以上の結果から,SiMTモデルが翻訳データと解釈データで評価された場合,最大13.83BLEUスコアの違いが明らかになった。
論文 参考訳(メタデータ) (2021-10-11T12:27:07Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Translating the Unseen? Yor\`ub\'a $\rightarrow$ English MT in
Low-Resource, Morphologically-Unmarked Settings [8.006185289499049]
特定の特徴が一方で形態素的にマークされているが、他方で欠落または文脈的にマークされている言語間の翻訳は、機械翻訳の重要なテストケースである。
本研究では,Yorub'a の素名詞を英語に翻訳する際に,SMTシステムと2つの NMT システムとの比較を行う。
論文 参考訳(メタデータ) (2021-03-07T01:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。