論文の概要: Audience-specific Explanations for Machine Translation
- arxiv url: http://arxiv.org/abs/2309.12998v1
- Date: Fri, 22 Sep 2023 17:00:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 13:51:51.555827
- Title: Audience-specific Explanations for Machine Translation
- Title(参考訳): 機械翻訳におけるオーディエンス固有の説明
- Authors: Renhan Lou, Jan Niehues
- Abstract要約: 機械翻訳において一般的な問題は、翻訳しても特定の単語の翻訳が、異なる文化的背景から対象言語オーディエンスの理解を損なう可能性があることである。
本研究では,並列コーパスからサンプル説明を抽出する手法について検討する。
大規模並列コーパスからこれらの説明を抽出する半自動手法を提案する。
- 参考スコア(独自算出の注目度): 17.166908218991225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In machine translation, a common problem is that the translation of certain
words even if translated can cause incomprehension of the target language
audience due to different cultural backgrounds. A solution to solve this
problem is to add explanations for these words. In a first step, we therefore
need to identify these words or phrases. In this work we explore techniques to
extract example explanations from a parallel corpus. However, the sparsity of
sentences containing words that need to be explained makes building the
training dataset extremely difficult. In this work, we propose a semi-automatic
technique to extract these explanations from a large parallel corpus.
Experiments on English->German language pair show that our method is able to
extract sentence so that more than 10% of the sentences contain explanation,
while only 1.9% of the original sentences contain explanations. In addition,
experiments on English->French and English->Chinese language pairs also show
similar conclusions. This is therefore an essential first automatic step to
create a explanation dataset. Furthermore we show that the technique is robust
for all three language pairs.
- Abstract(参考訳): 機械翻訳において一般的な問題は、翻訳しても特定の単語の翻訳が、異なる文化的背景から対象言語オーディエンスの理解を損なうことである。
この問題を解決する解決策は、これらの単語に説明を加えることである。
最初のステップでは、これらの単語やフレーズを識別する必要があります。
本研究では,並列コーパスから説明例を抽出する手法を検討する。
しかし、説明すべき単語を含む文の空間性は、トレーニングデータセットの構築を極めて困難にしている。
本研究では,大規模並列コーパスからこれらの説明を抽出する半自動手法を提案する。
英語とドイツ語のペアを用いた実験では, 10%以上の文が説明文を含むように文を抽出することができるが, 原文の1.9%のみが説明文を含む。
また、英語とフランス語と中国語のペアの実験も同様の結論を示した。
したがって、これは説明データセットを作成するための重要な最初の自動ステップである。
さらに,この手法は3つの言語ペアすべてに対して堅牢であることを示す。
関連論文リスト
- A Multi-Task Text Classification Pipeline with Natural Language Explanations: A User-Centric Evaluation in Sentiment Analysis and Offensive Language Identification in Greek Tweets [8.846643533783205]
この研究は、テキスト分類タスクで使用できる新しいパイプラインの初期の概念を紹介している。
テキストをラベル付けする分類器と、説明を提供する説明生成器の2つのモデルから構成される。
ギリシャのツイートにおける感情分析と攻撃的な言語識別のタスクを中心に実験が行われている。
論文 参考訳(メタデータ) (2024-10-14T08:41:31Z) - When Abel Kills Cain: What Machine Translation Cannot Capture [0.0]
記事は、構造の観点から、AIベースの自動翻訳装置が完全に捕捉できないものを特定することを目的としている。
原因を説明するために、機械のミスに焦点を当てる。
カインとアベルの聖書の物語は、その豊かで批判的な解釈の伝統のために選ばれた。
論文 参考訳(メタデータ) (2024-04-02T12:46:00Z) - Question Translation Training for Better Multilingual Reasoning [108.10066378240879]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - Bridging Background Knowledge Gaps in Translation with Automatic
Explicitation [13.862753200823242]
専門家の翻訳者は、欠落した状況を説明するために明示を取り入れている。
本研究はWikiExplによって動機付けられた明示を自動生成する技術を紹介する。
結果の明示は、多言語質問応答フレームワークにおいて、より正確に質問に答えるのに役立つ。
論文 参考訳(メタデータ) (2023-12-03T07:24:12Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Evaluation of Automatically Constructed Word Meaning Explanations [0.0]
非常に大規模なコーパスからの集合情報に基づいて,説明を自動的に導き出す新しいツールを提案する。
提案手法は,約90%のケースにおいて,単語の意味を理解するのに有用なデータを含む説明を作成できることを示す。
論文 参考訳(メタデータ) (2023-02-27T09:47:55Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - Human Interpretation of Saliency-based Explanation Over Text [65.29015910991261]
テキストデータ上でのサリエンシに基づく説明について検討する。
人はしばしば説明を誤って解釈する。
本稿では,過度知覚と過小認識のモデル推定に基づいて,サリエンシを調整する手法を提案する。
論文 参考訳(メタデータ) (2022-01-27T15:20:32Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。