論文の概要: Mitigating Stylistic Biases of Machine Translation Systems via Monolingual Corpora Only
- arxiv url: http://arxiv.org/abs/2507.13395v1
- Date: Wed, 16 Jul 2025 09:45:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.071269
- Title: Mitigating Stylistic Biases of Machine Translation Systems via Monolingual Corpora Only
- Title(参考訳): 単言語コーパスのみによる機械翻訳システムの立体的分岐の緩和
- Authors: Xuanqi Gao, Weipeng Jiang, Juan Zhai, Shiqing Ma, Siyi Xie, Xinyang Yin, Chao Shen,
- Abstract要約: ニューラルマシン翻訳(NMT)におけるスタイリスティックな忠実度を高める新しいフレームワークであるBabelを紹介する。
バベルは,(1)文体と文体間の文体的相違を識別する文脈的埋め込みに基づく文体検出法,(2)文体的整合性を維持しつつ文体的不整合を補正する拡散型文体適用法,の2つの重要な構成要素を用いる。
本フレームワークは,既存のNMTシステムを後処理モジュールとして統合し,アーキテクチャ変更や並列スタイリスティックなデータを必要としないスタイル対応翻訳を実現する。
- 参考スコア(独自算出の注目度): 24.663850463100346
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The advent of neural machine translation (NMT) has revolutionized cross-lingual communication, yet preserving stylistic nuances remains a significant challenge. While existing approaches often require parallel corpora for style preservation, we introduce Babel, a novel framework that enhances stylistic fidelity in NMT using only monolingual corpora. Babel employs two key components: (1) a style detector based on contextual embeddings that identifies stylistic disparities between source and target texts, and (2) a diffusion-based style applicator that rectifies stylistic inconsistencies while maintaining semantic integrity. Our framework integrates with existing NMT systems as a post-processing module, enabling style-aware translation without requiring architectural modifications or parallel stylistic data. Extensive experiments on five diverse domains (law, literature, scientific writing, medicine, and educational content) demonstrate Babel's effectiveness: it identifies stylistic inconsistencies with 88.21% precision and improves stylistic preservation by 150% while maintaining a high semantic similarity score of 0.92. Human evaluation confirms that translations refined by Babel better preserve source text style while maintaining fluency and adequacy.
- Abstract(参考訳): ニューラルマシン翻訳(NMT)の出現は言語間コミュニケーションに革命をもたらしたが、スタイリスティックなニュアンスを保存することは大きな課題である。
既存の手法はスタイル保存に並列コーパスを必要とすることが多いが,モノリンガルコーパスのみを用いてNMTのスタイリスティックな忠実度を高める新しいフレームワークであるBabelを導入する。
バベルは,(1)文体と文体間の文体的相違を識別する文脈的埋め込みに基づく文体検出装置,(2)文体的整合性を維持しつつ文体的不整合を補正する拡散型文体適用装置,の2つの重要な構成要素を用いる。
本フレームワークは,既存のNMTシステムを後処理モジュールとして統合し,アーキテクチャ変更や並列スタイリスティックなデータを必要としないスタイル対応翻訳を実現する。
5つの異なる領域(法、文学、科学文献、医学、教育内容)に関する広範な実験は、バベルの有効性を実証している: 88.21%の精度でスタイリスティックな不整合を識別し、高いセマンティックな類似性スコアを0.92で維持しながら、スタイリスティックな保存を150%改善する。
人的評価は、Babelによって洗練された翻訳は、流布と妥当性を維持しながら、ソーステキストのスタイルをよりよく保存することを確認した。
関連論文リスト
- Pun Intended: Multi-Agent Translation of Wordplay with Contrastive Learning and Phonetic-Semantic Embeddings [0.0]
本研究では,現在最先端の大規模言語モデルとワードプレイ生成のための特化技術を組み合わせることで,句を英語からフランス語に翻訳する新しい手法を提案する。
我々の方法論の主な目的は、単に語彙を重複させるのではなく、原文の語句の言語的創造性とユーモアを捉えることである。
論文 参考訳(メタデータ) (2025-07-09T03:09:14Z) - StAyaL | Multilingual Style Transfer [0.0]
100行のテキストのみを活用することで、個人独自のスタイルを高次元埋め込みとして捉えることができることを示す。
この方法論は、話者のスタイルを言語間で転送することで、言語障壁を壊します。
提案手法は,それぞれ74.9%,0.75の試験精度とF1スコアを有するトピックに依存しない。
論文 参考訳(メタデータ) (2025-01-20T18:13:18Z) - StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse
Representations and Content Enhancing [73.81778485157234]
長文は通常、文よりも談話構造のような複雑な著者の言語的嗜好を含んでいる。
我々は、入力されたストーリーを特定の著者スタイルに転送する必要があるノン並列ストーリー作者スタイル転送のタスクを定式化する。
モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。
論文 参考訳(メタデータ) (2022-08-29T08:47:49Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - GTAE: Graph-Transformer based Auto-Encoders for Linguistic-Constrained
Text Style Transfer [119.70961704127157]
近年,非並列テキストスタイルの転送が研究の関心を集めている。
現在のアプローチでは、元の文の内容やロジックを保存できない。
文を言語グラフとしてモデル化し,グラフレベルで特徴抽出とスタイル転送を行う,グラフトランスフォーマーベースのAuto-GTAEを提案する。
論文 参考訳(メタデータ) (2021-02-01T11:08:45Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - A Common Semantic Space for Monolingual and Cross-Lingual
Meta-Embeddings [10.871587311621974]
本稿では,モノリンガルおよびクロスリンガルなメタ埋め込みを作成するための新しい手法を提案する。
既存のワードベクトルは線形変換と平均化を用いて共通の意味空間に投影される。
結果として得られる言語間メタ埋め込みは、優れた言語間移動学習能力を示す。
論文 参考訳(メタデータ) (2020-01-17T15:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。