論文の概要: Benchmarking Machine Translation with Cultural Awareness
- arxiv url: http://arxiv.org/abs/2305.14328v3
- Date: Sat, 19 Oct 2024 05:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:52.430456
- Title: Benchmarking Machine Translation with Cultural Awareness
- Title(参考訳): 文化認識による機械翻訳のベンチマーク
- Authors: Binwei Yao, Ming Jiang, Tara Bobinac, Diyi Yang, Junjie Hu,
- Abstract要約: 文化関連コンテンツの翻訳は、効果的な異文化間コミュニケーションに不可欠である。
多くの文化特化項目(CSI)は言語間の翻訳を欠いていることが多い。
この難しさは機械翻訳システムの文化的意識の分析を妨げる。
- 参考スコア(独自算出の注目度): 50.183458829028226
- License:
- Abstract: Translating culture-related content is vital for effective cross-cultural communication. However, many culture-specific items (CSIs) often lack viable translations across languages, making it challenging to collect high-quality, diverse parallel corpora with CSI annotations. This difficulty hinders the analysis of cultural awareness of machine translation (MT) systems, including traditional neural MT and the emerging MT paradigm using large language models (LLM). To address this gap, we introduce a novel parallel corpus, enriched with CSI annotations in 6 language pairs for investigating Culturally-Aware Machine Translation--CAMT. Furthermore, we design two evaluation metrics to assess CSI translations, focusing on their pragmatic translation quality. Our findings show the superior ability of LLMs over neural MTs in leveraging external cultural knowledge for translating CSIs, especially those lacking translations in the target culture.
- Abstract(参考訳): 文化関連コンテンツの翻訳は、効果的な異文化間コミュニケーションに不可欠である。
しかし、多くの文化特化項目(CSI)は言語間で実行可能な翻訳を欠いていることが多く、高品質で多様な並列コーパスをCSIアノテーションで収集することは困難である。
この難しさは、従来のニューラルMTや、大型言語モデル(LLM)を用いた新しいMTパラダイムを含む、機械翻訳(MT)システムの文化的意識の分析を妨げる。
そこで我々は,CSIアノテーションを付加した新しい並列コーパスを6つの言語対に導入し,文化機械翻訳-CAMTについて検討する。
さらに,CSI翻訳の評価のための2つの評価指標を設計し,その実用的翻訳品質に着目した。
以上の結果から,CSIの翻訳に外的文化知識を活かし,特に翻訳能力の欠如が示唆された。
関連論文リスト
- Unveiling Cultural Blind Spots: Analyzing the Limitations of mLLMs in Procedural Text Comprehension [6.0422282033999135]
我々は,mLLMsの文化的に多様な手続き的テキストの処理と推論能力を評価するためのベンチマークであるCAPTexを紹介する。
以上の結果から,mLLMsは文化的に文脈化された手続き文の難易度に直面することが示唆された。
多様な言語・文化の景観にまたがる適応性と理解を高めるため、CAPTexのような文化的に意識されたベンチマークの必要性を強調した。
論文 参考訳(メタデータ) (2025-02-20T07:01:08Z) - Proverbs Run in Pairs: Evaluating Proverb Translation Capability of Large Language Model [5.343968769798019]
本稿では,最先端のニューラルネットワーク翻訳 (NMT) と大規模言語モデル (LLM) の翻訳能力について検討する。
4つの言語対の会話において,証明文と証明文の翻訳データセットを構築した。
実験により、研究されたモデルは、類似の文化的背景を持つ言語間の良好な翻訳を達成できることが示されている。
論文 参考訳(メタデータ) (2025-01-21T07:54:22Z) - XTransplant: A Probe into the Upper Bound Performance of Multilingual Capability and Culture Adaptability in LLMs via Mutual Cross-lingual Feed-forward Transplantation [49.69780199602105]
現在の大規模言語モデル(LLM)は多言語能力と文化的適応性に不均衡を示すことが多い。
本稿では,言語間フィードフォワード移植による言語間遅延相互作用を探索するXTransplantという探索手法を提案する。
我々は,LLMの多言語能力と文化的適応性の両方が,XTransplantによって大幅に改善される可能性を持っていることを実証的に証明した。
論文 参考訳(メタデータ) (2024-12-17T09:05:30Z) - Towards Cross-Cultural Machine Translation with Retrieval-Augmented Generation from Multilingual Knowledge Graphs [18.84670051328337]
XC-Translateは、機械翻訳のための最初の大規模な手作業によるベンチマークである。
KG-MTは、多言語知識グラフからの情報をニューラルネットワーク翻訳モデルに統合する、新しいエンドツーエンド手法である。
論文 参考訳(メタデータ) (2024-10-17T21:56:22Z) - Cultural Adaptation of Menus: A Fine-Grained Approach [58.08115795037042]
CSI(Machine Translation of Culture-Specific Items)は、重要な課題である。
CSI翻訳に関する最近の研究は、様々な言語や文化に適応するためにLarge Language Models (LLM)を用いていくつかの成功を収めている。
CSIラベルと非CSIラベルをアノテートした中国語メニューコーパスで最大となる ChineseMenuCSI データセットを提案する。
我々は,ほとんどのカテゴリにおいて,GPTに基づくプロンプトよりも優れた自動CSI識別手法を開発した。
論文 参考訳(メタデータ) (2024-08-24T09:25:18Z) - Translating Across Cultures: LLMs for Intralingual Cultural Adaptation [12.5954253354303]
文化適応の課題を定義し,現代LLMの性能を評価するための評価枠組みを構築した。
我々は、自動適応で起こりうる問題を解析する。
本稿は, LLMの文化的理解と, 異文化のシナリオにおける創造性について, より深い知見を提供していくことを願っている。
論文 参考訳(メタデータ) (2024-06-20T17:06:58Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。