論文の概要: Mitigating Translationese in Low-resource Languages: The Storyboard Approach
- arxiv url: http://arxiv.org/abs/2407.10152v1
- Date: Sun, 14 Jul 2024 10:47:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 19:19:02.349901
- Title: Mitigating Translationese in Low-resource Languages: The Storyboard Approach
- Title(参考訳): 低リソース言語における翻訳文の修正:ストーリーボードアプローチ
- Authors: Garry Kuwanto, Eno-Abasi E. Urua, Priscilla Amondi Amuok, Shamsuddeen Hassan Muhammad, Anuoluwapo Aremu, Verrah Otiende, Loice Emma Nanyanga, Teresiah W. Nyoike, Aniefon D. Akpan, Nsima Ab Udouboh, Idongesit Udeme Archibong, Idara Effiong Moses, Ifeoluwatayo A. Ige, Benjamin Ajibade, Olumide Benjamin Awokoya, Idris Abdulmumin, Saminu Mohammad Aliyu, Ruqayya Nasir Iro, Ibrahim Said Ahmad, Deontae Smith, Praise-EL Michaels, David Ifeoluwa Adelani, Derry Tanti Wijaya, Anietie Andy,
- Abstract要約: 本稿では,より流動的で自然な文を引き出すために,ストーリーボードを活用した新しいデータ収集手法を提案する。
提案手法では,視覚刺激のあるネイティブ話者をストーリーボード形式で提示し,その記述を原文に直接露出することなく収集する。
従来のテキスト翻訳手法とストーリーボードによるアプローチを,精度と流布率の観点から総合評価した。
- 参考スコア(独自算出の注目度): 9.676710061071809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-resource languages often face challenges in acquiring high-quality language data due to the reliance on translation-based methods, which can introduce the translationese effect. This phenomenon results in translated sentences that lack fluency and naturalness in the target language. In this paper, we propose a novel approach for data collection by leveraging storyboards to elicit more fluent and natural sentences. Our method involves presenting native speakers with visual stimuli in the form of storyboards and collecting their descriptions without direct exposure to the source text. We conducted a comprehensive evaluation comparing our storyboard-based approach with traditional text translation-based methods in terms of accuracy and fluency. Human annotators and quantitative metrics were used to assess translation quality. The results indicate a preference for text translation in terms of accuracy, while our method demonstrates worse accuracy but better fluency in the language focused.
- Abstract(参考訳): 低リソース言語は、翻訳に基づく手法に依存するため、高品質な言語データを取得することの難しさに直面することが多い。
この現象は、対象言語における流布や自然性に欠ける翻訳文をもたらす。
本稿では,より流動的で自然な文章を引き出すために,ストーリーボードを活用した新しいデータ収集手法を提案する。
提案手法では,視覚刺激のあるネイティブ話者をストーリーボード形式で提示し,その記述を原文に直接露出することなく収集する。
従来のテキスト翻訳手法とストーリーボードによるアプローチを,精度と流布率の観点から総合評価した。
翻訳品質を評価するために、人間のアノテーションと定量的な指標が用いられた。
その結果,テキスト翻訳の精度が向上するのに対して,本手法はより精度が悪く,言語に焦点を絞った流布度が向上することを示した。
関連論文リスト
- A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。
データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。
その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-04T13:49:45Z) - Constrained Decoding for Cross-lingual Label Projection [27.567195418950966]
ラベル付き学習データを持たない低リソース言語では,多言語 LLM を用いた言語間移動が一般的な学習パラダイムとなっている。
しかし、単語やフレーズの微粒な予測を含むNLPタスクでは、ゼロショットの言語間移動学習は教師付き微調整法よりもはるかに遅れている。
論文 参考訳(メタデータ) (2024-02-05T15:57:32Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - Towards Debiasing Translation Artifacts [15.991970288297443]
確立されたバイアス除去手法を拡張して,翻訳文の削減のための新しい手法を提案する。
我々は、反復的ヌル空間投影(INLP)アルゴリズムを用いて、デバイアス前後の分類精度を計測することにより、文レベルと単語レベルの両方で翻訳文が削減されることを示す。
我々の知る限りでは、これは潜伏埋め込み空間で表現される翻訳語をデビアスする最初の研究である。
論文 参考訳(メタデータ) (2022-05-16T21:46:51Z) - Keypoint based Sign Language Translation without Glosses [7.240731862549344]
署名者の骨格点に基づく翻訳を行うための新しいキーポイント正規化法を提案する。
身体部分に応じてカスタマイズされた正規化法により性能改善に寄与した。
本手法は,グルースを使わずにデータセットに適用可能な方法で,様々なデータセットに適用することができる。
論文 参考訳(メタデータ) (2022-04-22T05:37:56Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文 参考訳(メタデータ) (2020-06-22T10:28:38Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。