論文の概要: A Picture is Worth a Thousand (Correct) Captions: A Vision-Guided Judge-Corrector System for Multimodal Machine Translation
- arxiv url: http://arxiv.org/abs/2511.07010v1
- Date: Mon, 10 Nov 2025 12:02:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.22826
- Title: A Picture is Worth a Thousand (Correct) Captions: A Vision-Guided Judge-Corrector System for Multimodal Machine Translation
- Title(参考訳): 画像は何千もの(正しい)キャプション:マルチモーダル機械翻訳のための視覚誘導判定器システム
- Authors: Siddharth Betala, Kushan Raj, Vipul Betala, Rohan Saswade,
- Abstract要約: 本稿では,自動誤り検出と修正により,トレーニングデータの品質問題に対処する2段階のアプローチを提案する。
提案手法では,マルチモーダル言語モデルを利用した視覚強調型判断補正パイプラインを提案する。
このパイプラインは4つの言語にわたる28,928のトレーニング例を処理し、言語ごとの平均17.1%のキャプションを修正している。
- 参考スコア(独自算出の注目度): 0.02916558661202723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we describe our system under the team name BLEU Monday for the English-to-Indic Multimodal Translation Task at WAT 2025. We participate in the text-only translation tasks for English-Hindi, English-Bengali, English-Malayalam, and English-Odia language pairs. We present a two-stage approach that addresses quality issues in the training data through automated error detection and correction, followed by parameter-efficient model fine-tuning. Our methodology introduces a vision-augmented judge-corrector pipeline that leverages multimodal language models to systematically identify and correct translation errors in the training data. The judge component classifies translations into three categories: correct, visually ambiguous (requiring image context), or mistranslated (poor translation quality). Identified errors are routed to specialized correctors: GPT-4o-mini regenerates captions requiring visual disambiguation, while IndicTrans2 retranslates cases with pure translation quality issues. This automated pipeline processes 28,928 training examples across four languages, correcting an average of 17.1% of captions per language. We then apply Low-Rank Adaptation (LoRA) to fine-tune the IndicTrans2 en-indic 200M distilled model on both original and corrected datasets. Training on corrected data yields consistent improvements, with BLEU score gains of +1.30 for English-Bengali on the evaluation set (42.00 -> 43.30) and +0.70 on the challenge set (44.90 -> 45.60), +0.60 for English-Odia on the evaluation set (41.00 -> 41.60), and +0.10 for English-Hindi on the challenge set (53.90 -> 54.00).
- Abstract(参考訳): 本稿では,WAT 2025における英語と英語のマルチモーダル翻訳タスクにおいて,BLEU月曜というチーム名でシステムについて述べる。
我々は,英語・ヒンディー語,英語・ベンガル語,英語・マラヤラム語,英語・インド語対のテキストのみの翻訳作業に参加している。
本稿では,自動誤り検出と修正によりトレーニングデータの品質問題に対処し,パラメータ効率の良いモデル微調整を行う2段階のアプローチを提案する。
本手法では,マルチモーダル言語モデルを用いて,学習データ中の翻訳誤りを系統的に同定し,訂正する,視覚拡張型判断補正パイプラインを提案する。
審査員は、翻訳を正しい、視覚的に曖昧(画像コンテキストの要求)、誤訳(翻訳品質の低下)の3つのカテゴリに分類する。
GPT-4o-miniは視覚的曖昧さを必要とするキャプションを再生し、IndicTrans2は純粋な翻訳品質の問題でケースを再翻訳する。
この自動パイプラインは、4つの言語にわたる28,928のトレーニング例を処理し、言語ごとの平均17.1%のキャプションを修正している。
IndicTrans2 en-indic 200M蒸留モデルをオリジナルのデータセットと修正データセットの両方で微調整するためにローランド適応(LoRA)を適用する。
BLEUスコアは評価セット(42.00 -> 43.30)で+1.30、チャレンジセット(44.90 -> 45.60)で+0.70、評価セット(41.00 -> 41.60)で+0.60、チャレンジセット(53.90 -> 54.00)で+0.10である。
関連論文リスト
- The Saturation Point of Backtranslation in High Quality Low Resource English Gujarati Machine Translation [0.0]
バックトランスレーションBTは低リソース機械翻訳MTにおいてモノリンガルコーパスを用いた追加の合成訓練データを生成するために広く利用されている。
多言語事前学習MBART50モデルを用いた英語グジャラート翻訳における逆翻訳の有効性について検討する。
論文 参考訳(メタデータ) (2025-06-12T09:02:53Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。
データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。
その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-04T13:49:45Z) - Improving Language Models Trained on Translated Data with Continual Pre-Training and Dictionary Learning Analysis [3.16714407449467]
学習言語モデルにおける翻訳と合成データの役割について検討する。
NLLB-3B MTモデルを用いて英語からアラビア語に翻訳した。
これらの問題を是正するために、我々は、合成された高品質のアラビア物語の小さなデータセットでモデルを事前訓練する。
論文 参考訳(メタデータ) (2024-05-23T07:53:04Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Easy Guided Decoding in Providing Suggestions for Interactive Machine
Translation [14.615314828955288]
我々は、新しい制約付きデコーディングアルゴリズム、すなわちPrefix Suffix Guided Decoding (PSGD)を提案する。
PSGDは平均で10.87ドルのBLEUと8.62ドルのBLEUをWeTSとWMT 2022のTranslation Suggestionデータセットで改善している。
論文 参考訳(メタデータ) (2022-11-14T03:40:02Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。