論文の概要: A Multimodal Dataset for Visually Grounded Ambiguity in Machine Translation
- arxiv url: http://arxiv.org/abs/2605.02035v1
- Date: Sun, 03 May 2026 19:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.053369
- Title: A Multimodal Dataset for Visually Grounded Ambiguity in Machine Translation
- Title(参考訳): 機械翻訳における視覚的曖昧性のためのマルチモーダルデータセット
- Authors: Jingheng Pan, Xintong Wang, Longyue Wang, Liang Ding, Weihua Luo, Chris Biemann,
- Abstract要約: VIDA(Visually-Dependent Ambiguity)は2500の慎重にキュレートされたインスタンスのデータセットで、注釈付きソーススパンの解決には視覚的証拠が必要である。
また,LLM-as-a-judge分類器を用いて,アノテートされた曖昧な表現がスパンレベルで正しく解決されているかどうかを検証する。
- 参考スコア(独自算出の注目度): 53.06004926782424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ambiguity resolution is a key challenge in multimodal machine translation (MMT), where models must genuinely leverage visual input to map an ambiguous expression to its intended meaning. Although prior work has proposed disambiguation-oriented benchmarks that provide supportive evidence for the role of vision, we observe substantial issues in data quality and a mismatch with translation scenarios. Moreover, existing ambiguity-oriented evaluations are not well suited to broader ambiguity types in open-ended translation. To address these limitations, we present VIDA (Visually-Dependent Ambiguity), a dataset of 2,500 carefully curated instances in which resolving an annotated ambiguous source span requires visual evidence. We further propose Disambiguation-Centric Metrics that use an LLM-as-a-judge classifier to verify whether annotated ambiguous expressions are resolved correctly at the span level. Experiments with two state-of-the-art Large Vision Language Models under vanilla inference, supervised fine-tuning (SFT), and our chain-of-thought SFT (CoT-SFT) show that while SFT improves overall translation quality, CoT-SFT yields more consistent gains in disambiguation accuracy, especially on out-of-distribution subsets, indicating a stronger generalization for resolving diverse ambiguity types.
- Abstract(参考訳): 曖昧さの解決はマルチモーダル機械翻訳(MMT)において重要な課題であり、モデルは意図した意味にあいまいな表現をマッピングするために視覚入力を真に活用する必要がある。
従来の研究では、視覚の役割を裏付ける曖昧性指向のベンチマークが提案されていたが、データ品質の重大な問題と翻訳シナリオとのミスマッチが観察された。
さらに、既存のあいまいさ指向の評価は、オープンエンド翻訳におけるより広いあいまいさのタイプには適していない。
このような制限に対処するために、2500の慎重にキュレートされたインスタンスのデータセットであるVIDA(Visually-Dependent Ambiguity)を提示する。
さらに,LLM-as-a-judge分類器を用いて,アノテートされた曖昧な表現がスパンレベルで正しく解決されているかどうかを検証する。
カニラ推論による2つの最先端のLarge Vision Language Model、教師付き微調整(SFT)、そして私たちのチェーンであるSFT(CoT-SFT)による実験により、SFTは全体的な翻訳品質を改善するが、CoT-SFTは曖昧さの精度、特に分布外部分集合においてより一貫性のある向上をもたらし、多様なあいまいさの解消のためのより強力な一般化を示す。
関連論文リスト
- Unlocking Reasoning Capability on Machine Translation in Large Language Models [57.60641851466707]
推論指向の大規模言語モデル(RLM)は、明示的な中間推論を生成することにより、数学やコーディングといったタスクに強い利益をもたらす。
WMT24++ベンチマークを用いて,オープンおよびクローズドヘビー級のRCMを系統的に評価した。
明示的な推論を可能にすることは、言語やモデル間の翻訳品質を一貫して低下させる。
論文 参考訳(メタデータ) (2026-02-16T14:05:59Z) - Subspace Alignment for Vision-Language Model Test-time Adaptation [82.83192844597593]
視覚言語モデル(VLM)は分布シフトに対して脆弱である。
既存のテスト時間適応法は、自己学習のための擬似ラベルとしてゼロショット予測に依存している。
両モードのセマンティック部分空間を整列させてゼロショット予測を強化するSubTTAを提案する。
論文 参考訳(メタデータ) (2026-01-13T02:02:41Z) - MUCAR: Benchmarking Multilingual Cross-Modal Ambiguity Resolution for Multimodal Large Language Models [19.241274582769037]
MLLM(Multimodal Large Language Models)は多くの視覚言語タスクにおいて大きな進歩を見せている。
マルチランガルおよびクロスモーダルシナリオ間のマルチモーダル曖昧性解決を明示的に評価するために設計された新しいベンチマークであるMUCARを紹介する。
論文 参考訳(メタデータ) (2025-06-20T14:57:41Z) - Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。
I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。
本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文 参考訳(メタデータ) (2025-01-03T09:25:04Z) - Exploring the Necessity of Visual Modality in Multimodal Machine Translation using Authentic Datasets [3.54128607634285]
実世界の翻訳データセットを活用し,視覚的モダリティが翻訳効率に与える影響について検討した。
視覚的モダリティは、実際の翻訳データセットの大部分に有利であることが判明した。
以上の結果から,視覚情報は多モーダル翻訳における補助的役割を担っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-09T08:19:10Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。