論文の概要: MULTITEXTEDIT: Benchmarking Cross-Lingual Degradation in Text-in-Image Editing
- arxiv url: http://arxiv.org/abs/2605.08163v1
- Date: Mon, 04 May 2026 16:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.413366
- Title: MULTITEXTEDIT: Benchmarking Cross-Lingual Degradation in Text-in-Image Editing
- Title(参考訳): MultiTEXTEDIT: テキスト・イン・イメージ編集における言語間劣化のベンチマーク
- Authors: Liwei Cheng, Zirui Song, Shibo Feng, Lunjie Zhou, Yixuan Guan, Dayan Guan,
- Abstract要約: 12言語,5つの視覚領域,7つの編集操作にまたがる3600のインスタンスの制御ベンチマークを導入する。
テキストマッチングの精度が低いスクリプトレベルのエラーをキャプチャするために,LSF(Language Fidelity)メトリクスを導入する。
ヘブライ語とアラビア語で最大であり、オランダ語とスペイン語で最小であり、粗い構造次元ではなく、文字の精度と文字の忠実さに集中している。
- 参考スコア(独自算出の注目度): 14.278137781549303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-in-image editing has become a key capability for visual content creation, yet existing benchmarks remain overwhelmingly English-centric and often conflate visual plausibility with semantic correctness. We introduce MULTITEXTEDIT, a controlled benchmark of 3,600 instances spanning 12 typologically diverse languages, 5 visual domains, and 7 editing operations. Language variants of each instance share a common visual base and are paired with a human-edited reference and region masks, isolating the language variable for cross-lingual comparison. To capture script-level errors that coarse text-matching metrics miss, such as missing diacritics, reversed RTL order, and mixed-script renderings, we introduce a language fidelity (LSF) metric scored by a two-stage LVM protocol that first traces the edited target text and then judges it in isolation, reaching a quadratic-weighted \k{appa} of 0.76 against native-speaker annotators. Evaluating 12 open-source and proprietary systems with LSF alongside standard semantic and mask-aware pixel metrics, we find pronounced cross-lingual degradation for every model, largest on Hebrew and Arabic and smallest on Dutch and Spanish, and concentrated in text accuracy and script fidelity rather than in coarse structural dimensions. We also uncover a pervasive semantic and pixel mismatch, where outputs preserve global layout and background fidelity yet distort script-specific forms.
- Abstract(参考訳): テキスト・イン・イメージの編集は、視覚コンテンツ作成の鍵となる機能となっているが、既存のベンチマークは圧倒的に英語中心であり、しばしば意味的な正確さで視覚的妥当性を説明できる。
我々は,12の言語,5の視覚領域,7つの編集操作にまたがる3,600のインスタンスの制御ベンチマークである MultiTEXTEDIT を紹介した。
各インスタンスの言語変種は共通のビジュアルベースを共有し、ヒューマン編集された参照とリージョンマスクとペアリングされ、言語変数を言語間比較のために分離する。
そこで,2段階のLVMプロトコルによって得られた言語忠実度(LSF)測定基準を導入し,まず編集対象のテキストをトレースし,分離して判断し,0.76の2次重み付き \k{appa} に到達した。
LSFによる12のオープンソースおよびプロプライエタリなシステムと標準的なセマンティックおよびマスク対応ピクセルメトリクスを併用して評価した結果、ヘブライ語とアラビア語で最大、オランダ語とスペイン語で最小であり、粗い構造次元ではなく、テキストの精度とスクリプトの忠実さに集中している、すべてのモデルの言語間劣化が明らかとなった。
また、グローバルなレイアウトや背景の忠実さを保ちつつ、スクリプト固有の形式を歪ませるような、広範に散らばったセマンティクスと画素ミスマッチも発見する。
関連論文リスト
- Does Visual Rendering Bypass Tokenization? Investigating Script-Tokenizer Misalignment in Pixel-Based Language Models [20.181240222544208]
DualGPTのようなマルチモーダルな変種は、自動回帰性能を改善するためにテキストトークンを再導入する。
視覚的なレンダリングは、モデルとトークン化の制約を真に分離するのか?
この結果から,視覚的レンダリングに拘わらず,テキストトークン化ツールをアーキテクチャに再統合することで,ピクセルベースの言語モデリングが解決しようとしているのと同じ問題を再導入することがわかった。
論文 参考訳(メタデータ) (2026-01-12T07:37:46Z) - STELLAR: Scene Text Editor for Low-Resource Languages and Real-World Data [3.622341086373503]
Scene Text Editor for Low-Resource LAnguages and Real-world data。
STELLARは、言語適応型グリフエンコーダとマルチステージトレーニング戦略を通じて、信頼できる多言語編集を可能にする。
また,STIPLAR(Scene Text Image Pairs of Low-Resource lAnguages and Real-world data)という新たなデータセットを構築し,評価を行った。
論文 参考訳(メタデータ) (2025-11-13T05:18:03Z) - See the Text: From Tokenization to Visual Reading [63.10220471118435]
SeeTokはテキストを画像(ビジュアルテキスト)としてレンダリングし、事前訓練されたマルチモーダル計算を利用して解釈する。
3つの異なる言語タスクの中で、SeeeTokはサブワードトークンをマッチまたはオーバーし、トークンを4.43倍少なくし、FLOPを70.5%削減する。
SeeTokは、象徴的なトークン化から人間のような視覚的な読み方へとシフトし、より自然で認知的にインスパイアされた言語モデルへと一歩前進する。
論文 参考訳(メタデータ) (2025-10-21T17:34:48Z) - Enhancing Robustness of Autoregressive Language Models against Orthographic Attacks via Pixel-based Approach [51.95266411355865]
自己回帰言語モデルは、正書法攻撃に弱い。
この脆弱性は、サブワードトークン化器とその埋め込みに固有の語彙外問題に起因している。
本稿では,単語を個々の画像としてレンダリングすることで,テキストベースの埋め込みをピクセルベースの表現に置き換える,画素ベースの生成言語モデルを提案する。
論文 参考訳(メタデータ) (2025-08-28T20:48:38Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。