Fugu-MT 論文翻訳(概要): Vectra: A New Metric, Dataset, and Model for Visual Quality Assessment in E-Commerce In-Image Machine Translation

論文の概要: Vectra: A New Metric, Dataset, and Model for Visual Quality Assessment in E-Commerce In-Image Machine Translation

arxiv url: http://arxiv.org/abs/2602.07014v1
Date: Sat, 31 Jan 2026 12:33:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:24.353001
Title: Vectra: A New Metric, Dataset, and Model for Visual Quality Assessment in E-Commerce In-Image Machine Translation
Title（参考訳）: Vectra:Eコマースインイメージ機械翻訳における視覚的品質評価のための新しいメトリクス、データセット、モデル
Authors: Qingyu Wu, Yuxuan Han, Haijun Li, Zhao Xu, Jianshan Zhao, Xu Jin, Longyue Wang, Weihua Luo,
Abstract要約: In-Image Machine Translation (IIMT) は、国境を越えたeコマース商品の一覧を提供する。現在の参照ベースの手法(例えば、SSIM、FID)は、コンテキスト依存の製品イメージに直面する際の説明責任を欠いている。 Vectraは、MLLMによる視覚的品質評価フレームワークとしては初めての、参照なしのビジュアル品質評価フレームワークです。
参考スコア（独自算出の注目度）: 34.359736400429185
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In-Image Machine Translation (IIMT) powers cross-border e-commerce product listings; existing research focuses on machine translation evaluation, while visual rendering quality is critical for user engagement. When facing context-dense product imagery and multimodal defects, current reference-based methods (e.g., SSIM, FID) lack explainability, while model-as-judge approaches lack domain-grounded, fine-grained reward signals. To bridge this gap, we introduce Vectra, to the best of our knowledge, the first reference-free, MLLM-driven visual quality assessment framework for e-commerce IIMT. Vectra comprises three components: (1) Vectra Score, a multidimensional quality metric system that decomposes visual quality into 14 interpretable dimensions, with spatially-aware Defect Area Ratio (DAR) quantification to reduce annotation ambiguity; (2) Vectra Dataset, constructed from 1.1M real-world product images via diversity-aware sampling, comprising a 2K benchmark for system evaluation, 30K reasoning-based annotations for instruction tuning, and 3.5K expert-labeled preferences for alignment and evaluation; and (3) Vectra Model, a 4B-parameter MLLM that generates both quantitative scores and diagnostic reasoning. Experiments demonstrate that Vectra achieves state-of-the-art correlation with human rankings, and our model outperforms leading MLLMs, including GPT-5 and Gemini-3, in scoring performance. The dataset and model will be released upon acceptance.
Abstract（参考訳）: In-Image Machine Translation (IIMT)は、国境を越えた電子商取引商品の一覧を処理し、既存の研究は機械翻訳の評価に重点を置いているが、視覚的なレンダリング品質はユーザエンゲージメントにとって重要である。コンテキスト依存の製品イメージやマルチモーダルな欠陥に直面している場合、現在の参照ベースの手法(例えばSSIM、FID)は説明不可能であり、モデル・アズ・ジャッジのアプローチはドメイン基底できめ細かな報酬信号が欠けている。このギャップを埋めるために、私たちはVectraを紹介します。ベクトラ・スコア (Vectra Score) は, 視覚的品質を14次元の解釈可能な次元に分解し, 空間的認識の欠陥面積比 (DAR) を定量化し, アノテーションのあいまいさを低減させる, ベクトラ・データセット (Vectra Dataset) と, システム評価のための2Kベンチマーク, 指示チューニングのための30K推論に基づくアノテーション, アライメントと評価のための3.5Kエキスパートラベル付き評価, および, 定量的スコアと診断推論の両方を生成する4BパラメータMLLM (Vectra Model) の3つのコンポーネントから構成される。実験により,Vectraはヒトのランクと最先端の相関を達成し,GPT-5やGemini-3などMLLMの先行性能に優れていた。データセットとモデルは受け入れ次第リリースされる。

関連論文リスト

CARScenes: Semantic VLM Dataset for Safe Autonomous Driving [3.9876810376226057]
CAR-Scenesは、ビジョン言語モデルのトレーニングと評価を可能にする、自動運転のためのフレームレベルのデータセットである。我々はArgoverse 1, Cityscapes, KITTI, nuScenesから5,192枚の画像に注釈を付けている。
論文参考訳（メタデータ） (2025-11-12T21:13:19Z)
EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。 EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文参考訳（メタデータ） (2025-09-16T17:45:39Z)
From Drawings to Decisions: A Hybrid Vision-Language Framework for Parsing 2D Engineering Drawings into Structured Manufacturing Knowledge [0.352650106994433]
2Dエンジニアリング図面からの重要な情報は、デジタル製造の進歩に不可欠である。手動の抽出は遅く、労働集約的であるが、一般的なOCRモデルは複雑なレイアウト、エンジニアリングシンボル、回転テキストのために失敗することが多い。回転認識オブジェクト検出モデル(YOLOv11-obb)とトランスフォーマーに基づく視覚言語モデル(VLM)を統合するハイブリッドビジョン言語フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-20T17:10:01Z)
Towards Automatic Evaluation for Image Transcreation [52.71090829502756]
本稿では,機械翻訳(MT)メトリクスにインスパイアされた自動評価指標群を提案する。画像トランスクリエーションの3つの重要な側面として,文化的関連性,意味的等価性,視覚的類似性を挙げる。この結果から,視覚エンコーダの表現は視覚的類似度を測定するのに有効であるのに対し,プロプライエタリなVLMは文化的関連性と意味的等価性を最もよく認識していることがわかった。
論文参考訳（メタデータ） (2024-12-18T10:55:58Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
No-Reference Image Quality Assessment with Global-Local Progressive Integration and Semantic-Aligned Quality Transfer [6.095342999639137]
視覚変換器(ViT)を用いたグローバル特徴抽出器と畳み込みニューラルネットワーク(CNN)を用いた局所特徴抽出器を組み合わせた二重測定フレームワークを開発した。多様な画像コンテンツの品質スコアを主観的な意見スコアで自動的にラベル付けすることで、トレーニングデータを拡張するセマンティック・アライン・クオリティ・トランスファー手法を提案する。
論文参考訳（メタデータ） (2024-08-07T16:34:32Z)
TextSquare: Scaling up Text-Centric Visual Instruction Tuning [62.878378882175284]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文参考訳（メタデータ） (2024-04-19T11:38:08Z)
Simultaneous Multiple Object Detection and Pose Estimation using 3D Model Infusion with Monocular Vision [25.70995300410493]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文参考訳（メタデータ） (2022-11-21T05:18:56Z)
Joint Spatial-Temporal and Appearance Modeling with Transformer for Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文参考訳（メタデータ） (2022-05-31T01:19:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。