論文の概要: Vectra: A New Metric, Dataset, and Model for Visual Quality Assessment in E-Commerce In-Image Machine Translation
- arxiv url: http://arxiv.org/abs/2602.07014v1
- Date: Sat, 31 Jan 2026 12:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.353001
- Title: Vectra: A New Metric, Dataset, and Model for Visual Quality Assessment in E-Commerce In-Image Machine Translation
- Title(参考訳): Vectra:Eコマースインイメージ機械翻訳における視覚的品質評価のための新しいメトリクス、データセット、モデル
- Authors: Qingyu Wu, Yuxuan Han, Haijun Li, Zhao Xu, Jianshan Zhao, Xu Jin, Longyue Wang, Weihua Luo,
- Abstract要約: In-Image Machine Translation (IIMT) は、国境を越えたeコマース商品の一覧を提供する。
現在の参照ベースの手法(例えば、SSIM、FID)は、コンテキスト依存の製品イメージに直面する際の説明責任を欠いている。
Vectraは、MLLMによる視覚的品質評価フレームワークとしては初めての、参照なしのビジュアル品質評価フレームワークです。
- 参考スコア(独自算出の注目度): 34.359736400429185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-Image Machine Translation (IIMT) powers cross-border e-commerce product listings; existing research focuses on machine translation evaluation, while visual rendering quality is critical for user engagement. When facing context-dense product imagery and multimodal defects, current reference-based methods (e.g., SSIM, FID) lack explainability, while model-as-judge approaches lack domain-grounded, fine-grained reward signals. To bridge this gap, we introduce Vectra, to the best of our knowledge, the first reference-free, MLLM-driven visual quality assessment framework for e-commerce IIMT. Vectra comprises three components: (1) Vectra Score, a multidimensional quality metric system that decomposes visual quality into 14 interpretable dimensions, with spatially-aware Defect Area Ratio (DAR) quantification to reduce annotation ambiguity; (2) Vectra Dataset, constructed from 1.1M real-world product images via diversity-aware sampling, comprising a 2K benchmark for system evaluation, 30K reasoning-based annotations for instruction tuning, and 3.5K expert-labeled preferences for alignment and evaluation; and (3) Vectra Model, a 4B-parameter MLLM that generates both quantitative scores and diagnostic reasoning. Experiments demonstrate that Vectra achieves state-of-the-art correlation with human rankings, and our model outperforms leading MLLMs, including GPT-5 and Gemini-3, in scoring performance. The dataset and model will be released upon acceptance.
- Abstract(参考訳): In-Image Machine Translation (IIMT)は、国境を越えた電子商取引商品の一覧を処理し、既存の研究は機械翻訳の評価に重点を置いているが、視覚的なレンダリング品質はユーザエンゲージメントにとって重要である。
コンテキスト依存の製品イメージやマルチモーダルな欠陥に直面している場合、現在の参照ベースの手法(例えばSSIM、FID)は説明不可能であり、モデル・アズ・ジャッジのアプローチはドメイン基底できめ細かな報酬信号が欠けている。
このギャップを埋めるために、私たちはVectraを紹介します。
ベクトラ・スコア (Vectra Score) は, 視覚的品質を14次元の解釈可能な次元に分解し, 空間的認識の欠陥面積比 (DAR) を定量化し, アノテーションのあいまいさを低減させる, ベクトラ・データセット (Vectra Dataset) と, システム評価のための2Kベンチマーク, 指示チューニングのための30K推論に基づくアノテーション, アライメントと評価のための3.5Kエキスパートラベル付き評価, および, 定量的スコアと診断推論の両方を生成する4BパラメータMLLM (Vectra Model) の3つのコンポーネントから構成される。
実験により,Vectraはヒトのランクと最先端の相関を達成し,GPT-5やGemini-3などMLLMの先行性能に優れていた。
データセットとモデルは受け入れ次第リリースされる。
関連論文リスト
- EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。
標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。
EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文 参考訳(メタデータ) (2025-09-16T17:45:39Z) - From Drawings to Decisions: A Hybrid Vision-Language Framework for Parsing 2D Engineering Drawings into Structured Manufacturing Knowledge [0.352650106994433]
2Dエンジニアリング図面からの重要な情報は、デジタル製造の進歩に不可欠である。
手動の抽出は遅く、労働集約的であるが、一般的なOCRモデルは複雑なレイアウト、エンジニアリングシンボル、回転テキストのために失敗することが多い。
回転認識オブジェクト検出モデル(YOLOv11-obb)とトランスフォーマーに基づく視覚言語モデル(VLM)を統合するハイブリッドビジョン言語フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-20T17:10:01Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Simultaneous Multiple Object Detection and Pose Estimation using 3D Model Infusion with Monocular Vision [25.70995300410493]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。
単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。
我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文 参考訳(メタデータ) (2022-11-21T05:18:56Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。