Fugu-MT 論文翻訳(概要): E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought

論文の概要: E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought

arxiv url: http://arxiv.org/abs/2602.21698v1
Date: Wed, 25 Feb 2026 09:03:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.764271
Title: E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought
Title（参考訳）: E-comIQ-ZH:チェーン・オブ・サートによるEコマースポスターの微粒化評価のためのヒューマンアラインデータセットとベンチマーク
Authors: Meiqi Sun, Mingyu Li, Junxiong Zhu,
Abstract要約: 中国のeコマースポスターを評価するためのフレームワークであるE-comIQ-ZHを紹介する。我々は、多次元スコアと専門家によるCoT(Chain of Thought)論理の校正を行う最初のデータセットであるE-comIQ-18kを構築した。このデータセットを用いて、人間の専門家による判断に合わせた専門的な評価モデルであるE-comIQ-Mを訓練する。
参考スコア（独自算出の注目度）: 6.990955817822161
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative AI is widely used to create commercial posters. However, rapid advances in generation have outpaced automated quality assessment. Existing models emphasize generic esthetics or low level distortions and lack the functional criteria required for e-commerce design. It is especially challenging for Chinese content, where complex characters often produce subtle but critical textual artifacts that are overlooked by existing methods. To address this, we introduce E-comIQ-ZH, a framework for evaluating Chinese e-commerce posters. We build the first dataset E-comIQ-18k to feature multi dimensional scores and expert calibrated Chain of Thought (CoT) rationales. Using this dataset, we train E-comIQ-M, a specialized evaluation model that aligns with human expert judgment. Our framework enables E-comIQ-Bench, the first automated and scalable benchmark for the generation of Chinese e-commerce posters. Extensive experiments show our E-comIQ-M aligns more closely with expert standards and enables scalable automated assessment of e-commerce posters. All datasets, models, and evaluation tools will be released to support future research in this area.Code will be available at https://github.com/4mm7/E-comIQ-ZH.
Abstract（参考訳）: ジェネレーティブAIは、商業ポスターを作成するために広く使用されている。しかし、世代ごとの急速な進歩は自動品質評価を上回っている。既存のモデルは、一般的な美学や低レベルの歪みを強調し、Eコマース設計に必要な機能基準を欠いている。複雑な文字がしばしば、既存の手法で見過ごされる微妙だが批判的なテキストのアーティファクトを生成する中国のコンテンツにとって、これは特に困難である。そこで我々は,中国のeコマースポスター評価フレームワークであるE-comIQ-ZHを紹介する。我々は、多次元スコアと専門家によるCoT(Chain of Thought)論理の校正を行う最初のデータセットであるE-comIQ-18kを構築した。このデータセットを用いて、人間の専門家による判断に合わせた専門的な評価モデルであるE-comIQ-Mを訓練する。 E-comIQ-Benchは,中国のeコマースポスターを作成した最初の自動かつスケーラブルなベンチマークである。大規模な実験により、E-comIQ-Mは専門家の基準とより緊密に整合し、eコマースポスターのスケーラブルな自動評価を可能にした。すべてのデータセット、モデル、評価ツールがこの分野で将来の研究をサポートするためにリリースされ、コードはhttps://github.com/4mm7/E-comIQ-ZHで入手できる。

関連論文リスト

ELIQ: A Label-Free Framework for Quality Assessment of Evolving AI-Generated Images [76.5101823186747]
本稿では,AI生成画像の品質評価のためのラベルフリーフレームワークELIQを提案する。具体的には、ELIQは視覚的品質と迅速なイメージアライメントに重点を置いている。従来の歪みとAIGC固有の歪みモードの両方をカバーするために、正とアスペクト固有の負のペアを自動的に構成する。
論文参考訳（メタデータ） (2026-02-03T14:04:51Z)
MegaChat: A Synthetic Persian Q&A Dataset for High-Quality Sales Chatbot Evaluation [0.0]
MegaChatは、Telegramベースのeコマースでインテリジェントなセールスチャットボットを評価するために設計された、最初の完全に合成されたペルシアのQ&Aデータセットである。我々は,アクティブなTelegramショッピングチャネルからデータを収集し,ペルソナを意識したQ&Aペアを生成する,新しいマルチエージェントアーキテクチャを提案する。 GPT-5.1を6つの品質範囲で評価した結果,エージェントアーキテクチャは5つの異なるチャネルのうち4つで従来のRAGモデルよりも優れた性能を示した。
論文参考訳（メタデータ） (2025-11-28T17:44:20Z)
AgenticIQA: An Agentic Framework for Adaptive and Interpretable Image Quality Assessment [69.06977852423564]
画像品質評価(IQA)は、人間の視覚系に根ざした知覚品質の定量化と解釈の両方を反映している。 AgenticIQAは、IQAを歪み検出、歪み解析、ツール選択、ツール実行の4つのサブタスクに分解する。本稿では,IQAエージェントに適した大規模命令データセットであるAgenticIQA-200Kと,VLMベースのIQAエージェントの計画,実行,要約機能を評価するための最初のベンチマークであるAgenticIQA-Evalを紹介する。
論文参考訳（メタデータ） (2025-09-30T09:37:01Z)
Image Quality Assessment for Embodied AI [103.66095742463195]
Embodied AIは近年急速に発展しているが、現在も主に実験室に配備されている。具体的タスク、すなわちロボットの知覚品質における画像のユーザビリティを評価するためのIQA手法は存在しない。
論文参考訳（メタデータ） (2025-05-22T15:51:07Z)
ChineseEcomQA: A Scalable E-commerce Concept Evaluation Benchmark for Large Language Models [15.940958043509463]
我々は,eコマースの基本的な概念に着目した,スケーラブルな質問応答ベンチマークである textbf ChineseEcomQA を提案する。基本的な概念は、さまざまなeコマースタスクに適用できるように設計されている。一般性と特異性を慎重にバランスさせることで、ChinaEcomQAは広範囲にわたるeコマースのコンセプトを効果的に区別する。
論文参考訳（メタデータ） (2025-02-27T15:36:00Z)
IntentionQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce [71.37481473399559]
本稿では,eコマースにおけるLMの購入意図の理解を評価するためのベンチマークであるIntentionQAを提案する。インテンションQAは、自動化パイプラインを使用して構築された3つの困難レベルにわたる4,360の慎重に計算された問題で構成されている。人間の評価は、我々のベンチマークの高品質で低い偽陰性率を示す。
論文参考訳（メタデータ） (2024-06-14T16:51:21Z)
Quality Assessment for AI Generated Images with Instruction Tuning [58.41087653543607]
我々はまず,AIGCIQA2023+と呼ばれるAIGIのための画像品質評価(IQA)データベースを構築した。本稿では,AIGIに対する人間の嗜好を評価するためのMINT-IQAモデルを提案する。
論文参考訳（メタデータ） (2024-05-12T17:45:11Z)
Evaluating the Generation Capabilities of Large Chinese Language Models [27.598864484231477]
本稿では,CG-Evalについて紹介する。学術分野にまたがる大規模な中国語モデルの生成能力を評価する。 Gscoreは、参照標準に対するモデルのテキスト生成の品質測定を自動化する。
論文参考訳（メタデータ） (2023-08-09T09:22:56Z)
Improving Text Matching in E-Commerce Search with A Rationalizable, Intervenable and Fast Entity-Based Relevance Model [78.80174696043021]
エンティティベース関連モデル(EBRM)と呼ばれる新しいモデルを提案する。この分解により、高精度にクロスエンコーダQE関連モジュールを使用できる。また、ユーザログから自動生成されたQEデータによるQEモジュールの事前トレーニングにより、全体的なパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-07-01T15:44:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。