論文の概要: AdTEC: A Unified Benchmark for Evaluating Text Quality in Search Engine Advertising
- arxiv url: http://arxiv.org/abs/2408.05906v1
- Date: Mon, 12 Aug 2024 03:32:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 14:55:41.219002
- Title: AdTEC: A Unified Benchmark for Evaluating Text Quality in Search Engine Advertising
- Title(参考訳): AdTEC: 検索エンジン広告におけるテキスト品質評価のための統一ベンチマーク
- Authors: Peinan Zhang, Yusuke Sakai, Masato Mita, Hiroki Ouchi, Taro Watanabe,
- Abstract要約: 本稿では,広告キャンペーンの観点から,広告テキストを多面的に評価する最初の公開ベンチマークであるAdTECを提案する。
広告代理店の実際の運用経験に基づいて、広告テキストの品質を評価し、データセットを構築するための5つのタスクを定義する。
- 参考スコア(独自算出の注目度): 19.642481233488667
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the increase in the more fluent ad texts automatically created by natural language generation technology, it is in the high demand to verify the quality of these creatives in a real-world setting. We propose AdTEC, the first public benchmark to evaluate ad texts in multiple aspects from the perspective of practical advertising operations. Our contributions are: (i) Defining five tasks for evaluating the quality of ad texts and building a dataset based on the actual operational experience of advertising agencies, which is typically kept in-house. (ii) Validating the performance of existing pre-trained language models (PLMs) and human evaluators on the dataset. (iii) Analyzing the characteristics and providing challenges of the benchmark. The results show that while PLMs have already reached the practical usage level in several tasks, human still outperforms in certain domains, implying that there is significant room for improvement in such area.
- Abstract(参考訳): 自然言語生成技術によって自動生成されるより流動的な広告テキストの増加に伴い、これらの創造物の品質を現実の環境で検証する必要性が高まっている。
本稿では,広告キャンペーンの観点から,広告テキストを多面的に評価する最初の公開ベンチマークであるAdTECを提案する。
私たちの貢献は次のとおりです。
一 広告の質を評価し、広告代理店の実際の運用経験に基づくデータセットを構築するための五つのタスクを、通常社内に保管する。
二 既存の事前学習言語モデル(PLM)と人的評価器の性能をデータセット上で検証すること。
三 ベンチマークの特徴を分析し、課題を提供すること。
その結果, PLMはいくつかのタスクにおいてすでに実用レベルに達しているが, 特定の領域では人間の方が優れており, 改善の余地は大きいことが示唆された。
関連論文リスト
- Benchmarking pre-trained text embedding models in aligning built asset information [0.0]
本研究では、組立資産情報とドメイン固有の技術的概念の整合性を評価するため、最先端のテキスト埋め込みモデルの比較ベンチマークを提案する。
提案した6つのデータセットを対象としたベンチマークの結果は、クラスタリング、検索、再ランク付けの3つのタスクをカバーし、将来のドメイン適応技術の研究の必要性を強調している。
論文 参考訳(メタデータ) (2024-11-18T20:54:17Z) - What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - Recent advances in text embedding: A Comprehensive Review of Top-Performing Methods on the MTEB Benchmark [0.0]
MTEB(Massive Text Embedding Benchmark)におけるテキスト埋め込みの最高性能に着目したユニバーサルテキスト埋め込みモデルの進歩について概説する。
詳細な比較と分析を通じて、この分野における重要な貢献と限界を強調し、将来的な研究の方向性を示唆する。
論文 参考訳(メタデータ) (2024-05-27T09:52:54Z) - AutoAD III: The Prequel -- Back to the Pixels [96.27059234129788]
本稿では,映像データを用いたADデータセット構築のための2つのアプローチと,これを用いたトレーニングと評価データセットの構築を提案する。
我々は,凍結した事前学習されたビジュアルエンコーダと大規模言語モデルを用いて,生動画を取り込み,ADを生成するQ-formerベースのアーキテクチャを開発した。
人間のパフォーマンスによく適合したAD品質をベンチマークするために、新しい評価指標を提供する。
論文 参考訳(メタデータ) (2024-04-22T17:59:57Z) - Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation [5.3558730908641525]
本稿では,ATG のタスクを標準化するためのベンチマークデータセット CAMERA を提案する。
我々の実験は、現状と残りの課題を示している。
また、ATGの既存の指標とLLMに基づく評価器が人間の評価とどのように一致しているかについても検討する。
論文 参考訳(メタデータ) (2023-09-21T12:51:24Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - A Unified Knowledge Graph Augmentation Service for Boosting
Domain-specific NLP Tasks [10.28161912127425]
本稿では,ドメイン知識グラフを用いたタスク固有のトレーニング手順を強化するために,統合されたドメイン言語モデル開発サービスであるKnowledgeDAを提案する。
我々は、医療とソフトウェア開発という2つの分野の言語モデルを学ぶために、KnowledgeDAのプロトタイプを実装します。
論文 参考訳(メタデータ) (2022-12-10T09:18:43Z) - EditEval: An Instruction-Based Benchmark for Text Improvements [73.5918084416016]
編集機能の自動評価のためのインストラクションベース、ベンチマーク、評価スイートであるEditEvalを提示する。
InstructGPTとPEERが最良であることを示す事前学習モデルをいくつか評価するが,ほとんどのベースラインは教師付きSOTA以下である。
我々の分析は、タスクの編集によく使われるメトリクスが必ずしも相関しているとは限らないことを示し、最高の性能を持つプロンプトに対する最適化は、必ずしも異なるモデルに対して強い堅牢性を持つとは限らないことを示唆している。
論文 参考訳(メタデータ) (2022-09-27T12:26:05Z) - K-AID: Enhancing Pre-trained Language Models with Domain Knowledge for
Question Answering [8.772466918885224]
ドメイン知識を取得するための低コストな知識獲得プロセスを含む体系的アプローチであるK-AIDを提案する。
既存のK-PLMの大多数のようにエンティティ知識をキャプチャする代わりに、我々のアプローチはリレーショナル知識をキャプチャする。
筆者らは,Eコマース,政府,フィルム&TVの3分野から5つのテキスト分類タスクと3つのテキストマッチングタスクについて実験を行い,EコマースにおけるオンラインA/Bテストを実施した。
論文 参考訳(メタデータ) (2021-09-22T07:19:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。