論文の概要: Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation
- arxiv url: http://arxiv.org/abs/2309.12030v2
- Date: Mon, 17 Jun 2024 06:37:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 12:40:27.997067
- Title: Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation
- Title(参考訳): 広告における金のストライク:広告テキスト生成の標準化と探索
- Authors: Masato Mita, Soichiro Murakami, Akihiko Kato, Peinan Zhang,
- Abstract要約: 本稿では,ATG のタスクを標準化するためのベンチマークデータセット CAMERA を提案する。
我々の実験は、現状と残りの課題を示している。
また、ATGの既存の指標とLLMに基づく評価器が人間の評価とどのように一致しているかについても検討する。
- 参考スコア(独自算出の注目度): 5.3558730908641525
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In response to the limitations of manual ad creation, significant research has been conducted in the field of automatic ad text generation (ATG). However, the lack of comprehensive benchmarks and well-defined problem sets has made comparing different methods challenging. To tackle these challenges, we standardize the task of ATG and propose a first benchmark dataset, CAMERA, carefully designed and enabling the utilization of multi-modal information and facilitating industry-wise evaluations. Our extensive experiments with a variety of nine baselines, from classical methods to state-of-the-art models including large language models (LLMs), show the current state and the remaining challenges. We also explore how existing metrics in ATG and an LLM-based evaluator align with human evaluations.
- Abstract(参考訳): 手動広告作成の限界に対応するため、自動広告テキスト生成(ATG)分野において重要な研究がなされている。
しかし、包括的なベンチマークと明確に定義された問題セットの欠如は、異なる方法の比較を困難にしている。
これらの課題に対処するため、ATGのタスクを標準化し、マルチモーダル情報の利用を慎重に設計し、産業的評価を容易にする第1のベンチマークデータセットであるCAMERAを提案する。
従来の手法から,大規模言語モデル(LLM)を含む最先端モデルまで,9つのベースラインによる広範な実験は,現状と今後の課題を示している。
また、ATGの既存の指標とLLMに基づく評価器が人間の評価とどのように一致しているかについても検討する。
関連論文リスト
- Towards Better Open-Ended Text Generation: A Multicriteria Evaluation Framework [0.1979158763744267]
オープンエンドテキスト生成は自然言語処理において顕著な課題となっている。
復号法は、いくつかの指標で優れ、他の指標では性能が劣ることが多い。
本稿では,この多基準フレームワークにおける新たなランキング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-24T11:32:01Z) - Optimizing and Evaluating Enterprise Retrieval-Augmented Generation (RAG): A Content Design Perspective [0.0]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を使用して顧客支援の質問応答ソリューションを構築するための一般的なテクニックである。
本稿では,モジュール性とモデルに依存しないソリューション戦略に焦点を当てる。
論文 参考訳(メタデータ) (2024-10-01T03:54:45Z) - Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。
本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。
我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文 参考訳(メタデータ) (2024-07-04T16:41:08Z) - Recent advances in text embedding: A Comprehensive Review of Top-Performing Methods on the MTEB Benchmark [0.0]
MTEB(Massive Text Embedding Benchmark)におけるテキスト埋め込みの最高性能に着目したユニバーサルテキスト埋め込みモデルの進歩について概説する。
詳細な比較と分析を通じて、この分野における重要な貢献と限界を強調し、将来的な研究の方向性を示唆する。
論文 参考訳(メタデータ) (2024-05-27T09:52:54Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - Improving Tagging Consistency and Entity Coverage for Chemical
Identification in Full-text Articles [17.24298646089662]
本論文は,BioCreative VII Track 2 チャレンジの化学識別タスクに提案されたシステムに関する技術的報告である。
タグの一貫性とエンティティカバレッジを様々な手法で改善することを目的としている。
課題の公式評価では,ベースラインモデルを大幅に上回り,NERでは1位にランクインした。
論文 参考訳(メタデータ) (2021-11-20T13:13:58Z) - Automatic Construction of Evaluation Suites for Natural Language
Generation Datasets [17.13484629172643]
我々は、制御された摂動を生成し、テキストからスカラー、テキストからテキストへ、あるいはデータからテキストへ設定したサブセットを識別するフレームワークを開発する。
80個のチャレンジセットからなる評価スイートを提案し、現在の世代モデルの限界に光を当てることを可能にした分析の種類を実証する。
論文 参考訳(メタデータ) (2021-06-16T18:20:58Z) - The GEM Benchmark: Natural Language Generation, its Evaluation and
Metrics [66.96150429230035]
我々は、自然言語生成(NLG)のための生きたベンチマークであるGEM、その評価、およびメトリクスを紹介する。
ベンチマークの定期的なアップデートにより、NLGの研究はより多言語化され、モデルとともに課題を進化させる。
論文 参考訳(メタデータ) (2021-02-02T18:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。