論文の概要: CAMERA: A Multimodal Dataset and Benchmark for Ad Text Generation
- arxiv url: http://arxiv.org/abs/2309.12030v1
- Date: Thu, 21 Sep 2023 12:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 15:17:21.121757
- Title: CAMERA: A Multimodal Dataset and Benchmark for Ad Text Generation
- Title(参考訳): CAMERA: 広告テキスト生成のためのマルチモーダルデータセットとベンチマーク
- Authors: Masato Mita, Soichiro Murakami, Akihiko Kato, Peinan Zhang
- Abstract要約: 本稿では、再設計されたタスクを導入し、ベンチマークを構築することにより、自動広告テキスト生成(ATG)の分野を推し進めることを目的とする。
我々は、ATGをインターネット広告の様々な側面を含むアプリケーション横断タスクとして定義する。
コントリビューションの一環として、広告テキスト生成のためのCA Multimodal Evaluation for Ad Text GeneRAtion (CAMERA) という、最初のベンチマークデータセットを提案する。
- 参考スコア(独自算出の注目度): 5.850906588469643
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In response to the limitations of manual online ad production, significant
research has been conducted in the field of automatic ad text generation (ATG).
However, comparing different methods has been challenging because of the lack
of benchmarks encompassing the entire field and the absence of well-defined
problem sets with clear model inputs and outputs. To address these challenges,
this paper aims to advance the field of ATG by introducing a redesigned task
and constructing a benchmark. Specifically, we defined ATG as a
cross-application task encompassing various aspects of the Internet
advertising. As part of our contribution, we propose a first benchmark dataset,
CA Multimodal Evaluation for Ad Text GeneRAtion (CAMERA), carefully designed
for ATG to be able to leverage multi-modal information and conduct an
industry-wise evaluation. Furthermore, we demonstrate the usefulness of our
proposed benchmark through evaluation experiments using multiple baseline
models, which vary in terms of the type of pre-trained language model used and
the incorporation of multi-modal information. We also discuss the current state
of the task and the future challenges.
- Abstract(参考訳): 手動オンライン広告制作の限界に対応するため、自動広告テキスト生成(ATG)分野において重要な研究が行われている。
しかし、フィールド全体を包含するベンチマークの欠如と、明確なモデル入力と出力を持つ明確な問題セットの欠如により、異なる手法の比較は困難である。
これらの課題に対処するため,本論文では,再設計タスクを導入し,ベンチマークを構築することにより,ATGの分野を推し進めることを目的とする。
具体的には、ATGをインターネット広告の様々な側面を含むアプリケーション横断タスクと定義した。
本稿では,広告テキスト生成のためのCA Multimodal Evaluation for Ad Text GeneRAtion (CAMERA) というベンチマークデータセットを提案する。
さらに,複数のベースラインモデルを用いた評価実験により,提案手法の有効性を実証した。
また,課題の現状と今後の課題についても考察する。
関連論文リスト
- Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。
これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文 参考訳(メタデータ) (2024-04-10T16:44:11Z) - Meta-Task Prompting Elicits Embedding from Large Language Models [57.50329659098592]
本稿では,新しい教師なし埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを提案する。
モデル微調整やタスク固有のエンジニアリングを必要とせずに、大規模言語モデルから高品質な文の埋め込みを生成する。
実験により, 各種メタタスクから平均化された埋め込みは, セマンティックテキスト類似度ベンチマーク上での競合性能を示すことを示した。
本研究は, 埋込抽出のための多用途, 資源効率のよい手法を提供する, 埋込生成のための新しいスケーリング法則を示唆する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented
Generation of Large Language Models [55.47070014913373]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Document Understanding Dataset and Evaluation (DUDE) [29.78902147806488]
文書理解データセットと評価(DUDE)は、視覚に富む文書(VRD)の理解において、研究の進展が止まったことを改善しようとしている。
我々は,様々な起源と日付の多産業,多ドメイン,多ページVRDに基づく,質問の種類,回答,文書レイアウトに関する新しいデータセットを提案する。
論文 参考訳(メタデータ) (2023-05-15T08:54:32Z) - On the Hidden Mystery of OCR in Large Multimodal Models [133.09809647230475]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
我々の研究は29のデータセットを含んでおり、最も包括的なOCR評価ベンチマークが利用可能になっている。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Multi-Modal Experience Inspired AI Creation [15.780729577587673]
シーケンシャルなマルチモーダル情報に基づいてテキストを生成する方法について検討する。
まず,マルチモーダルアテンションネットワークを備えたマルチチャネルシーケンス・ツー・シーケンスアーキテクチャを設計する。
次に、逐次入力に適したカリキュラム負サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-02T11:50:41Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Logically at the Factify 2022: Multimodal Fact Verification [2.8914815569249823]
本稿では,AAAI 2022におけるマルチモーダル事実検証(Factify)課題の参加者システムについて述べる。
アンサンブルモデルとマルチモーダルアテンションネットワークを含む2つのベースラインアプローチを提案し,検討した。
我々の最良モデルは、検証セットとテストセットの両方において、重み付き平均F値が0.77となるリーダーボードで第1位にランクされている。
論文 参考訳(メタデータ) (2021-12-16T23:34:07Z) - MELINDA: A Multimodal Dataset for Biomedical Experiment Method
Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。
データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。
キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文 参考訳(メタデータ) (2020-12-16T19:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。