論文の概要: JaccDiv: A Metric and Benchmark for Quantifying Diversity of Generated Marketing Text in the Music Industry
- arxiv url: http://arxiv.org/abs/2504.20849v1
- Date: Tue, 29 Apr 2025 15:19:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.95858
- Title: JaccDiv: A Metric and Benchmark for Quantifying Diversity of Generated Marketing Text in the Music Industry
- Title(参考訳): JaccDiv:音楽産業におけるマーケティングテキストの多様性の定量化のためのメトリクスとベンチマーク
- Authors: Anum Afzal, Alexandre Mercier, Florian Matthes,
- Abstract要約: 本稿では,マーケティングテキストの自動生成のためのデータ・テキスト・アプローチについて検討する。
T5, GPT-3.5, GPT-4, LLaMa2などの言語モデルと, 微調整, 少数ショット, ゼロショットのアプローチを併用する。
この研究は音楽産業を超えてその関連性を高め、様々な分野で有益であることが証明された。
- 参考スコア(独自算出の注目度): 47.76073133338117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online platforms are increasingly interested in using Data-to-Text technologies to generate content and help their users. Unfortunately, traditional generative methods often fall into repetitive patterns, resulting in monotonous galleries of texts after only a few iterations. In this paper, we investigate LLM-based data-to-text approaches to automatically generate marketing texts that are of sufficient quality and diverse enough for broad adoption. We leverage Language Models such as T5, GPT-3.5, GPT-4, and LLaMa2 in conjunction with fine-tuning, few-shot, and zero-shot approaches to set a baseline for diverse marketing texts. We also introduce a metric JaccDiv to evaluate the diversity of a set of texts. This research extends its relevance beyond the music industry, proving beneficial in various fields where repetitive automated content generation is prevalent.
- Abstract(参考訳): オンラインプラットフォームは、コンテンツを生成し、ユーザを助けるためにData-to-Text技術を使うことにますます関心を寄せている。
残念なことに、伝統的な生成法はしばしば反復的なパターンに陥り、わずか数回の反復で単調なテキストのギャラリーが作られる。
本稿では,LLMに基づくマーケティングテキストの自動生成手法について検討する。
T5, GPT-3.5, GPT-4, LLaMa2などの言語モデルと微調整, 少数ショット, ゼロショットのアプローチを併用して, 多様なマーケティングテキストのベースラインを設定する。
また,一連のテキストの多様性を評価するための指標JaccDivを導入する。
この研究は音楽産業を超えてその関連性を高め、反復的自動コンテンツ生成が普及する様々な分野において有益であることを示す。
関連論文リスト
- Robust and Fine-Grained Detection of AI Generated Texts [0.29569362468768806]
既存のシステムは、短いテキストよりもAI生成したコンテンツを正確に識別するのに苦労することが多い。
本稿では,トークン分類のタスクのために構築されたモデルについて紹介する。
また,23言語以上のプロプライエタリなLLMが主に共著する2.4M以上のテキストのデータセットも導入した。
論文 参考訳(メタデータ) (2025-04-16T10:29:30Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - Recent advances in text embedding: A Comprehensive Review of Top-Performing Methods on the MTEB Benchmark [0.0]
MTEB(Massive Text Embedding Benchmark)におけるテキスト埋め込みの最高性能に着目したユニバーサルテキスト埋め込みモデルの進歩について概説する。
詳細な比較と分析を通じて、この分野における重要な貢献と限界を強調し、将来的な研究の方向性を示唆する。
論文 参考訳(メタデータ) (2024-05-27T09:52:54Z) - Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation [5.3558730908641525]
本稿では,ATG のタスクを標準化するためのベンチマークデータセット CAMERA を提案する。
我々の実験は、現状と残りの課題を示している。
また、ATGの既存の指標とLLMに基づく評価器が人間の評価とどのように一致しているかについても検討する。
論文 参考訳(メタデータ) (2023-09-21T12:51:24Z) - A Benchmark for Text Expansion: Datasets, Metrics, and Baselines [87.47745669317894]
本研究はテキスト拡張(TE)の新たな課題として,平文の適切な位置に細粒度修飾子を挿入することを目的とする。
補完的な4つのアプローチを活用して、1200万の自動生成インスタンスと2Kの人間注釈付き参照を持つデータセットを構築します。
事前訓練されたテキストインフィルモデルの上にパイプラインと共同でLocate&Infillモデルを構築し、Text2Textベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T07:54:38Z) - Teach LLMs to Personalize -- An Approach inspired by Writing Education [37.198598706659524]
大規模言語モデル(LLM)を用いたパーソナライズされたテキスト生成のための汎用的アプローチを提案する。
書字教育の実践に触発されて、パーソナライズされた世代にLLMを教えるためのマルチステージ・マルチタスク・フレームワークを開発した。
論文 参考訳(メタデータ) (2023-08-15T18:06:23Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - A Survey of Pretrained Language Models Based Text Generation [97.64625999380425]
テキスト生成は、入力データから人間の言語で可読で読みやすいテキストを生成することを目的としている。
ディープラーニングは、ニューラルジェネレーションモデル、特に事前学習言語モデル(PLM)のパラダイムにより、この分野を大幅に進歩させた。
PLM上でのテキスト生成は、学術と産業の両方において有望な方向と見なされている。
論文 参考訳(メタデータ) (2022-01-14T01:44:58Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Text Data Augmentation: Towards better detection of spear-phishing
emails [1.6556358263455926]
社内の英語テキストを増強するためのコーパスとタスク拡張フレームワークを提案する。
提案手法は,BERT言語モデル,多段階のバックトランスレーション,アグノシクスなど,様々な手法を組み合わせる。
本研究では,公開モデルとコーパスを用いて,テキスト分類タスクの性能向上を図っている。
論文 参考訳(メタデータ) (2020-07-04T07:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。