論文の概要: Machine Generated Product Advertisements: Benchmarking LLMs Against Human Performance
- arxiv url: http://arxiv.org/abs/2412.19610v1
- Date: Fri, 27 Dec 2024 12:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:27:02.967966
- Title: Machine Generated Product Advertisements: Benchmarking LLMs Against Human Performance
- Title(参考訳): マシン生成製品: LLMを人間のパフォーマンスに対してベンチマークする
- Authors: Sanjukta Ghosh,
- Abstract要約: 本研究は,多面的評価モデルを用いて,AIによる製品記述と人手による製品記述の性能を比較した。
我々は、4つのAIモデルによって生成された100の製品について、サンプル記述と非サンプル記述による記述を、人間による記述に対して分析する。
その結果,ChatGPT 4が最高性能を示した。
- 参考スコア(独自算出の注目度): 0.6091702876917279
- License:
- Abstract: This study compares the performance of AI-generated and human-written product descriptions using a multifaceted evaluation model. We analyze descriptions for 100 products generated by four AI models (Gemma 2B, LLAMA, GPT2, and ChatGPT 4) with and without sample descriptions, against human-written descriptions. Our evaluation metrics include sentiment, readability, persuasiveness, Search Engine Optimization(SEO), clarity, emotional appeal, and call-to-action effectiveness. The results indicate that ChatGPT 4 performs the best. In contrast, other models demonstrate significant shortcomings, producing incoherent and illogical output that lacks logical structure and contextual relevance. These models struggle to maintain focus on the product being described, resulting in disjointed sentences that do not convey meaningful information. This research provides insights into the current capabilities and limitations of AI in the creation of content for e-Commerce.
- Abstract(参考訳): 本研究では,多面的評価モデルを用いて,AIによる製品記述と人手による製品記述の性能を比較した。
我々は,4つのAIモデル(Gemma 2B, LLAMA, GPT2, ChatGPT 4)が生成する100の製品について,サンプル記述の有無に関わらず,人文記述に対して記述する。
評価指標は、感情、可読性、説得性、検索エンジン最適化(SEO)、明快さ、感情的魅力、コール・ツー・アクションの有効性である。
その結果,ChatGPT 4が最高性能を示した。
対照的に、他のモデルは重要な欠点を示し、論理構造と文脈的関連性に欠ける非一貫性と非論理的出力を生み出している。
これらのモデルは、説明される製品に焦点を合わせるのに苦労し、結果として意味のある情報を伝達しない解離した文をもたらす。
この研究は、eコマースのためのコンテンツ作成におけるAIの現在の能力と限界に関する洞察を提供する。
関連論文リスト
- Self-Rationalization in the Wild: A Large Scale Out-of-Distribution Evaluation on NLI-related tasks [59.47851630504264]
自由文の説明は表現力があり理解しやすいが、多くのデータセットには注釈付き説明データがない。
我々は、T5-LargeモデルとOLMo-7Bモデルを微調整し、微調整データ品質、微調整サンプル数、少数ショット選択方法の影響を評価した。
モデルは、自然言語推論(NLI)、ファクトチェック、抽象的な要約における幻覚検出の3つのタスクにまたがる19の多様なOODデータセットで評価される。
論文 参考訳(メタデータ) (2025-02-07T10:01:32Z) - Self-Refinement Strategies for LLM-based Product Attribute Value Extraction [51.45146101802871]
本稿では,製品属性値抽出タスクに2つの自己補充手法を適用した。
実験の結果, 2つの自己補充技術は, 処理コストを大幅に増大させながら, 抽出性能を著しく向上させることができないことがわかった。
開発データを持つシナリオでは、ファインチューニングが最もパフォーマンスが高いのに対して、ファインチューニングの上昇コストは製品記述の量が増加するにつれてバランスがとれる。
論文 参考訳(メタデータ) (2025-01-02T12:55:27Z) - Adventures in Demand Analysis Using AI [6.620286064724573]
本稿では、人工知能(AI)から派生した多モード製品表現を統合することで、経験的需要分析を推し進める。
われわれは、Amazon.comのテキスト上でおもちゃ車の詳細なデータセットを使用して、トランスフォーマーベースの埋め込みモデルを使用して各製品を表現する。
得られた埋め込みにより,販売ランクと価格の予測精度が大幅に向上し,価格弾力性の信頼性の高い因果推定が導かれることを示す。
論文 参考訳(メタデータ) (2024-12-31T10:33:10Z) - Beyond Turing Test: Can GPT-4 Sway Experts' Decisions? [14.964922012236498]
本稿では,生成したテキストが読者の判断にどう影響するかを,アマチュアと専門家の両方に焦点をあてる。
以上の結果から,GPT-4はアマチュアとプロの双方の意思決定に影響を及ぼす説得的分析を生ずる可能性が示唆された。
その結果、観客反応による実世界評価と、生成モデルによく用いられる現在の多次元評価器との間に高い相関関係が示された。
論文 参考訳(メタデータ) (2024-09-25T07:55:36Z) - Tell Me Why: Explainable Public Health Fact-Checking with Large Language Models [21.280725490520798]
本稿では,大規模言語モデルによる公衆衛生クレームの検証に焦点をあてる。
各種オープンおよびクローズドソースモデルにおける0/fwショットプロンプトとパラメータ効率の微調整の有効性について検討する。
論文 参考訳(メタデータ) (2024-05-15T15:49:06Z) - Assisting humans in complex comparisons: automated information comparison at scale [0.0]
抽象要約と基準駆動比較(ASC$2$End)システムを開発した。
本システムでは,セマンティックテキスト類似性比較を用いてエビデンス支援分析を生成する。
プロンプトはゼロショット戦略を用いて設計され、モデル推論を改善した。
論文 参考訳(メタデータ) (2024-04-05T18:44:54Z) - AiGen-FoodReview: A Multimodal Dataset of Machine-Generated Restaurant
Reviews and Images on Social Media [57.70351255180495]
AiGen-FoodReviewは、20,144のレストランレビューイメージペアからなるデータセットである。
FLAVAで99.80%のマルチモーダル精度を達成し,一様・多モーダル検出モデルについて検討する。
この論文は、データセットをオープンソース化し、偽レビュー検出装置を公開し、非モーダルかつマルチモーダルな偽レビュー検出タスクでの使用を推奨し、合成データと真正データにおける言語的特徴と視覚的特徴を評価することで貢献する。
論文 参考訳(メタデータ) (2024-01-16T20:57:36Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - Mining customer product reviews for product development: A summarization
process [0.7742297876120561]
本研究は、顧客の好みや嫌いに関連する言葉や表現をオンラインレビューから識別し、構造化し、製品開発を指導することを目的としている。
著者らは,製品価格,感情,使用状況など,ユーザの嗜好の多面性を含む要約モデルを提案する。
ケーススタディでは、提案したモデルとアノテーションガイドラインにより、人間のアノテーションは、高信頼度でオンラインレビューを構造化できることを示した。
論文 参考訳(メタデータ) (2020-01-13T13:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。