Fugu-MT 論文翻訳(概要): Creativity Benchmark: A benchmark for marketing creativity for large language models

論文の概要: Creativity Benchmark: A benchmark for marketing creativity for large language models

arxiv url: http://arxiv.org/abs/2509.09702v2
Date: Sun, 19 Oct 2025 23:04:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-25 00:56:38.551306
Title: Creativity Benchmark: A benchmark for marketing creativity for large language models
Title（参考訳）: Creativity Benchmark: 大規模言語モデルのマーケティングクリエイティビティのためのベンチマーク
Authors: Ninad Bhat, Kieran Browne, Pip Bingemann,
Abstract要約: Creativity Benchmarkは、マーケティングのクリエイティビティにおける大規模言語モデル(LLM)の評価フレームワークである。このベンチマークは100のブランド(12のカテゴリ)と3つのプロンプトタイプ(Insights, Ideas, Wild Ideas)をカバーする。
参考スコア（独自算出の注目度）: 0.509780930114934
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Creativity Benchmark, an evaluation framework for large language models (LLMs) in marketing creativity. The benchmark covers 100 brands (12 categories) and three prompt types (Insights, Ideas, Wild Ideas). Human pairwise preferences from 678 practising creatives over 11,012 anonymised comparisons, analysed with Bradley-Terry models, show tightly clustered performance with no model dominating across brands or prompt types: the top-bottom spread is $\Delta\theta \approx 0.45$, which implies a head-to-head win probability of $0.61$; the highest-rated model beats the lowest only about $61\%$ of the time. We also analyse model diversity using cosine distances to capture intra- and inter-model variation and sensitivity to prompt reframing. Comparing three LLM-as-judge setups with human rankings reveals weak, inconsistent correlations and judge-specific biases, underscoring that automated judges cannot substitute for human evaluation. Conventional creativity tests also transfer only partially to brand-constrained tasks. Overall, the results highlight the need for expert human evaluation and diversity-aware workflows.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)の評価フレームワークであるCreative Benchmarkをマーケティングのクリエイティビティに導入する。ベンチマークには100のブランド(12のカテゴリ)と3つのプロンプトタイプ(Insights, Ideas, Wild Ideas)が含まれている。 11,012以上の匿名化比較を実践する678人の人間による選好は、Bradley-Terryモデルで分析され、ブランドやプロンプトタイプで支配的なモデルが存在しない、密集したパフォーマンスを示している。また,コサイン距離を用いてモデルの多様性を分析し,モデル内およびモデル間の変化と感度を捉えて再フレーミングを促進する。 3つのLCM-as-judgeセットアップと人間のランクを比較すると、弱い、一貫性のない相関関係と判断固有のバイアスが示され、自動化された審査員が人間の評価に代わることができないことを強調している。従来の創造性テストは、部分的に制限されたタスクにのみ移行する。全体としての結果は、専門家による評価と多様性を意識したワークフローの必要性を強調している。

関連論文リスト

MentorCollab: Selective Large-to-Small Inference-Time Guidance for Efficient Reasoning [85.05204262206296]
大きな推論モデル(LRM)は、長い思考の連鎖を生成することによって、強い性能を達成するが、その推論コストは高い。小型言語モデル(SLM)はより効率的であるが、多段階推論タスクでは困難である。本研究では, LRM が SLM を選択的かつ簡潔にガイドする推論時協調手法である MentorCollab を提案する。
論文参考訳（メタデータ） (2026-02-05T04:58:16Z)
SAGE: A Realistic Benchmark for Semantic Understanding [9.688555356614044]
SAGE(Semantic Alignment & Generalization Evaluation)は,埋め込みモデルと類似度指標の両方を評価するための厳密なベンチマークである。 9つの埋め込みモデルと古典的なメトリクスを総合的に評価すると、大きなパフォーマンスのギャップが明らかになる。 OpenAI のtext-embedding-3-small が最も高いクラスタリング性能 (0.483) を達成するが、最低ロバストネススコア (0.011) で極端に脆さを示す。
論文参考訳（メタデータ） (2025-09-25T15:27:15Z)
The NazoNazo Benchmark: A Cost-Effective and Extensible Test of Insight-Based Reasoning in LLMs [3.9977256267361754]
そこで本研究では,日本人児童のライドルから構築した費用効果評価指標であるNazonazoについて紹介する。 GPT-5以外のモデルは人間の性能に匹敵せず、平均精度は52.9%である。
論文参考訳（メタデータ） (2025-09-18T07:50:04Z)
A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks [0.0]
信頼性の多様性の校正は、アクセス可能なコーディングタスクの品質評価フレームワークである。 8つの最先端のLCMから5,680のコーディング決定を分析すると、自信はモデル間の合意を密接に追跡する。
論文参考訳（メタデータ） (2025-08-04T03:47:10Z)
Large Language Models Often Know When They Are Being Evaluated [0.015534429177540245]
そこで本研究では,フロンティア言語モデルを用いて,評価や実世界の展開に起因した書き起こしを正確に分類できるかどうかを検討する。我々は61の異なるデータセットから1000のプロンプトと書き起こしのベンチマークを構築した。以上の結果から,フロンティアモデルにはまだ評価・認識レベルがかなり高いことが示唆された。
論文参考訳（メタデータ） (2025-05-28T12:03:09Z)
Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文参考訳（メタデータ） (2025-05-20T21:12:58Z)
Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models [82.92771279118888]
マルチモーダル報酬モデルを評価するためのエキスパートアノテートベンチマークであるMultimodal RewardBenchを紹介する。我々のデータセットは、様々な視覚言語モデルから収集された5,211個の注釈付き(プロンプト、選択された応答、拒否された応答)三つ子からなる。 Gemini 1.5 ProやClaude 3.5 Sonnetといったトップパフォーマンスモデルでさえ、全体的な精度は72%に過ぎません。
論文参考訳（メタデータ） (2025-02-20T01:48:13Z)
Do LLMs Agree on the Creativity Evaluation of Alternative Uses? [0.4326762849037007]
本稿では,大規模言語モデル (LLM) が,代替利用テスト (AUT) への対応において,創造性を評価することに合意しているかどうかを検討する。 AUT応答のオラクルベンチマークセットを用いて、これらの出力を評価する4つの最先端LCMを実験した。その結果、モデル間の高い合意が示され、スピアマンの相関はモデル全体で0.7以上、オラクルに関して0.77以上に達している。
論文参考訳（メタデータ） (2024-11-23T13:34:50Z)
Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models [61.467781476005435]
集約精度を検査する際には、スキルワイドのパフォーマンスが不明確になる。モデル生成論理を検査することで,任意の評価事例に関連する基礎的スキルを復元する自動手法を提案する。私たちのスキルスライスとフレームワークは、モデル評価の新しい道を開き、スキル固有の分析を活用して、よりきめ細やかで実用的なモデル機能の理解を解き放ちます。
論文参考訳（メタデータ） (2024-10-17T17:51:40Z)
Self-rationalization improves LLM as a fine-grained judge [21.917301609125417]
本稿では,判断モデルの合理性を改善する反復的プロセスである自己帰納化を導入する。自己合理化は、モデルが同じ入力に対して合理性を持つ複数の判断を生成させることで機能する。我々のモデルは、SFTで訓練されたモデルと比較して平均62%の利益率で、より高い品質の合理性を生み出すことを学習している。
論文参考訳（メタデータ） (2024-10-07T21:05:53Z)
Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文参考訳（メタデータ） (2024-08-05T17:57:02Z)
WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild [57.272096543738336]
WildBenchは、大規模言語モデル(LLM)のベンチマーク用に設計された自動評価フレームワークである。 WildBenchは、100万以上の人間チャットボットの会話ログから慎重に選択された1,024のタスクで構成されている。 We have developed two metrics, WB-Reward and WB-Score which are computeable using Advanced LLMs。
論文参考訳（メタデータ） (2024-06-07T09:15:44Z)
Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文参考訳（メタデータ） (2024-04-02T16:25:30Z)
AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。 3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文参考訳（メタデータ） (2020-01-15T18:32:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。