論文の概要: Can LLMs Think Like Consumers? Benchmarking Crowd-Level Reaction Reconstruction with ConsumerSimBench
- arxiv url: http://arxiv.org/abs/2605.17079v1
- Date: Sat, 16 May 2026 16:55:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.599069
- Title: Can LLMs Think Like Consumers? Benchmarking Crowd-Level Reaction Reconstruction with ConsumerSimBench
- Title(参考訳): LLMは消費者のように見えるか?ConsumerSimBenchによるクラウドレベルリアクションのベンチマーク
- Authors: Tianyu Wang, Jiajun Li, Jianghao Lin,
- Abstract要約: このベンチマークは、1,553の中国のソーシャルメディアトピックと23,122のアトミックなルール監査基準から構築されている。
包括的選好判断でオープンエンド世代を評価するのではなく、ConsumerSimBenchは各タスクを具体的な反応点に対する監査可能なイエスノー決定に分解する。
- 参考スコア(独自算出の注目度): 19.108409101323605
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLMs are increasingly used as ``digital consumers'' to simulate public opinion, pre-test marketing decisions, and anticipate audience response. However, existing evaluations rarely ask whether a model can reconstruct the concrete reaction patterns that real consumers surface in public discourse. We introduce ConsumerSimBench, a benchmark built from 1,553 real Chinese social-media topics and 23,122 atomic, rule-audited criteria spanning four reaction families. Rather than scoring open-ended generations with a holistic preference judge, ConsumerSimBench decomposes each task into auditable yes-no decisions over concrete reaction points, raising three-judge agreement from 65.8% to 92.1% with 98.4% agreement between pointwise judge decisions and human-majority labels. Across 13 frontier generators, the strongest model, Gemini-3.1-Pro, covers only 47.8% of real reaction criteria, while GPT-5.2 and Claude-4.6 trail far behind despite their strength on technical benchmarks. The failures reveal a sharp gap between technical-benchmark performance and socially grounded consumer intuition. A direct structured reasoning prompt decreases coverage, while a generate--reflect multi-agent pipeline improves MiMo-V2.5-Pro from 32.9% to 37.6% on a subset. ConsumerSimBench reframes consumer simulation as a forecasting problem over real public-discourse reactions, showing that frontier LLMs remain far from reliably predicting what consumers will actually care about in high-context Chinese consumer discourse.
- Abstract(参考訳): LLMは、世論をシミュレートし、マーケティング決定を事前テストし、聴衆の反応を期待するために「デジタル消費者」として使われるようになっている。
しかし、既存の評価では、実際の消費者が公衆の言論で表す具体的な反応パターンをモデルが再構築できるかどうかを問うことは稀である。
このベンチマークは、1,553の中国のソーシャルメディアトピックと23,122のアトミックなルール監査基準から構築され、4つのリアクションファミリにまたがるベンチマークである。
消費者シムベンチは、包括的選好判断でオープンエンド世代を採点する代わりに、各タスクを具体的な反応点に対する監査可能なイエスノー決定に分解し、3つのジャッジ合意を65.8%から92.1%に引き上げ、ポイントワイド判断とヒューマンマジョリティラベルの98.4%の合意を得た。
最強のジェミニ-3.1-Proである13基のフロンティア・ジェネレータは、実際の反応基準の47.8%しかカバーしていないが、GPT-5.2とクロード-4.6は技術ベンチマークの強さにもかかわらずはるかに遅れている。
この失敗は、技術的ベンチマークのパフォーマンスと、社会的に根ざした消費者の直感の間に大きなギャップをあけている。
直接構造推論はカバー範囲を減少させ、生成-反射型マルチエージェントパイプラインはMiMo-V2.5-Proを32.9%から37.6%に改善する。
ConsumerSimBenchは、消費者のシミュレーションを実際の公開談話に対する予測問題と再定義し、フロンティアのLSMは、消費者が高文脈の中国の消費者談話で実際に何を気にかけるかを確実に予測するには程遠いことを示している。
関連論文リスト
- ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation [33.09732020656996]
ストックレコメンデーションのためのベンチマークであるConv-FinReを導入する。
我々は、実際の市場データと人間の意思決定軌跡からベンチマークを構築し、制御されたアドバイザリー会話をインスタンス化し、最先端のLCMのスイートを評価する。
その結果、合理的な意思決定品質と行動整合性の持続的な緊張が明らかとなった。
論文 参考訳(メタデータ) (2026-02-19T01:29:50Z) - Extracting Consumer Insight from Text: A Large Language Model Approach to Emotion and Evaluation Measurement [4.500361771169933]
本稿では,LX(Linguistic eXtractor)について紹介する。
LXは、GPT-4 Turbo、RoBERTa、DeepSeekなど、主要なモデルより一貫して優れている。
オンライン小売データへのLXの適用は、一見無関係な回帰を用いて、レビューされた感情が製品の評価を予測することを裏付けている。
論文 参考訳(メタデータ) (2026-02-17T02:33:51Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - LLMs Reproduce Human Purchase Intent via Semantic Similarity Elicitation of Likert Ratings [0.6191452847168736]
大規模言語モデル(LLM)は、合成消費者をシミュレートする代替手段を提供するが、数値評価を直接要求すると非現実的な応答分布を生成する。
本稿では,LLMからテキスト応答を抽出し,これらをLikert分布にマッピングする意味的類似度評価(SSR)を提案する。
このフレームワークは、従来の調査メトリクスと解釈可能性を維持しながら、スケーラブルな消費者調査シミュレーションを可能にする。
論文 参考訳(メタデータ) (2025-10-09T15:24:48Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。