論文の概要: Prominence-Stratified Failure Modes in Retrieval-Augmented Commercial Recommendation: A 37,000-Run Audit
- arxiv url: http://arxiv.org/abs/2605.27439v1
- Date: Fri, 22 May 2026 17:16:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.273988
- Title: Prominence-Stratified Failure Modes in Retrieval-Augmented Commercial Recommendation: A 37,000-Run Audit
- Title(参考訳): 検索型商業レコメンデーションにおけるプロミネンス抽出型故障モード:37,000ラン監査
- Authors: Will Jack, Noah Lehman, Keller Maloney, Sarah Xu,
- Abstract要約: ChatGPTとClaudeは検索エンジンではなくレコメンデーションエンジンである。
位置、内容、および製品は発見可能性と同じくらいに適合します。
したがって、AIへのマーケティングは「検索のショーアップ」よりも広い問題である
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI assistants like ChatGPT and Claude are recommendation engines, not search engines: they answer commercial queries by directly nominating brands rather than returning a list of links. Marketing to AI is therefore a broader problem than "show up in search" -- positioning, content, and product fit matter as much as discoverability. We audit ~37,000 production runs across four model configurations and 215 commercially-framed prompts spanning 19 sectors, evaluated against a 533-brand reference catalog stratified into five prominence tiers (L1 category leaders to L5 regional players) sourced from external authority lists. The ladder proxies a brand's awareness footprint within its sector, not revenue or market share. The failure mode differs sharply by tier. L1 brands appear in nearly every relevant retrieval but win only 25-41% of the recommendation slots they reach -- the leverage is differentiation, not visibility. L2 challengers carry the highest conversion rates of any tier (37-52%) but lose to persona-mediated substitution on the Anthropic models. L3 mid-market brands are the inflection level: aggregate coverage drops to 88%, conversion to 34-40%, and persona effects peak. L4 specialists and L5 regional players face catastrophic invisibility -- 48-52% never surface in any of the 37,000 runs. No uniform optimization recipe wins; the right marketing investment depends on where the brand sits on the prominence ladder.
- Abstract(参考訳): ChatGPTやClaudeといったAIアシスタントは、検索エンジンではなくレコメンデーションエンジンである。
したがって、AIへのマーケティングは、"検索で見上げる"ことよりも、より広い問題である -- 位置決め、コンテンツ、製品が発見可能性と同じくらいに適合する。
我々は、19のセクターにまたがる4つのモデル構成と215の商業的枠付きプロンプトで約37,000のプロダクションを監査し、外部の権威リストから5つの優位層(L1カテゴリリーダーからL5リージョンプレーヤまで)に階層化された533ブランドのリファレンスカタログに対して評価した。
このはしごは、売上やマーケットシェアではなく、ブランドのセクター内での認識のフットプリントをプロキシします。
障害モードは階層によって大きく異なる。
L1ブランドは、ほぼすべての関連する検索に表示されるが、彼らが到達したレコメンデーションスロットの25~41%しか獲得していない。
L2挑戦者は任意の階層の最も高い変換率(37-52%)を担っているが、人類学モデルにおけるペルソナによる置換に負ける。
L3中間市場ブランドは、総カバレッジが88%に減少し、34-40%に変換され、ペルソナ効果がピークとなる。
L4のスペシャリストやL5の選手は破滅的な視認性に直面している。
均一な最適化のレシピが勝つことはない。適切なマーケティング投資は、ブランドが優位に立つ場所に依存する。
関連論文リスト
- Step-wise Rubric Rewards for LLM Reasoning [72.17879367869503]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論を改善するために広く使われている。
正しい回答の18.2%は間違っているが、肯定的な報酬がある。
6つの数学的推論ベンチマークで、SRaRはRaRの平均精度を3.57ポイント改善した。
論文 参考訳(メタデータ) (2026-05-17T07:08:14Z) - Just Ask for a Table: A Thirty-Token User Prompt Defeats Sponsored Recommendations in Twelve LLMs [3.3709729420657655]
Wu et al. (2026) は、ほとんどのフロンティア大型言語モデル (LLM) が、システムのプロンプトがソフトなスポンサーシップキューを含む場合、ほぼ2倍の訓練飛行を推奨していることを示した。
オープンウェイトな10のチャットモデルと、現在まで到達可能な23のモデルのうち2つの評価を再現する。
本論文の報告率はすべて、原論文と同じ判断で作成される(gpt-4o)。
論文 参考訳(メタデータ) (2026-05-12T21:34:33Z) - Fill-Side Non-Retail Trading on Polymarket: An Empirical Study of Behavioral Tiers and Microstructure Signatures Under Quote-Attribution Constraints [0.0]
PolymarketのオフチェーンCLOBアーキテクチャは、アドレスレベルの属性を永久に利用できない。
経験的窓のフィルサイドの挙動は、6つの特徴ベクトルの下で一様である。
G-QUOTE-LIFEの失敗により、市場と流動性に関する主張は取り下げられた。
論文 参考訳(メタデータ) (2026-05-12T07:01:35Z) - Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs [86.49905745865038]
Soohakは64人の数学者によって新たに書かれた439プロブレムのベンチマークである。
データセットは2026年後半に公開され、中間で要求に応じてモデル評価が利用可能になる。
論文 参考訳(メタデータ) (2026-05-09T17:14:22Z) - Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous Supervised ML [1.373282478189168]
アリーナの52のLLMから116の言語で89Kの比較を行った。
決定的な投票の2/3近くはキャンセルされ、世界のブラッドリー・テリーランキングで上位50モデルでさえ統計的に区別できない。
例えば$(, )$-portfoliosというフレームワークを紹介します。これは予測エラーを最大$$, "covering" で達成するモデルの小さなセットです。
論文 参考訳(メタデータ) (2026-05-07T17:57:58Z) - The Inference Bottleneck: A Formal Model of Vertical Foreclosure in AI Markets [0.0]
生成AIが商用化するにつれて、競争上の優位性はモデルトレーニングから推論、分散、ルーティングへとシフトする。
本稿では,Besanson と Celani (2026) の形式モデルとして,推論市場における垂直フォアクロージャーの形式的ゲーム理論モデルを開発する。
モデルでは、レイテンシ、スループット、コンテキスト制限、機能アクセスによるダウンストリームライバルに対するQoS(Quality-of-Service)差別と、アシスタント層インターフェースにおけるルーティングバイアスの2つのフォアクロージャメカニズムを分離する。
論文 参考訳(メタデータ) (2026-04-19T13:23:34Z) - Cultural Encoding in Large Language Models: The Existence Gap in AI-Mediated Brand Discovery [0.0]
我々は6つの大言語モデル(LLM)と30のブランドにわたる1,909の純英語クエリを分析した。
中国のLLMは、国際LLMよりも30.6%高いブランド言及率を示している。
この格差は、同じ英語クエリで持続し、トレーニングデータジオグラフィック(言語ではなく)が影響を駆動していることを示している。
論文 参考訳(メタデータ) (2025-12-30T13:50:14Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。