論文の概要: Persona Conditioning of Brand Recommendations in Retrieval-Augmented Commercial Chat: A Prominence-Stratified Cross-Provider Audit
- arxiv url: http://arxiv.org/abs/2605.30207v1
- Date: Thu, 28 May 2026 16:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.545673
- Title: Persona Conditioning of Brand Recommendations in Retrieval-Augmented Commercial Chat: A Prominence-Stratified Cross-Provider Audit
- Title(参考訳): 検索型商業チャットにおけるブランド推薦のパーソナライズ--特筆すべきクロスプロバイダ監査
- Authors: Will Jack, Noah Lehman, Keller Maloney, Sarah Xu,
- Abstract要約: モデルが推奨するブランドの状況変化がどれほど強く影響するかを監査します。
監査サンプル2,000は、10のペルソナ x 8 の設計空間上で実行され、x 3 モデル構成 x N=10 のレポジトリがプロンプトされる。
AIブランドの認識のあらゆる測定は、クエリを提供する購入者ペルソナに条件を定めなければならない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The same prompt -- "best CRM software" -- reaches AI assistants from buyers in widely different contexts: a solo founder, an enterprise VP, a UK SMB owner. We audit how strongly that contextual variation reshapes which brands the model recommends. The audit samples 2,000 runs over a design space of 10 personas x 8 prompts x 3 model configurations x N=10 reps, with the two OpenAI cells at full 8-prompt coverage and the Anthropic sonnet-4.6 / low cell at 4-prompt coverage. Prefixing the user message with a persona drops the recommendation-set similarity (Jaccard) by Delta = -0.12 to -0.20 relative to a same-persona baseline (clustered 95% CIs exclude zero on all three measured cells; the sonnet cell's CI rests on only 4 prompt clusters and is correspondingly wider). The effect is sharply prominence-stratified: category leaders are persona-resistant (~80% same-brand consistency across personas), but mid-market brands swap up to 75% of the recommendation set as the persona changes. The Anthropic model shows a larger point-estimate effect than the OpenAI configurations, though clustered CIs overlap for the closer contrast (sonnet vs. OpenAI/high); the asymmetry is consistent with Anthropic's more retrieval-unattributed generation route (43-52% recommendations without observed retrieval-layer evidence, vs OpenAI's 8-29%, documented in Jack 2026). Any measurement of AI brand perception must condition on the buyer persona supplying the query: the same prompt produces materially different recommendation sets depending on who the model thinks is asking, and a measurement protocol that aggregates across personas systematically obscures that variation. The effect concentrates at mid-market and is largest on the most priors-reliant generation route in our audit, consistent with persona responsiveness growing as models lean more on training-data priors and richer context integration.
- Abstract(参考訳): 同じプロンプト — "最高のCRMソフトウェア" — は、独立した創業者、エンタープライズバイスプレジデント、英国のSMBオーナーなど、幅広い状況の購入者からAIアシスタントに到達している。
モデルが推奨するブランドの状況変化がどれほど強く影響するかを監査します。
監査サンプル 2,000 は 10 個のペルソナ x 8 の設計空間上で動作し、x 3 モデルの構成を x N=10 の担当者に促し、2つの OpenAI セルは 8-prompt のカバレッジで、4-prompt のthonnet-4.6 / 低セルは 4-prompt のカバレッジで実行される。
ユーザメッセージをペルソナでプリフィックスすると、同じペルソナベースラインに対してDelta = -0.12 から -0.20 のレコメンデーションセット類似性 (Jaccard) が低下する(95% CI は3つの測定セルすべてでゼロを除外する。
カテゴリーのリーダーはペルソナに耐性がある(ペルソナ全体での同一ブランドの一貫性が約80%)が、中産階級のブランドはペルソナが変わると推奨セットの75%を交換する。
AnthropicモデルはOpenAIの構成よりもポイント推定効果が大きいが、クラスタ化されたCIはより近いコントラスト(sonnet vs. OpenAI/high)で重なり合う。
AIブランドの認識のあらゆる測定は、クエリを提供する購入者ペルソナに条件を課さなければならない。同じプロンプトは、モデルが誰が要求していると考えているかによって、かなり異なる推奨セットを生成し、ペルソナを集約する測定プロトコルは、そのバリエーションを体系的に曖昧にします。
この効果は中規模市場に集中しており、私たちの監査において最も先進的な生成経路で最大であり、モデルがトレーニングデータ優先とよりリッチなコンテキスト統合に依存しているため、ペルソナの応答性が増大するのと一致しています。
関連論文リスト
- Paraphrase Brittleness in Production Retrieval-Augmented Commercial Recommendation: Reproducibility Below the Rerun-Stability Baseline [0.0]
購入者が質問をどう表現するかの小さな変更は、AIアシスタントとはかなり異なるブランドレコメンデーションを生み出している。
6000のパラフレーズランと6000の同じプロンプトリランコントロールでは、同じ購入意図の2つのパラフレーズの類似性は0.288である。
プロンプト文字列は、下層の買い手意図ではなく、ブランドが提示する主要なインプットである。
論文 参考訳(メタデータ) (2026-05-22T17:23:02Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - Preserving Disagreement: Architectural Heterogeneity and Coherence Validation in Multi-Agent Policy Simulation [0.0]
政策シミュレーションにおいて,大規模言語モデル(LLM)を用いたマルチエージェント検討システムの提案が進んでいる。
評価エージェントは、割り当てられた値の観点に関わらず、同じ選択肢に収束する。
我々は、三段階の審議フレームワークであるAI Councilを提示し、2つの介入をテストするための2つの政策シナリオにわたる120の審議を行う。
論文 参考訳(メタデータ) (2026-04-29T11:47:28Z) - Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment [53.72927532626824]
わずか50個のサンプル(0.3%のデータ)のサブセットは、完全なベンチマークスコアと0.93以上のピアソン相関を達成可能であることを示す。
選好をより良く予測するために、選択したサブセットの回帰モデルを訓練し、0.98の相関を達成した。
これは回帰モデリングにおいて、よく計算されたサブセットが完全なベンチマークを予測し、量を超える品質を示すことを示している。
論文 参考訳(メタデータ) (2026-04-20T00:57:31Z) - Assessing LLM Reliability on Temporally Recent Open-Domain Questions [15.456770184839726]
大規模言語モデル(LLM)は、オープンドメインの質問応答のためにますます多くデプロイされている。
我々は4つのオープンソース LLM が最近のReddit の質問 15,000 に対してどのように反応するかを調査した。
すべてのモデルは、8%のBLEU-1オーバーラップにもかかわらず、参照と99%以上のコサイン類似性を達成している。
論文 参考訳(メタデータ) (2026-01-17T21:33:27Z) - Fortytwo: Swarm Inference with Peer-Ranked Consensus [36.94429692322632]
我々は、AI推論において優れたパフォーマンスを達成するために、Swarmの知能原則と分散ペアのランキングコンセンサスを活用する新しいプロトコルFortytwoを提案する。
独自のBradley-Terry-styleアグリゲーションモデルを用いて、Swarm推論が多数決をかなり上回ることを示す。
論文 参考訳(メタデータ) (2025-10-27T23:19:48Z) - DISCO: Diversifying Sample Condensation for Efficient Model Evaluation [59.01400190971061]
コスト評価は傾向を低下させ、イノベーションのサイクルを遅くし、環境への影響を悪化させる。
モデル応答の多様性を最大化するサンプルを選択することが重要となる。
我々のメソッドである$textbfDiversifying Sample Condensation (DISCO)$は、最も大きなモデル不一致を持つトップkサンプルを選択します。
論文 参考訳(メタデータ) (2025-10-09T08:53:59Z) - Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-21T20:29:02Z) - Enhancing Domain-Specific Retrieval-Augmented Generation: Synthetic Data Generation and Evaluation using Reasoning Models [0.6827423171182154]
Retrieval-Augmented Generation (RAG) システムは、技術的領域に適用した場合、大きなパフォーマンスギャップに直面します。
ドメイン固有のRAG性能を最適化するために、粒度評価指標と合成データ生成を組み合わせたフレームワークを提案する。
10トークン未満の小さなチャンクは、精度を31-42%向上させます。
論文 参考訳(メタデータ) (2025-02-21T06:38:57Z) - Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。