論文の概要: Sales Research Agent and Sales Research Bench
- arxiv url: http://arxiv.org/abs/2602.17017v1
- Date: Mon, 01 Dec 2025 19:44:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.707504
- Title: Sales Research Agent and Sales Research Bench
- Title(参考訳): 販売調査エージェントと販売調査ベンチ
- Authors: Deepanjan Bhol,
- Abstract要約: 本稿では,Microsoft Dynamics 365セールスにおけるセールスリサーチエージェントについて述べる。
Sales Research Benchは、顧客の重み付けされた8つのディメンションでシステムを評価するベンチマークである。
カスタマイズされたエンタープライズ・スキーマ上での200クエストでは、セールス・リサーチ・エージェントがClaude Sonnet 4.5を13ポイント、ChatGPT-5を24.1ポイント上回った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enterprises increasingly need AI systems that can answer sales-leader questions over live, customized CRM data, but most available models do not expose transparent, repeatable evidence of quality. This paper describes the Sales Research Agent in Microsoft Dynamics 365 Sales, an AI-first application that connects to live CRM and related data, reasons over complex schemas, and produces decision-ready insights through text and chart outputs. To make quality observable, we introduce the Sales Research Bench, a purpose-built benchmark that scores systems on eight customer-weighted dimensions, including text and chart groundedness, relevance, explainability, schema accuracy, and chart quality. In a 200-question run on a customized enterprise schema on October 19, 2025, the Sales Research Agent outperformed Claude Sonnet 4.5 by 13 points and ChatGPT-5 by 24.1 points on the 100-point composite score, giving customers a repeatable way to compare AI solutions.
- Abstract(参考訳): 企業は、ライブでカスタマイズされたCRMデータに対してセールスリーダーの質問に答えるAIシステムを必要としていますが、ほとんどのモデルでは、透明で繰り返し可能な品質の証拠を公開していません。
本稿では、Microsoft Dynamics 365 Salesにおけるセールスリサーチエージェントについて説明する。これは、ライブCRMと関連するデータ、複雑なスキーマに対する理由、テキストとチャート出力による意思決定可能な洞察を生成するAIファーストアプリケーションである。
品質を観測可能なものにするために,テキストやチャートの基盤性,関連性,説明可能性,スキーマの正確性,チャートの品質など,ユーザの重み付けした8次元のシステムをスコアする,目的を組み込んだベンチマークであるSales Research Benchを紹介した。
2025年10月19日、カスタマイズされたエンタープライズ・スキーマで行われた200回の調査では、セールス・リサーチ・エージェントがClaude Sonnet 4.5を13ポイント、ChatGPT-5を24.1ポイント上回った。
関連論文リスト
- RPC-Bench: A Fine-grained Benchmark for Research Paper Comprehension [65.81339691942757]
RPC-Bench(RPC-Bench)は、高品質なコンピュータサイエンス論文のレビュー・リビューの交換から構築された大規模質問応答ベンチマークである。
我々は、科学研究の流れに沿ったきめ細かい分類を設計し、モデルがなぜ、何、どのように学術的な文脈で質問するかを理解し、答える能力を評価する。
論文 参考訳(メタデータ) (2026-01-14T11:37:00Z) - VeriSciQA: An Auto-Verified Dataset for Scientific Visual Question Answering [53.662676566188175]
重要なボトルネックは、パブリックで大規模で高品質なビジュアル質問回答(SVQA)データセットの欠如にある。
本稿では、まず、図形関連テクストコンテキストとQAペアを生成する検証中心のGenerate-then-Verifyフレームワークを提案する。
このフレームワークをインスタンス化し、20の科学的ドメインと12のフィギュアタイプからなる20,351のQAペアのデータセットであるVeriSciQAをキュレートします。
論文 参考訳(メタデータ) (2025-11-25T04:14:52Z) - HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - Dynamic Template Selection for Output Token Generation Optimization: MLP-Based and Transformer Approaches [0.0]
動的テンプレート選択は応答品質を損なうことなく大幅なコスト削減を実現する。
この研究は、機械学習の理論的基礎を持つ形式的問題定式化、それに対応する複雑性解析を伴う4つのアルゴリズム、生産システム全体にわたる広範な実証検証など、いくつかの重要な要素に貢献している。
論文 参考訳(メタデータ) (2025-11-17T21:00:22Z) - Explore to Evolve: Scaling Evolved Aggregation Logic via Proactive Online Exploration for Deep Research Agents [70.77400371166922]
深層研究ウェブエージェントは、洞察に富んだ研究のための知識を厳格に分析し集約する必要がある。
本研究では,Webエージェントの検証可能なトレーニングデータを構築するためのExplore to Evolveパラダイムを提案する。
オープンソースのエージェントフレームワークであるSmolAgentsをベースとして,教師付き微調整トラジェクトリを収集し,一連の基礎モデルを構築する。
論文 参考訳(メタデータ) (2025-10-16T08:37:42Z) - asLLR: LLM based Leads Ranking in Auto Sales [31.82007865964295]
本稿では,CTR損失と質問回答(QA)損失をデコーダのみの大規模言語モデルアーキテクチャに組み込んだLLR(LLMベースの自動車販売におけるリードランキング)を紹介する。
実験の結果,AsLLRは商用データセットの複雑なパターンを効果的にモデル化し,AUCの0.8127を達成できた。
実世界の販売シナリオでは、厳格なオンラインA/Bテストの後、LLRは従来の方法と比較して販売量を約9.5%増やした。
論文 参考訳(メタデータ) (2025-09-10T01:26:29Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。