論文の概要: RecoAtlas: From Semantic Plausibility to Set-Level Utility in LLM Recommendation Agents
- arxiv url: http://arxiv.org/abs/2605.18805v1
- Date: Mon, 11 May 2026 18:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.344557
- Title: RecoAtlas: From Semantic Plausibility to Set-Level Utility in LLM Recommendation Agents
- Title(参考訳): レコアトラス:LLM勧告剤のセマンティックプラズビリティからセットレベルユーティリティへ
- Authors: Imad Aouali, Flavian Vasile, Otmane Sakhi, Alexandre Gilotte, Benjamin Heymann,
- Abstract要約: Recommendation Atlasは、行動基準付きショッピングエージェントを評価するためのベンチマークである。
RecoAtlasはエージェントシステムの有意義なベンチマークの鍵となる特性を示す。
- 参考スコア(独自算出の注目度): 44.66462874971054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM recommendation agents increasingly produce structured recommendation reports: sets of items accompanied by natural-language justifications. Yet existing evaluations often reduce this setting to reranking small shortlisted candidate sets or judge reports mainly by semantic plausibility. We introduce Recommendation Atlas (Agentic Tool-Level Assessment for Shopping), or RecoAtlas, a benchmark and toolkit for evaluating shopping agents with behavior-grounded metrics. RecoAtlas complements held-out interaction metrics with learned utility proxies for relevance, complementarity, and diversity derived from interaction data, while separately measuring semantic coherence and explanation quality. Its controlled tool environment exposes agents to either semantic, behavior-aligned, or faulty tools, enabling diagnosis of whether performance gains arise from stronger reasoning, better signals, or more effective tool-use policies. Across controlled experiments, we show that RecoAtlas exhibits key properties of a meaningful benchmark for agentic systems: performance scales with model capacity and test-time compute, improves with stronger and better-aligned tools, degrades under noisy or misaligned signals, and reveals that semantic plausibility does not necessarily capture behavior-grounded utility. RecoAtlas provides a foundation for developing and evaluating shopping assistants that optimize not only for plausible recommendations, but also for coherent, behaviorally grounded recommendation sets.
- Abstract(参考訳): LLMレコメンデーションエージェントはますます構造化されたレコメンデーションレポートを生成する。
しかし、既存の評価では、この設定を、主にセマンティックな妥当性によって、小さなショートリストの候補セットや判断報告に再配置することが多い。
Recommendation Atlas (Agentic Tool-Level Assessment for Shopping) またはRecoAtlas(英語版)は、ショッピングエージェントを行動グラウンドメトリクスで評価するためのベンチマークおよびツールキットである。
RecoAtlasは、セマンティックコヒーレンスと説明品質を別々に測定しながら、関係性、相補性、および相互作用データから派生した多様性に関する学習されたユーティリティプロキシで、保持された相互作用のメトリクスを補完する。
コントロールされたツール環境は、エージェントをセマンティック、ビヘイビアアライメント、あるいは障害ツールに公開し、より強力な推論、より良いシグナル、より効果的なツール利用ポリシーからパフォーマンスが向上するかどうかの診断を可能にする。
モデルキャパシティとテスト時間計算によるパフォーマンススケールの改善,より強固で整合性の高いツールの改良,ノイズや不整合な信号の下での劣化,セマンティックな妥当性が必ずしも振る舞いを捉えているとは限らないこと,などだ。
RecoAtlasはショッピングアシスタントの開発と評価のための基盤を提供する。
関連論文リスト
- RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation [63.74915464611075]
RecThinkerはツール拡張推論を推奨するエージェントフレームワークである。
我々はRecThinker専用のツール群を開発し、モデルがユーザアイテム側および協調的な情報を取得することを可能にする。
論文 参考訳(メタデータ) (2026-03-10T16:07:17Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - SCoRE: Streamlined Corpus-based Relation Extraction using Multi-Label Contrastive Learning and Bayesian kNN [0.2812395851874055]
本稿では,モジュール型かつ費用対効果の高い文レベルの関係抽出システムであるSCoREを紹介する。
SCoREは簡単なPLMスイッチングを可能にし、微調整を必要とせず、多様なコーパスやKGにスムーズに適応する。
SCoREは, エネルギー消費を大幅に削減しつつ, 最先端の手法に適合するか, 超越しているかを示す。
論文 参考訳(メタデータ) (2025-07-09T14:33:07Z) - LGAI-EMBEDDING-Preview Technical Report [41.68404082385825]
本稿では、情報検索(IR)と非IRタスクの両方に最適化された一般化テキスト埋め込みを学習するための統一的な命令ベースフレームワークを提案する。
提案手法は,コンテキスト認識の埋め込みを生成するために,コンテキスト内学習,ソフトインスペクション,適応型ハードネガティブマイニングを組み合わせる。
その結果,本手法はボルダスコアによる最高性能モデルのうち,強い一般化とランクを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-06-09T05:30:35Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。