論文の概要: HARPO: Hierarchical Agentic Reasoning for User-Aligned Conversational Recommendation
- arxiv url: http://arxiv.org/abs/2604.10048v1
- Date: Sat, 11 Apr 2026 06:07:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.812007
- Title: HARPO: Hierarchical Agentic Reasoning for User-Aligned Conversational Recommendation
- Title(参考訳): HARPO: ユーザ指向会話レコメンデーションのための階層的エージェント推論
- Authors: Subham Raj, Aman Vaibhav Jha, Mayank Anand, Sriparna Saha,
- Abstract要約: 本稿では,会話の推薦を構造化された意思決定プロセスとして再編成するエージェントフレームワークであるHARPOを提案する。
HarPOは階層的な選好学習を統合し、推奨品質を解釈可能な次元に分解する。
推奨中心のメトリクスに対して、強いベースラインよりも一貫した改善を示します。
- 参考スコア(独自算出の注目度): 10.766058469348382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational recommender systems (CRSs) operate under incremental preference revelation, requiring systems to make recommendation decisions under uncertainty. While recent approaches particularly those built on large language models achieve strong performance on standard proxy metrics such as Recall@K and BLEU, they often fail to deliver high-quality, user-aligned recommendations in practice. This gap arises because existing methods primarily optimize for intermediate objectives like retrieval accuracy, fluent generation, or tool invocation, rather than recommendation quality itself. We propose HARPO (Hierarchical Agentic Reasoning with Preference Optimization), an agentic framework that reframes conversational recommendation as a structured decision-making process explicitly optimized for multi-dimensional recommendation quality. HARPO integrates hierarchical preference learning that decomposes recommendation quality into interpretable dimensions (relevance, diversity, predicted user satisfaction, and engagement) and learns context-dependent weights over these dimensions; (ii) deliberative tree-search reasoning guided by a learned value network that evaluates candidate reasoning paths based on predicted recommendation quality rather than task completion; and (iii) domain-agnostic reasoning abstractions through Virtual Tool Operations and multi-agent refinement, enabling transferable recommendation reasoning across domains. We evaluate HARPO on ReDial, INSPIRED, and MUSE, demonstrating consistent improvements over strong baselines on recommendation-centric metrics while maintaining competitive response quality. These results highlight the importance of explicit, user-aligned quality optimization for conversational recommendation.
- Abstract(参考訳): 会話レコメンデータシステム(CRS)は、不確実性の下でレコメンデーション決定を行う必要がある。
Recall@KやBLEUといった一般的なプロキシメトリクスでは,特に大規模な言語モデル上に構築された最近のアプローチは高いパフォーマンスを実現していますが,実際には高品質でユーザ整合性のあるレコメンデーションの提供に失敗することが多いのです。
このギャップは、既存のメソッドがリコメンデーション品質自体よりも、検索精度、流動性生成、ツール呼び出しといった中間的な目的に最適化されているため生じます。
HARPO(Hierarchical Agentic Reasoning with Preference Optimization)は,多次元レコメンデーション品質に最適化された構造化決定プロセスとして,対話的レコメンデーションを再構成するエージェントフレームワークである。
HARPOは、推奨品質を解釈可能な次元(関連性、多様性、ユーザの満足度、エンゲージメント)に分解する階層的な選好学習を統合し、これらの次元に関する文脈依存の重みを学習する。
二 課題完了よりも予測された推薦品質に基づいて候補推論経路を評価する学習価値ネットワークにより導かれる熟考的ツリー探索推論
3) Virtual Tool Operations と Multi-agent refinement によるドメインに依存しない推論抽象化により、ドメイン間での転送可能なレコメンデーション推論を可能にします。
我々は、ReDial、INSPIRED、MUSEのHARPOを評価し、競争力のある応答品質を維持しながら、推奨中心のメトリクスの強いベースラインよりも一貫した改善を示す。
これらの結果から,対話型レコメンデーションのためのユーザ指向品質最適化の重要性が浮き彫りになった。
関連論文リスト
- RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation [63.74915464611075]
RecThinkerはツール拡張推論を推奨するエージェントフレームワークである。
我々はRecThinker専用のツール群を開発し、モデルがユーザアイテム側および協調的な情報を取得することを可能にする。
論文 参考訳(メタデータ) (2026-03-10T16:07:17Z) - Towards Comprehensible Recommendation with Large Language Model Fine-tuning [41.218487308635126]
本稿では,コラボレーティブ・パースペクティブ・フレームワーク(CURec)によるレコメンデーションシステムのための新しいコンテンツ理解手法を提案する。
Curecは、より包括的なレコメンデーションのために、協調的なコンテンツ機能を生成する。
公開ベンチマークの実験では、既存の方法よりもCURecの方が優れていることが示されている。
論文 参考訳(メタデータ) (2025-08-11T03:55:31Z) - What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context [56.590259941275434]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文 参考訳(メタデータ) (2025-06-02T21:09:29Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment [69.11529841118671]
本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。
次にReasoningを利用したRecommenderフレームワークを導入する。
論文 参考訳(メタデータ) (2025-02-04T07:17:54Z) - The Best Decisions Are Not the Best Advice: Making Adherence-Aware
Recommendations [4.6789662847602065]
本稿では,提案したポリシーと実装したポリシーの二分法を捉えるためのアテンデンス対応最適化フレームワークを提案する。
現在,ほとんどのレコメンデーションエンジンが実施している部分付着現象の見落としは,任意に性能劣化を引き起こす可能性があることを示す。
また,本フレームワークは,このようなヒトの偏りに対して自然に免疫する最適な推奨ポリシーを解析し,計算するための有用なツールも提供する。
論文 参考訳(メタデータ) (2022-09-05T10:11:09Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。