論文の概要: Rank, Don't Generate: Statement-level Ranking for Explainable Recommendation
- arxiv url: http://arxiv.org/abs/2604.03724v1
- Date: Sat, 04 Apr 2026 13:01:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.739134
- Title: Rank, Don't Generate: Statement-level Ranking for Explainable Recommendation
- Title(参考訳): ランク、生成しない:説明可能な勧告のための文書レベルのランク付け
- Authors: Ben Kabongo, Arthur Satouf, Vincent Guigue,
- Abstract要約: 説明可能なレコメンデーションをステートメントレベルのランキング問題として定式化する。
この定式化は、構成による幻覚を緩和し、きめ細かい事実分析を可能にする。
我々は、Amazon Reviews 2014の4つの製品カテゴリから構築された、説明可能なレコメンデーションにおけるステートメントランキングのベンチマークであるStaRを紹介した。
- 参考スコア(独自算出の注目度): 2.3534886273639457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Textual explanations, generated with large language models (LLMs), are increasingly used to justify recommendations. Yet, evaluating these explanations remains a critical challenge. We advocate a shift in objective: rank, don't generate. We formalize explainable recommendation as a statement-level ranking problem, where systems rank candidate explanatory statements derived from reviews and return the top-k as explanation. This formulation mitigates hallucination by construction and enables fine-grained factual analysis. It also models factor importance through relevance scores and supports standardized, reproducible evaluation with established ranking metrics. Meaningful assessment, however, requires each statement to be explanatory (item facts affecting user experience), atomic (one opinion about one aspect), and unique (paraphrases consolidated), which is challenging to obtain from noisy reviews. We address this with (i) an LLM-based extraction pipeline producing explanatory and atomic statements, and (ii) a scalable, semantic clustering method consolidating paraphrases to enforce uniqueness. Building on this pipeline, we introduce StaR, a benchmark for statement ranking in explainable recommendation, constructed from four Amazon Reviews 2014 product categories. We evaluate popularity-based baselines and state-of-the-art models under global-level (all statements) and item-level (target item statements) ranking. Popularity baselines are competitive in global-level ranking but outperform state-of-the-art models on average in item-level ranking, exposing critical limitations in personalized explanation ranking.
- Abstract(参考訳): 大きな言語モデル(LLM)で生成されたテキストの説明は、リコメンデーションを正当化するためにますます使われています。
しかし、これらの説明を評価することは依然として重要な課題である。
私たちは客観的な変化を提唱します。
そこで,本論文では,評価基準から導かれる候補説明文をランク付けし,上位kを表示として返却する,ステートメントレベルのランク付け問題として説明可能なレコメンデーションを定式化する。
この定式化は、構成による幻覚を緩和し、きめ細かい事実分析を可能にする。
また、関連スコアを通じて重要な要素をモデル化し、確立されたランキングメトリクスで標準化された再現可能な評価をサポートする。
しかし、意味のある評価は、各ステートメントが説明的(ユーザエクスペリエンスに影響を及ぼす事実)、アトミック(一つの側面に関する一つの意見)、ユニークな(フレーズの統合)であることが要求され、ノイズの多いレビューから入手することは困難である。
私たちはこの問題に対処します
一 説明文及び原子文を生成するLLMに基づく抽出パイプライン及び
(ii)拡張性のあるセマンティッククラスタリング手法で,一意性を強制するためにパラフレーズを集約する。
このパイプラインに基づいて、Amazon Reviews 2014の4つの製品カテゴリから構築された、説明可能なレコメンデーションにおけるステートメントランキングのベンチマークであるStaRを紹介します。
我々は、グローバルレベル(全文)とアイテムレベル(ターゲットアイテムステートメント)のランキングに基づいて、人気ベースのベースラインと最先端モデルを評価する。
人気のベースラインは、世界レベルのランキングでは競争力があるが、アイテムレベルのランキングでは平均的な最先端モデルよりも優れており、パーソナライズされた説明ランキングでは重要な制限が露呈している。
関連論文リスト
- On the Factual Consistency of Text-based Explainable Recommendation Models [2.2153783542347805]
テキストベースの説明可能なレコメンデータの事実整合性を評価するための包括的フレームワークを提案する。
レビューから原子説明文を抽出するためにLSMを用いたプロンプトベースパイプラインを設計する。
LLMとNLIをベースとした手法を組み合わせたステートメントレベルのアライメントメトリクスを提案する。
論文 参考訳(メタデータ) (2025-12-30T17:25:15Z) - RankList -- A Listwise Preference Learning Framework for Predicting Subjective Preferences [66.76322360727809]
RankNetを構造化されたリストレベルの監視に一般化するリストワイズ選好学習フレームワークである RankList を提案する。
我々の定式化は確率的枠組みの中で局所的および非局所的ランキング制約を明示的にモデル化する。
実験は多種多様性にまたがる手法の優越性を実証した。
論文 参考訳(メタデータ) (2025-08-13T13:59:41Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - AGRaME: Any-Granularity Ranking with Multi-Vector Embeddings [53.78802457488845]
我々は,多ベクトル埋め込みを利用して粒度の異なるレベルにランク付けする,任意の粒度ランキングの考え方を紹介した。
検索強化世代におけるポストホック励振付加への命題レベルのランク付けの適用を実証する。
論文 参考訳(メタデータ) (2024-05-23T20:04:54Z) - RankingSHAP -- Listwise Feature Attribution Explanations for Ranking Models [48.895510739010355]
このギャップに対処するための重要な貢献は3つあります。
まず、ランキングモデルに対するリストワイズ機能属性を厳格に定義する。
第2に、ランク付けSHAPを導入し、人気のあるSHAPフレームワークを拡張して、ランク付け属性をリストワイズする。
第3に、学習からランクへのモデルにおける属性の忠実度を評価するための2つの新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-24T10:45:55Z) - Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - Rank-LIME: Local Model-Agnostic Feature Attribution for Learning to Rank [16.780058676633914]
Rank-LIMEは、モデルに依存しない局所的、ポストホック的特徴属性法である。
我々は,新しい相関に基づく摂動,微分可能なランキング損失関数を導入し,ランキングに基づく付加的特徴帰属モデルを評価するための新しい指標を導入する。
論文 参考訳(メタデータ) (2022-12-24T12:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。