論文の概要: On the Factual Consistency of Text-based Explainable Recommendation Models
- arxiv url: http://arxiv.org/abs/2512.24366v1
- Date: Tue, 30 Dec 2025 17:25:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.444137
- Title: On the Factual Consistency of Text-based Explainable Recommendation Models
- Title(参考訳): テキストに基づく説明可能な推薦モデルの現実的整合性について
- Authors: Ben Kabongo, Vincent Guigue,
- Abstract要約: テキストベースの説明可能なレコメンデータの事実整合性を評価するための包括的フレームワークを提案する。
レビューから原子説明文を抽出するためにLSMを用いたプロンプトベースパイプラインを設計する。
LLMとNLIをベースとした手法を組み合わせたステートメントレベルのアライメントメトリクスを提案する。
- 参考スコア(独自算出の注目度): 2.2153783542347805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based explainable recommendation aims to generate natural-language explanations that justify item recommendations, to improve user trust and system transparency. Although recent advances leverage LLMs to produce fluent outputs, a critical question remains underexplored: are these explanations factually consistent with the available evidence? We introduce a comprehensive framework for evaluating the factual consistency of text-based explainable recommenders. We design a prompting-based pipeline that uses LLMs to extract atomic explanatory statements from reviews, thereby constructing a ground truth that isolates and focuses on their factual content. Applying this pipeline to five categories from the Amazon Reviews dataset, we create augmented benchmarks for fine-grained evaluation of explanation quality. We further propose statement-level alignment metrics that combine LLM- and NLI-based approaches to assess both factual consistency and relevance of generated explanations. Across extensive experiments on six state-of-the-art explainable recommendation models, we uncover a critical gap: while models achieve high semantic similarity scores (BERTScore F1: 0.81-0.90), all our factuality metrics reveal alarmingly low performance (LLM-based statement-level precision: 4.38%-32.88%). These findings underscore the need for factuality-aware evaluation in explainable recommendation and provide a foundation for developing more trustworthy explanation systems.
- Abstract(参考訳): テキストベースの説明可能なレコメンデーションは、アイテムレコメンデーションを正当化する自然言語の説明を生成し、ユーザの信頼とシステムの透明性を改善することを目的としている。
近年の進歩はLSMを活用して流動的な出力を生成するが、重要な疑問は未解決のままである: これらの説明は実際に利用可能な証拠と一致しているか?
テキストベースの説明可能なレコメンデータの事実整合性を評価するための包括的フレームワークを提案する。
我々は,LSMを用いて,レビューから原子の説明文を抽出するプロンプトベースのパイプラインを設計し,それらの事実を分離し,焦点を絞った基礎的真実を構築する。
このパイプラインをAmazon Reviewsデータセットから5つのカテゴリに適用することで、説明品質の詳細な評価のための拡張ベンチマークを作成します。
さらに,LLMとNLIに基づく手法を併用した文レベルのアライメント指標を提案し,結果の整合性と関連性を評価する。
モデルが高い意味的類似性スコア(BERTScore F1: 0.81-0.90)を達成する一方で、我々の事実性指標はすべて、驚くほど低いパフォーマンス(LLMベースのステートメントレベル精度: 4.38%-32.88%)を示す。
これらの知見は、説明可能な推薦における事実認識評価の必要性を浮き彫りにして、より信頼できる説明システムを構築するための基盤を提供するものである。
関連論文リスト
- Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - FIRE: Faithful Interpretable Recommendation Explanations [2.6499018693213316]
推薦システムにおける自然言語の説明は、しばしばレビュー生成タスクとしてフレーム化される。
FireはSHAPベースの特徴属性と構造化されたプロンプト駆動言語生成を組み合わせた軽量で解釈可能なフレームワークである。
この結果から,FIREは競争推奨精度を達成するだけでなく,アライメント,構造,忠実度といった重要な次元に沿った説明品質を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-08-07T10:11:02Z) - eX-NIDS: A Framework for Explainable Network Intrusion Detection Leveraging Large Language Models [3.8436076642278745]
本稿では,フローベースネットワーク侵入検知システム(NIDS)における解釈可能性を高めるためのフレームワークであるeX-NIDSを紹介する。
提案フレームワークでは、NIDSによって悪意のあるものとしてラベル付けされたフローは、最初にPrompt Augmenterと呼ばれるモジュールによって処理される。
このモジュールは、これらのフローからコンテキスト情報とサイバー脅威インテリジェンス(CTI)関連の知識を抽出する。
このリッチでコンテキスト固有のデータは、LLMの入力プロンプトと統合され、NIDSによってフローが悪質であると認識された理由の詳細な説明と解釈を生成できる。
論文 参考訳(メタデータ) (2025-07-22T05:26:21Z) - ReliableEval: A Recipe for Stochastic LLM Evaluation via Method of Moments [23.514446188485838]
本稿では,意味保存型摂動空間におけるモーメント評価手法について論じる。
GPT-4oやClaude-3.7-Sonnetのようなトップパフォーマンスモデルでさえ、かなりの迅速な感度を示す。
論文 参考訳(メタデータ) (2025-05-28T09:40:48Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Unlocking the Potential of Large Language Models for Explainable
Recommendations [55.29843710657637]
説明ジェネレータを最近登場した大規模言語モデル(LLM)に置き換える影響は、まだ不明である。
本研究では,シンプルで効果的な2段階説明可能なレコメンデーションフレームワークであるLLMXRecを提案する。
いくつかの重要な微調整技術を採用することで、制御可能で流動的な説明が十分に生成できる。
論文 参考訳(メタデータ) (2023-12-25T09:09:54Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。