論文の概要: RobustExplain: Evaluating Robustness of LLM-Based Explanation Agents for Recommendation
- arxiv url: http://arxiv.org/abs/2601.19120v3
- Date: Tue, 03 Feb 2026 01:12:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.788807
- Title: RobustExplain: Evaluating Robustness of LLM-Based Explanation Agents for Recommendation
- Title(参考訳): RobustExplain:レコメンデーションのためのLCMベースの説明エージェントのロバスト性の評価
- Authors: Guilin Zhang, Kai Zhao, Jeffrey Friedman, Xu Chu,
- Abstract要約: 大規模言語モデル(LLM)は、リコメンデータシステムで自然言語の説明を生成するために、ますます使われている。
現実世界のWebプラットフォームでは、インタラクション履歴は、偶然のクリック、時間的不整合、値の欠如、進化する好みのために本質的にノイズが多い。
本稿では,LLM生成レコメンデーションのロバスト性を評価するための,最初の体系的評価フレームワークであるRobustExplainを紹介する。
- 参考スコア(独自算出の注目度): 8.70920344844399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used to generate natural-language explanations in recommender systems, acting as explanation agents that reason over user behavior histories. While prior work has focused on explanation fluency and relevance under fixed inputs, the robustness of LLM-generated explanations to realistic user behavior noise remains largely unexplored. In real-world web platforms, interaction histories are inherently noisy due to accidental clicks, temporal inconsistencies, missing values, and evolving preferences, raising concerns about explanation stability and user trust. We present RobustExplain, the first systematic evaluation framework for measuring the robustness of LLM-generated recommendation explanations. RobustExplain introduces five realistic user behavior perturbations evaluated across multiple severity levels and a multi-dimensional robustness metric capturing semantic, keyword, structural, and length consistency. Our goal is to establish a principled, task-level evaluation framework and initial robustness baselines, rather than to provide a comprehensive leaderboard across all available LLMs. Experiments on four representative LLMs (7B--70B) show that current models exhibit only moderate robustness, with larger models achieving up to 8% higher stability. Our results establish the first robustness benchmarks for explanation agents and highlight robustness as a critical dimension for trustworthy, agent-driven recommender systems at web scale.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ユーザの行動履歴を推論する説明エージェントとして機能し、レコメンデータシステムで自然言語の説明を生成するために、ますます使われるようになっている。
従来の研究は、一定の入力下での流速や関連性の説明に焦点が当てられていたが、LLMが生み出す現実的なユーザ行動ノイズに対する説明の堅牢性は、まだ明らかになっていない。
現実世界のWebプラットフォームでは、対話履歴は、偶然のクリック、時間的不整合、値の欠如、そして進化する好みによって本質的にノイズがあり、説明の安定性とユーザ信頼に関する懸念が高まっています。
本稿では,LLM生成レコメンデーションのロバスト性を評価するための,最初の体系的評価フレームワークであるRobustExplainを紹介する。
RobustExplainでは、複数の重度レベルで評価された5つの現実的なユーザ行動摂動と、セマンティック、キーワード、構造、長さの一貫性をキャプチャする多次元ロバストネスメトリクスを導入している。
我々のゴールは、すべての利用可能なLCMに対して包括的なリーダーボードを提供するのではなく、原則化されたタスクレベル評価フレームワークと初期堅牢性ベースラインを確立することです。
4つの代表的なLCM (7B--70B) の実験では、現在のモデルは適度な頑健さしか示さず、より大きなモデルは最大8%高い安定性を達成している。
この結果から,Web スケールで信頼性の高いエージェント駆動型推薦システムにおいて,信頼性の指標となるロバストネスの指標が確立された。
関連論文リスト
- LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals [18.015918696398085]
概念に基づく説明は、高レベルの概念がモデル行動にどのように影響するかを定量化する。
既存のベンチマークは、不完全なプロキシとして機能する費用のかかる人手による対策に依存しています。
本稿では,構造上の逆ファクトペアを含むデータセットを構築するためのフレームワーク,LIBERTyを紹介する。
論文 参考訳(メタデータ) (2026-01-15T18:54:50Z) - ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning [2.1461777157838724]
ReasonBENCHは,大規模言語モデル(LLM)推論における基盤不安定性を定量化する最初のベンチマークである。
異なる領域からのタスク全体で、推論戦略とモデルの大部分は高い不安定性を示す。
我々はさらに、解答率と安定性のトレードオフに対するプロンプト、モデル家族、スケールの影響を解析する。
論文 参考訳(メタデータ) (2025-12-08T18:26:58Z) - Evaluating from Benign to Dynamic Adversarial: A Squid Game for Large Language Models [57.33350664910483]
資源制約と非対称な情報設定を備えた動的・対角的評価環境であるSquid Gameを紹介する。
我々は,Squid Game 上で50以上の LLM を評価し,動的対向シナリオにおける一般 LLM の行動評価研究を最大規模で行った。
論文 参考訳(メタデータ) (2025-11-12T06:06:29Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - Statistical Runtime Verification for LLMs via Robustness Estimation [0.0]
ランタイムクリティカルなアプリケーションにLLM(Large Language Models)を安全にデプロイするためには、逆の堅牢性検証が不可欠である。
ブラックボックス配置環境におけるLCMのオンライン実行時ロバスト性モニタとしての可能性を評価するために,RoMA統計検証フレームワークを適応・拡張するケーススタディを提案する。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。