論文の概要: A Standardized Re-evaluation of Conversational Recommender Systems on the ReDial Dataset
- arxiv url: http://arxiv.org/abs/2605.13053v2
- Date: Wed, 20 May 2026 09:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.100339
- Title: A Standardized Re-evaluation of Conversational Recommender Systems on the ReDial Dataset
- Title(参考訳): 対話型レコメンダシステムのReDialデータセットにおける標準化された再評価
- Authors: Ivica Kostric, Krisztian Balog,
- Abstract要約: 我々は3つの建築ファミリにまたがる7つの顕著なCRS手法を再検討し、それらを標準化された条件下で評価する。
我々の研究は、粒度の細かいランキング(Recall@1)が実装の詳細に非常に敏感な「粒度ギャップ」を明らかにした。
レプリカ解析の結果、報告された精度の50%近くは、新規性に着目した評価に欠如している「反復ショートカット」に起因していることが明らかとなった。
- 参考スコア(独自算出の注目度): 16.676519749856567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen a surge of research into conversational recommender systems (CRS). Among existing datasets, ReDial is the most widely used benchmark, cited in hundreds of studies. However, variations in how the dataset is preprocessed and used in experiments, particularly in the definition of ground-truth items, make it difficult to compare results across studies. These comparisons are further complicated by confounding factors such as the choice of the underlying large language model (LLM) and the use of external data sources. In this work, we revisit seven prominent CRS methods across three architectural families and evaluate them under standardized conditions. Our reproducibility study reveals a ``granularity gap,'' where fine-grained ranking (Recall@1) is highly sensitive to implementation details, while our replicability analysis shows that nearly 50% of reported accuracy stems from ``repetition shortcuts'' that are absent in novelty-focused evaluation. Furthermore, we find that performance gains are often driven more by the capacity of the LLM backbone than by specific architectural innovations. Finally, by applying user-centric utility metrics, we demonstrate that traditional recall frequently overstates a system's actual conversational effectiveness. This work establishes a transparent, controlled baseline and promotes evaluation practices that prioritize novelty and interaction efficiency.
- Abstract(参考訳): 近年、会話レコメンデーションシステム(CRS)の研究が急増している。
既存のデータセットの中では、ReDialが最も広く使われているベンチマークであり、何百もの研究で引用されている。
しかしながら、データセットの事前処理の仕方や実験での使用方法のバリエーション、特に地味な項目の定義では、研究間で結果を比較するのが難しくなる。
これらの比較は、基礎となる大規模言語モデル (LLM) の選択や外部データソースの使用など、要因の相違によってさらに複雑になる。
本研究では,3つのアーキテクチャファミリにまたがる7つの顕著なCRS手法を再検討し,それらを標準化された条件下で評価する。
再現性調査では,粒度の細かいランキング(Recall@1)が実装の詳細に非常に敏感な「粒度ギャップ」が示され,再現性解析の結果,報告された精度の50%近くは,新規性に着目した評価に欠ける「繰り返しショートカット」に由来することがわかった。
さらに、パフォーマンスの向上は、特定のアーキテクチャ革新よりも、LLMバックボーンの能力によって促進されることが多いことに気付きました。
最後に、ユーザ中心のユーティリティメトリクスを適用することで、従来のリコールがシステムの実際の会話の有効性を過度に上書きすることを実証する。
この研究は透明で制御されたベースラインを確立し、新規性と相互作用効率を優先する評価プラクティスを促進する。
関連論文リスト
- A Reproducibility Study of LLM-Based Query Reformulation [21.129945396073264]
大規模言語モデル(LLM)は、情報検索におけるクエリの再構成と拡張に広く用いられている。
統一的かつ厳密に制御された実験枠組みの下で, LLMに基づく10種類のクエリ再構成手法の体系的, 比較検討を行った。
以上の結果から,レキシカル検索による改善はニューラルレトリバーに連続的に移行するものではなく,より大きなLLMが下流性能を均一に向上させるものではないことが示唆された。
論文 参考訳(メタデータ) (2026-04-30T04:51:52Z) - Investigating LLM Variability in Personalized Conversational Information Retrieval [14.220276130333849]
Moらは、個人用テキスト知識ベース(PTKB)を大規模言語モデル(LLM)に組み込むためのいくつかの戦略を探求した。
提案手法を新しいTREC iKAT 2024データセットに適用し,Llama (1B-70B), Qwen-7B, GPT-4o-miniを含む多種多様なモデルの評価を行った。
その結果,人間の選択したPTKBは連続的に検索性能を向上する一方,LLMに基づく選択法は手作業による選択を確実に上回るものではないことがわかった。
論文 参考訳(メタデータ) (2025-10-04T12:13:19Z) - Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Towards Validating Long-Term User Feedbacks in Interactive
Recommendation Systems [36.45966630580796]
対話型レコメンダシステム(IRS)は,ユーザとレコメンダシステム間の対話的プロセスをモデル化する能力から,多くの注目を集めている。
レビューデータセットを用いてIRSの実験を再考し、RLベースのモデルと単純な報酬モデルを比較した。
論文 参考訳(メタデータ) (2023-08-22T02:34:47Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information
Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。
ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。
Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文 参考訳(メタデータ) (2021-04-17T23:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。