論文の概要: Validating Search Query Simulations: A Taxonomy of Measures
- arxiv url: http://arxiv.org/abs/2601.11412v1
- Date: Fri, 16 Jan 2026 16:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.552319
- Title: Validating Search Query Simulations: A Taxonomy of Measures
- Title(参考訳): 検索クエリーシミュレーションの検証:尺度の分類
- Authors: Andreas Konstantin Kruff, Nolwenn Bernard, Philipp Schaer,
- Abstract要約: そこで本研究では,実際のクエリに対するシミュレーションユーザクエリの検証方法に関する文献レビューを行う。
本レビューに基づいて,現在利用可能な対策の展望を構造化する分類学を開発する。
我々は、4つの異なるデータセットに適用される異なる尺度間の関係を解析することにより、分類を実証的に相関づける。
- 参考スコア(独自算出の注目度): 8.19836974395553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing the validity of user simulators when used for the evaluation of information retrieval systems remains an open question, constraining their effective use and the reliability of simulation-based results. To address this issue, we conduct a comprehensive literature review with a particular focus on methods for the validation of simulated user queries with regard to real queries. Based on the review, we develop a taxonomy that structures the current landscape of available measures. We empirically corroborate the taxonomy by analyzing the relationships between the different measures applied to four different datasets representing diverse search scenarios. Finally, we provide concrete recommendations on which measures or combinations of measures should be considered when validating user simulation in different contexts. Furthermore, we release a dedicated library with the most commonly used measures to facilitate future research.
- Abstract(参考訳): 情報検索システムの評価に使用するユーザシミュレータの有効性を評価することは,有効利用の制約や,シミュレーションに基づく結果の信頼性など,未解決の問題である。
この問題に対処するため、本研究では、実際のクエリに関するシミュレーションされたユーザクエリの検証方法に特に焦点をあてた総合的な文献レビューを行う。
本レビューに基づいて,現在利用可能な対策の展望を構造化する分類学を開発する。
多様な探索シナリオを表す4つの異なるデータセットに適用される異なる尺度間の関係を解析することにより,分類学を実証的に相関づける。
最後に、ユーザシミュレーションを異なる文脈で検証する際に、どの測定基準や組み合わせを考慮すべきかを示す具体的なレコメンデーションを提供する。
さらに,本稿では,今後の研究を促進するため,最も広く利用されている専用ライブラリをリリースする。
関連論文リスト
- Rewriting History: A Recipe for Interventional Analyses to Study Data Effects on Model Behavior [58.58249548116766]
本稿では,学習データと言語モデル(LM)行動の関係を実験的に研究する。
データバッチをインターベンションし、そのデータ上でモデルチェックポイントを再トレーニングして、データと振る舞いに関する仮説をテストするための手順を概説する。
論文 参考訳(メタデータ) (2025-10-16T03:22:48Z) - Evaluating Contrastive Feedback for Effective User Simulations [2.8089969618577997]
本研究は, ユーザシミュレーションのプロンプトエンジニアリング分野において, コントラッシブトレーニング技術の根底にある原則が有効に応用できるかどうかを考察する。
本研究の主な目的は,コンテキスト情報の異なるモーダル性がユーザシミュレーションの有効性に与える影響を分析することである。
論文 参考訳(メタデータ) (2025-05-05T11:02:31Z) - Scenario-Wise Rec: A Multi-Scenario Recommendation Benchmark [65.13288661320364]
6つの公開データセットと12のベンチマークモデルと、トレーニングと評価パイプラインで構成されるベンチマークである textbfScenario-Wise Rec を紹介します。
このベンチマークは、研究者に先行研究から貴重な洞察を提供することを目的としており、新しいモデルの開発を可能にしている。
論文 参考訳(メタデータ) (2024-12-23T08:15:34Z) - Quantifying User Coherence: A Unified Framework for Cross-Domain Recommendation Analysis [69.37718774071793]
本稿では,レコメンデーションシステムを理解するための新しい情報理論手法を提案する。
9つのデータセットで7つのレコメンデーションアルゴリズムを評価し、測定値と標準的なパフォーマンス指標の関係を明らかにする。
論文 参考訳(メタデータ) (2024-10-03T13:02:07Z) - A Case Study on Designing Evaluations of ML Explanations with Simulated
User Studies [6.2511886555343805]
我々は、実世界のユースケースでSimEvalsを初めて実施し、eコマース不正検出においてMLによる意思決定を支援することができるかどうかを評価する。
SimEvalsは、すべての考慮された説明者は同等にパフォーマンスがあり、説明なしではベースラインに勝てないことを示唆している。
論文 参考訳(メタデータ) (2023-02-15T03:27:55Z) - Synthetic Data-Based Simulators for Recommender Systems: A Survey [55.60116686945561]
本調査は,モデリングとシミュレーションの分野における最近のトレンドを包括的に概観することを目的としている。
まずは、シミュレーターを実装するフレームワークの開発の背後にあるモチベーションから始めます。
我々は,既存のシミュレータの機能,近似,産業的有効性に基づいて,新しい一貫した一貫した分類を行う。
論文 参考訳(メタデータ) (2022-06-22T19:33:21Z) - Characterizing and comparing external measures for the assessment of
cluster analysis and community detection [1.5543116359698947]
文献では、同じ集合の2つの分割を比較するために、多くの外部評価尺度が提案されている。
これにより、与えられた状況に対して最も適切な尺度を選択することがエンドユーザの課題となる。
本稿では,この問題を解決するための新しい経験的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-01T09:10:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。