論文の概要: Sim4IA-Bench: A User Simulation Benchmark Suite for Next Query and Utterance Prediction
- arxiv url: http://arxiv.org/abs/2511.09329v1
- Date: Thu, 13 Nov 2025 01:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.524002
- Title: Sim4IA-Bench: A User Simulation Benchmark Suite for Next Query and Utterance Prediction
- Title(参考訳): Sim4IA-Bench: 次のクエリと発話予測のためのユーザシミュレーションベンチマークスイート
- Authors: Andreas Konstantin Kruff, Christin Katharina Kreutz, Timo Breuer, Philipp Schaer, Krisztian Balog,
- Abstract要約: 我々は,次のクエリと発話の予測のためのシミュレーションベンチマークであるSim4IA-Benchを提案する。
データセットはCORE検索エンジンから160の現実世界の検索セッションで構成されている。
Sim4IA-Benchは、ユーザシミュレートアプローチを評価し比較するための基盤を提供する。
- 参考スコア(独自算出の注目度): 18.30483927706278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Validating user simulation is a difficult task due to the lack of established measures and benchmarks, which makes it challenging to assess whether a simulator accurately reflects real user behavior. As part of the Sim4IA Micro-Shared Task at the Sim4IA Workshop, SIGIR 2025, we present Sim4IA-Bench, a simulation benchmark suit for the prediction of the next queries and utterances, the first of its kind in the IR com- munity. Our dataset as part of the suite comprises 160 real-world search sessions from the CORE search engine. For 70 of these sessions, up to 62 simulator runs are available, divided into Task A and Task B, in which different approaches predicted users next search queries or utterances. Sim4IA-Bench provides a basis for evaluating and comparing user simu- lation approaches and for developing new measures of simulator validity. Although modest in size, the suite represents the first publicly available benchmark that links real search sessions with simulated next-query pre- dictions. In addition to serving as a testbed for next query prediction, it also enables exploratory studies on query reformulation behavior, intent drift, and interaction-aware retrieval evaluation. We also introduce a new measure for evaluating next-query predictions in this task. By making the suite publicly available, we aim to promote reproducible research and stimulate further work on realistic and explainable user simulation for information access: https://github.com/irgroup/Sim4IA-Bench.
- Abstract(参考訳): ユーザシミュレーションの検証は、確立された測定基準やベンチマークが欠如しているため難しい作業であり、シミュレータが実際のユーザの振る舞いを正確に反映しているかどうかを評価することは困難である。
The Sim4IA Micro-Shared Task at the Sim4IA Workshop, SIGIR 2025, we present Sim4IA-Bench, a simulation benchmark suit for the next query and utterances, is the first of its kind in the IR com-munity。
このスイートに含まれるデータセットは,CORE検索エンジンから160の現実世界の検索セッションで構成されている。
これらのセッションのうち70のセッションでは、62のシミュレータ実行が利用可能で、タスクAとタスクBに分けられ、そこでは異なるアプローチがユーザの次の検索クエリや発話を予測している。
Sim4IA-Benchは、ユーザシミュレートアプローチの評価と比較、およびシミュレータの有効性の新たな尺度の開発のための基盤を提供する。
サイズは控えめだが、このスイートは、実際の検索セッションとシミュレーションされた次のクエリプレ辞書をリンクする最初の公開ベンチマークである。
次回のクエリ予測のためのテストベッドとして機能するだけでなく、クエリの修正行動、意図の漂流、インタラクション認識による評価に関する探索的研究も可能である。
また,本課題では,次のクエリ予測を評価するための新しい尺度も導入する。
このスイートを一般公開することで、再現可能な研究を促進し、情報アクセスのための現実的で説明可能なユーザシミュレーションをさらに促進することを目指している。
関連論文リスト
- Large Language Models as Virtual Survey Respondents: Evaluating Sociodemographic Response Generation [18.225151370273093]
本稿では,Large Language Models (LLMs) を用いた仮想調査回答者のシミュレーションを行う。
部分属性シミュレーション(PAS)と完全属性シミュレーション(FAS)の2つの新しいシミュレーション設定を導入する。
LLM-S3 (Large Language Model-based Sociodemography Simulation Survey) は4つの社会学領域にまたがる11の現実世界の公開データセットにまたがる総合ベンチマークスイートである。
論文 参考訳(メタデータ) (2025-09-08T04:59:00Z) - YuLan-OneSim: Towards the Next Generation of Social Simulator with Large Language Models [50.35333054932747]
本稿では,YuLan-OneSimというソーシャルシミュレータを紹介する。
ユーザは、シミュレータとの自然言語インタラクションを通じて、シミュレーションシナリオを記述し、洗練することができます。
我々は、経済学、社会学、政治、心理学、組織、人口統計学、法律、コミュニケーションを含む8つの領域にまたがる50のデフォルトシミュレーションシナリオを実装した。
論文 参考訳(メタデータ) (2025-05-12T14:05:17Z) - Exploring Human-Like Thinking in Search Simulations with Large Language Models [9.825091149361208]
ユーザ検索行動のシミュレーションは情報検索において重要な課題である。
大規模言語モデル(LLM)の最近の進歩は、人間のようなアクションを生成する新しい可能性を開く。
我々は,LLMを利用してユーザの隠れ認知過程をシミュレートすることで,人間的な思考を探索シミュレーションに統合することを検討する。
論文 参考訳(メタデータ) (2025-04-10T09:04:58Z) - USimAgent: Large Language Models for Simulating Search Users [33.17004578463697]
本稿では,大規模言語モデルに基づくユーザ検索行動シミュレータUSimAgentを紹介する。
シミュレータは、検索中のユーザのクエリ、クリック、動作の停止をシミュレートすることができる。
実ユーザ行動データセットに関する実証調査では、シミュレータがクエリ生成において既存のメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-14T07:40:54Z) - BASES: Large-scale Web Search User Simulation with Large Language Model
based Agents [108.97507653131917]
BASESは、大きな言語モデル(LLM)を持つ新しいユーザーシミュレーションフレームワークである。
シミュレーションフレームワークは,大規模に独自のユーザプロファイルを生成することができ,その結果,多様な検索行動が生まれる。
WARRIORSは、中国語と英語の両方のバージョンを含む、Web検索ユーザ行動を含む、新しい大規模なデータセットである。
論文 参考訳(メタデータ) (2024-02-27T13:44:09Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。