Fugu-MT 論文翻訳(概要): BASES: Large-scale Web Search User Simulation with Large Language Model based Agents

論文の概要: BASES: Large-scale Web Search User Simulation with Large Language Model based Agents

arxiv url: http://arxiv.org/abs/2402.17505v1
Date: Tue, 27 Feb 2024 13:44:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 16:15:58.359616
Title: BASES: Large-scale Web Search User Simulation with Large Language Model based Agents
Title（参考訳）: bases: 大言語モデルに基づくエージェントによる大規模web検索ユーザシミュレーション
Authors: Ruiyang Ren, Peng Qiu, Yingqi Qu, Jing Liu, Wayne Xin Zhao, Hua Wu, Ji-Rong Wen, Haifeng Wang
Abstract要約: BASESは、大きな言語モデル(LLM)を持つ新しいユーザーシミュレーションフレームワークである。シミュレーションフレームワークは,大規模に独自のユーザプロファイルを生成することができ,その結果,多様な検索行動が生まれる。 WARRIORSは、中国語と英語の両方のバージョンを含む、Web検索ユーザ行動を含む、新しい大規模なデータセットである。
参考スコア（独自算出の注目度）: 108.97507653131917
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to the excellent capacities of large language models (LLMs), it becomes feasible to develop LLM-based agents for reliable user simulation. Considering the scarcity and limit (e.g., privacy issues) of real user data, in this paper, we conduct large-scale user simulation for web search, to improve the analysis and modeling of user search behavior. Specially, we propose BASES, a novel user simulation framework with LLM-based agents, designed to facilitate comprehensive simulations of web search user behaviors. Our simulation framework can generate unique user profiles at scale, which subsequently leads to diverse search behaviors. To demonstrate the effectiveness of BASES, we conduct evaluation experiments based on two human benchmarks in both Chinese and English, demonstrating that BASES can effectively simulate large-scale human-like search behaviors. To further accommodate the research on web search, we develop WARRIORS, a new large-scale dataset encompassing web search user behaviors, including both Chinese and English versions, which can greatly bolster research in the field of information retrieval. Our code and data will be publicly released soon.
Abstract（参考訳）: 大規模言語モデル(LLM)の優れた能力のため、信頼性の高いユーザシミュレーションのためのLLMベースのエージェントの開発が可能である。本稿では,実際のユーザデータの不足と限界(プライバシ問題など)を考慮して,web検索における大規模ユーザシミュレーションを行い,ユーザ検索行動の分析とモデリングを改善する。特に,web検索ユーザの行動の総合的なシミュレーションを容易にするために,llmベースのエージェントを用いた新しいユーザシミュレーションフレームワークであるbasesを提案する。シミュレーションフレームワークは,ユーザプロファイルを大規模に生成することで,検索行動の多様化を実現する。ベースの有効性を実証するために,中国語と英語の2つのベンチマークに基づく評価実験を行い,ベースが大規模人間ライクな検索行動を効果的にシミュレートできることを実証した。 web 検索の研究をさらに充実させるために,中国語版と英語版の両方を含む web 検索ユーザの行動を包含する新たな大規模データセット warriors を開発した。コードとデータはまもなく公開されます。

関連論文リスト

Individual Turing Test: A Case Study of LLM-based Simulation Using Longitudinal Personal Data [54.145424717168794]
大きな言語モデル(LLM)は、目覚ましい人間のような能力を示しているが、特定の個人を複製する能力は未発見のままである。本稿では,10年以上にわたるプライベートメッセージ履歴のボランティア配信アーカイブを用いて,LSMに基づく個人シミュレーションのケーススタディを提案する。本研究は,ボランティアの知人が,最も有望な多候補プール内の応答を正確に識別できるかどうかを評価するための「個別チューリングテスト」を提案する。
論文参考訳（メタデータ） (2026-03-01T21:46:27Z)
Generative Agents Navigating Digital Libraries [2.50369129460887]
Agent4DLは、デジタルライブラリ環境用に特別に設計されたユーザ検索行動シミュレータである。 Agent4DLは、実際の検索戦略を忠実に模倣する、現実的なユーザプロファイルと動的検索セッションを生成する。実ユーザインタラクションを再現するシミュレータの精度は,実ユーザデータとの比較により検証されている。
論文参考訳（メタデータ） (2026-02-26T02:08:39Z)
SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors [58.87134689752605]
我々は,LLMシミュレーションの堅牢で再現可能な科学のための,最初の大規模標準ベンチマークであるSimBenchを紹介する。現在、最高のLLMでさえシミュレーション能力が限られ(スコア: 40.80/100)、性能はモデルサイズと対数的にスケールする。シミュレーション能力は、深い知識集約的推論と最も強く相関していることを示す。
論文参考訳（メタデータ） (2025-10-20T13:14:38Z)
OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation [56.47029531207105]
OPERAは、ユーザペルソナ、ブラウザの観察、きめ細かいWebアクション、そして自己報告されたジャストインタイム論理を包括的にキャプチャする最初のパブリックデータセットである。我々は,現在のLCMがユーザの次の行動と合理的性をどの程度予測できるかを評価するための最初のベンチマークを確立する。
論文参考訳（メタデータ） (2025-06-05T21:37:49Z)
LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文参考訳（メタデータ） (2025-06-02T22:36:02Z)
Exploring Human-Like Thinking in Search Simulations with Large Language Models [9.825091149361208]
ユーザ検索行動のシミュレーションは情報検索において重要な課題である。大規模言語モデル(LLM)の最近の進歩は、人間のようなアクションを生成する新しい可能性を開く。我々は,LLMを利用してユーザの隠れ認知過程をシミュレートすることで,人間的な思考を探索シミュレーションに統合することを検討する。
論文参考訳（メタデータ） (2025-04-10T09:04:58Z)
Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文参考訳（メタデータ） (2025-02-10T21:59:27Z)
Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。 AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文参考訳（メタデータ） (2024-10-18T08:01:39Z)
GenSim: A General Social Simulation Platform with Large Language Model based Agents [111.00666003559324]
我々はtextitGenSim と呼ばれる新しい大規模言語モデル (LLM) ベースのシミュレーションプラットフォームを提案する。我々のプラットフォームは10万のエージェントをサポートし、現実世界のコンテキストで大規模人口をシミュレートする。我々の知る限り、GenSimは汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初の一歩である。
論文参考訳（メタデータ） (2024-10-06T05:02:23Z)
Agentic Society: Merging skeleton from real world and texture from Large Language Model [4.740886789811429]
本稿では,人口統計データと大規模言語モデルを利用して仮想人口を生成する新しい枠組みについて検討する。本手法は,社会科学実験において,多様な人間の行動のシミュレーションに不可欠な多様性のあるペルソナを生産することを示す。しかし, 評価結果から, 現在のLSMの能力に限界があるため, 統計的真理性の弱い兆候しか得られないことが示唆された。
論文参考訳（メタデータ） (2024-09-02T08:28:19Z)
How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation [14.646529557978512]
本稿では,対話型レコメンダシステムのためのユーザシミュレータ構築におけるLarge Language Modelsの使用制限について分析する。会話履歴やユーザシミュレータの応答で発生するデータ漏洩は,評価結果を膨らませる結果となる。そこで我々はSimpleUserSimを提案する。
論文参考訳（メタデータ） (2024-03-25T04:21:06Z)
USimAgent: Large Language Models for Simulating Search Users [33.17004578463697]
本稿では,大規模言語モデルに基づくユーザ検索行動シミュレータUSimAgentを紹介する。シミュレータは、検索中のユーザのクエリ、クリック、動作の停止をシミュレートすることができる。実ユーザ行動データセットに関する実証調査では、シミュレータがクエリ生成において既存のメソッドよりも優れていることが示された。
論文参考訳（メタデータ） (2024-03-14T07:40:54Z)
Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval [56.65147231836708]
SWIM-IRは, 微調整多言語高密度検索のための33言語を含む合成検索訓練データセットである。 SAPは、ターゲット言語における情報クエリの生成において、大きな言語モデル(LLM)を支援する。我々のモデルはSWIM-Xと呼ばれ、人間に指示された高密度検索モデルと競合する。
論文参考訳（メタデータ） (2023-11-10T00:17:10Z)
Unlocking the Potential of User Feedback: Leveraging Large Language Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文参考訳（メタデータ） (2023-06-16T13:04:56Z)
User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文参考訳（メタデータ） (2023-06-05T02:58:35Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
Imitate TheWorld: A Search Engine Simulation Platform [13.011052642314421]
生成されたページに対して、よく訓練された識別器によるフィードバックを適切に提供できるシミュレーション検索エンジンAESimを構築した。実世界とのつながりを失う従来のシミュレーションプラットフォームとは異なり、われわれのデータは検索の実際のデータに依存している。我々の実験は、AESimが古典的なランキングの指標よりも、ランキングモデルのオンラインパフォーマンスをよりよく反映できることを示した。
論文参考訳（メタデータ） (2021-07-16T03:55:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。