論文の概要: MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness
- arxiv url: http://arxiv.org/abs/2601.08118v1
- Date: Tue, 13 Jan 2026 01:16:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.001339
- Title: MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness
- Title(参考訳): MirrorBench: ユーザプロキシエージェントを人間らしく評価するための拡張可能なフレームワーク
- Authors: Ashutosh Hathidara, Julien Yu, Vaishali Senthil, Sebastian Schreiber, Anil Babu Ankisettipalli,
- Abstract要約: 大型言語モデル (LLM) は人間のシミュレータとしてますます使われている。
Naive "act-as-a-user" はしばしば冗長で非現実的な発話をもたらす。
ユーザプロキシを評価するベンチマークフレームワークであるMIRRORBENCHについて述べる。
- 参考スコア(独自算出の注目度): 0.4893345190925178
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly used as human simulators, both for evaluating conversational systems and for generating fine-tuning data. However, naive "act-as-a-user" prompting often yields verbose, unrealistic utterances, underscoring the need for principled evaluation of so-called user proxy agents. We present MIRRORBENCH, a reproducible, extensible benchmarking framework that evaluates user proxies solely on their ability to produce human-like user utterances across diverse conversational tasks, explicitly decoupled from downstream task success. MIRRORBENCH features a modular execution engine with typed interfaces, metadata-driven registries, multi-backend support, caching, and robust observability. The system supports pluggable user proxies, datasets, tasks, and metrics, enabling researchers to evaluate arbitrary simulators under a uniform, variance-aware harness. We include three lexical-diversity metrics (MATTR, YULE'S K, and HD-D) and three LLM-judge-based metrics (GTEval, Pairwise Indistinguishability, and Rubric-and-Reason). Across four open datasets, MIRRORBENCH yields variance-aware results and reveals systematic gaps between user proxies and real human users. The framework is open source and includes a simple command-line interface for running experiments, managing configurations and caching, and generating reports. The framework can be accessed at https://github.com/SAP/mirrorbench.
- Abstract(参考訳): 大規模言語モデル(LLM)は、対話システムの評価と微調整データの生成の両方において、人間のシミュレータとしてますます使われている。
しかし、"act-as-a-user"プロンプトは、しばしば冗長で非現実的な発話をもたらし、いわゆるユーザプロキシエージェントの原則的評価の必要性を浮き彫りにする。
提案するMIRRORBENCHは再現性のある拡張可能なベンチマークフレームワークで,ユーザプロキシを,ダウンストリームタスクの成功から明確に切り離された,多種多様な会話タスクにまたがるヒューマンライクなユーザ発話を生成する能力のみに基づいて評価する。
MIRRORBENCHは、型付きインターフェイス、メタデータ駆動のレジストリ、マルチバックエンドのサポート、キャッシュ、堅牢な可観測性を備えたモジュール型実行エンジンを備えている。
このシステムはプラグイン可能なユーザプロキシ、データセット、タスク、メトリクスをサポートし、研究者は均一な分散認識ハーネスの下で任意のシミュレータを評価することができる。
我々は3つの語彙多様性指標(MATTR, YULE'S K, HD-D)と3つのLLM-judgeベースの指標(GTEval, Pairwise Indistinguishability, Rubric-and-Reason)を含む。
4つのオープンデータセットにまたがって、MIRRORBENCHは分散認識結果を出力し、ユーザプロキシと実際の人間のユーザの体系的なギャップを明らかにする。
フレームワークはオープンソースで、試験を実行し、設定とキャッシュを管理し、レポートを生成するための単純なコマンドラインインターフェイスを含んでいる。
フレームワークはhttps://github.com/SAP/mirrorbench.comからアクセスできる。
関連論文リスト
- FABRIC: Framework for Agent-Based Realistic Intelligence Creation [3.940391073007047]
大規模言語モデル(LLM)はエージェントとしてますます多くデプロイされ、目標を分解し、ツールを実行し、動的環境で結果を検証することが期待されている。
本稿では,LLMのみを用いたエージェントデータの統一化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-20T18:20:22Z) - Saving SWE-Bench: A Benchmark Mutation Approach for Realistic Agent Evaluation [5.332969177132911]
SWE-Bench Verifiedのようなソフトウェアエンジニアリングエージェントを評価するための現在のベンチマークは、主にGitHubの問題に由来する。
既存のベンチマークを現実的なユーザクエリに変換する,新たなベンチマークフレームワークを導入する。
論文 参考訳(メタデータ) (2025-10-10T04:42:02Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - ProxAnn: Use-Oriented Evaluations of Topic Models and Document Clustering [52.19512723549318]
我々は,実践者の実世界のモデル利用を反映したスケーラブルなヒューマン評価プロトコルを設計する。
このプロトコルを用いて、さまざまなトピックモデルから出力された大量のクラウドワーカーアノテーションを収集する。
次に、これらのアノテーションを用いて自動プロキシの検証を行い、最適なLCMプロキシが人間のアノテーションと統計的に区別できないことを発見した。
論文 参考訳(メタデータ) (2025-07-01T15:00:55Z) - Multimodal Information Retrieval for Open World with Edit Distance Weak Supervision [0.0]
FemmIRは、例えば類似性ラベルなしでマルチモーダルクエリで表現された情報に関連のある結果を検索するフレームワークである。
また,MuconoLの欠失症例に対してFemmIRを経験的に評価した。
論文 参考訳(メタデータ) (2025-06-25T00:25:08Z) - What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。
OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。
我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文 参考訳(メタデータ) (2025-06-10T15:59:38Z) - Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。
我々は,GPT-4が生成したコミットメッセージと,人間の専門家が編集したコミットメッセージからなる57対のデータセットを収集した。
以上の結果から,編集距離が最も高い相関性を示すのに対し,BLEUやMETEORなどの類似度は低い相関性を示すことがわかった。
論文 参考訳(メタデータ) (2024-10-15T20:32:07Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。