論文の概要: Evaluation of Agents under Simulated AI Marketplace Dynamics
- arxiv url: http://arxiv.org/abs/2604.14256v1
- Date: Wed, 15 Apr 2026 15:01:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:29.950431
- Title: Evaluation of Agents under Simulated AI Marketplace Dynamics
- Title(参考訳): シミュレーションAIマーケットプレースダイナミクスによるエージェントの評価
- Authors: To Eun Kim, Alireza Salemi, Hamed Zamani, Fernando Diaz,
- Abstract要約: 本稿では,情報アクセスシステムを競争市場への参加として評価するシミュレーションに基づくパラダイムを提案する。
我々はこの枠組みを定式化し、TRECのような評価キャンペーンにおける市場シミュレーション、メトリクス、最適化、導入に関する、ビジネスと経済に動機付けられた研究課題の概要を述べる。
- 参考スコア(独自算出の注目度): 72.02953516461965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern information access ecosystems consist of mixtures of systems, such as retrieval systems and large language models, and increasingly rely on marketplaces to mediate access to models, tools, and data, making competition between systems inherent to deployment. In such settings, outcomes are shaped not only by benchmark quality but also by competitive pressure, including user switching, routing decisions, and operational constraints. Yet evaluation is still largely conducted on static benchmarks with accuracy-focused measures that assume systems operate in isolation. This mismatch makes it difficult to predict post-deployment success and obscures competitive effects such as early-adoption advantages and market dominance. We introduce Marketplace Evaluation, a simulation-based paradigm that evaluates information access systems as participants in a competitive marketplace. By simulating repeated interactions and evolving user and agent preferences, the framework enables longitudinal evaluation and marketplace-level metrics, such as retention and market share, that complement and can extend beyond traditional accuracy-based metrics. We formalize the framework and outline a research agenda, motivated by business and economics, around marketplace simulation, metrics, optimization, and adoption in evaluation campaigns like TREC.
- Abstract(参考訳): 現代の情報アクセスエコシステムは、検索システムや大規模言語モデルなどのシステムの組み合わせで構成されており、モデル、ツール、データへのアクセスを仲介するマーケットプレースに依存している。
このような設定では、結果はベンチマークの品質だけでなく、ユーザの切り替え、ルーティング決定、運用上の制約といった競合的なプレッシャーによっても形作られます。
しかし、システムは単独で動作していると仮定する精度に重点を置いた静的ベンチマークでは、評価が引き続き行われている。
このミスマッチは、デプロイ後の成功を予測するのを難しくし、早期適応の利点や市場支配のような競争効果を曖昧にする。
本稿では,情報アクセスシステムを競争市場として評価するシミュレーションに基づくパラダイムであるMarketplace Evaluationを紹介する。
反復的なインタラクションをシミュレートし、ユーザとエージェントの好みを進化させることで、従来の精度ベースのメトリクスを補完し、拡張可能な、保持や市場シェアといった、縦断的な評価と市場レベルのメトリクスを可能にします。
我々はこの枠組みを定式化し、TRECのような評価キャンペーンにおける市場シミュレーション、メトリクス、最適化、導入に関する、ビジネスと経済に動機付けられた研究課題の概要を述べる。
関連論文リスト
- Reinforcement Learning-Based Market Making as a Stochastic Control on Non-Stationary Limit Order Book Dynamics [0.0]
強化学習(Reinforcement Learning)は、適応型およびデータ駆動型戦略を開発するための有望なフレームワークとして登場した。
本稿では,市場形成における強化学習エージェントの統合について考察する。
論文 参考訳(メタデータ) (2025-09-15T21:08:13Z) - Benchmarking Robust Aggregation in Decentralized Gradient Marketplaces [12.367831558441994]
本稿では,バイヤーベースライン・リライアント・マーケットプレースにおけるロバスト・グラデーション・アグリゲーション・メソッドを全体評価するためのベンチマーク・フレームワークを提案する。
提案するコントリビューションは,(1)多様な買い手ベースラインと多様な売り手分布を備えたシミュレーション環境モデリング型マーケットプレースダイナミクス,(2)経済効率,公正性,選択ダイナミクスといったマーケットプレース中心の次元を持つ標準FLメトリクスを増強する評価方法論,(3)既存の分散グラディエントマーケットプレースフレームワークであるMartFLの詳細な実証分析である。
論文 参考訳(メタデータ) (2025-09-06T21:06:50Z) - ContestTrade: A Multi-Agent Trading System Based on Internal Contest Mechanism [8.46483000946212]
大規模言語モデル(LLM)に基づくエージェントは、金融取引において大きな可能性を示す。
マーケットノイズに対する高い感度は、LLMベースのトレーディングシステムの性能を損なう。
本稿では,現代企業経営構造にインスパイアされた内部競争機構を特徴とする新しいマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-08-01T11:48:13Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。
本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:39:09Z) - MARS-Gym: A Gym framework to model, train, and evaluate Recommender
Systems for Marketplaces [51.123916699062384]
MARS-Gymは、市場におけるレコメンデーションのための強化学習エージェントの構築と評価を行うオープンソースフレームワークである。
本稿では,Trivagoマーケットプレースデータセットにおいて,さまざまなベースラインエージェントの実装とメトリクス駆動による分析を行う。
学術研究と生産システムとのギャップを埋め、新しいアルゴリズムやアプリケーションの設計を容易にしたいと考えている。
論文 参考訳(メタデータ) (2020-09-30T16:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。