論文の概要: SynAE: A Framework for Measuring the Quality of Synthetic Data for Tool-Calling Agent Evaluations
- arxiv url: http://arxiv.org/abs/2605.22564v1
- Date: Thu, 21 May 2026 14:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.307285
- Title: SynAE: A Framework for Measuring the Quality of Synthetic Data for Tool-Calling Agent Evaluations
- Title(参考訳): SynAE: ツールケアエージェント評価のための合成データの品質測定フレームワーク
- Authors: Shuaiqi Wang, Aadyaa Maddi, Zinan Lin, Giulia Fanti,
- Abstract要約: SynAEは、ツールコールエージェントの合成ベンチマークが、実際のデータトラジェクトリの特性を如何に再現し、強化するかを評価するための評価フレームワークである。
我々は最近のエージェントベンチマークを用いてSynAEを評価し、現実的で制御された生成方式を用いて一般的な合成データ障害モードをテストする。
- 参考スコア(独自算出の注目度): 18.71623023651951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today, tool-calling agents are commonly evaluated or tested on static datasets of execution traces, including input commands, agent responses, and associated tool calls. However, internal production datasets are often insufficient or unusable for testing; for example, they may contain sensitive or proprietary data, or they may be too sparse to support comprehensive testing (especially pre-deployment). In these settings, practitioners are increasingly replacing or augmenting real datasets with synthetic ones for evaluation purposes. A key challenge is quantifying the relation between these synthetic datasets and the real data. We introduce SynAE, an evaluation framework for assessing how well synthetic benchmarks for multi-turn, tool-calling agents replicate and augment the characteristics of real data trajectories. SynAE assesses the validity, fidelity, and diversity of synthetic data across four metric categories: (i) task instructions and intermediate responses, (ii) tool calls, (iii) final outputs, and (iv) downstream evaluation. We evaluate SynAE using recent agent benchmarks and test common synthetic data failure modes via realistic and controlled generation schemes. SynAE detects fine-grained variations in data validity, fidelity and diversity, and shows that no single metric is sufficient to fully characterize synthetic data quality, motivating a multi-axis evaluation of synthetic data for agent testing. A demo of SynAE is available at https://synae-2026-synae-demo.static.hf.space/index.html, with code at https://github.com/wsqwsq/SynAE.
- Abstract(参考訳): 現在、ツール呼び出しエージェントは、入力コマンド、エージェント応答、関連するツール呼び出しを含む実行トレースの静的データセットで一般的に評価またはテストされている。
例えば、機密データやプロプライエタリデータを含む場合や、包括的なテスト(特にデプロイ前)をサポートするには不十分すぎる場合があります。
これらの設定では、実践者は、評価目的のために、実際のデータセットを合成データセットに置き換えたり、強化したりしています。
重要な課題は、これらの合成データセットと実際のデータとの関係を定量化することだ。
実データトラジェクトリの特性を再現・拡張する多ターン・ツールコールエージェントの総合ベンチマークの評価フレームワークであるSynAEを紹介する。
SynAEは、合成データの妥当性、忠実性、多様性を4つの尺度に分けて評価する。
(i)タスク命令及び中間応答
(ii)ツールコール
(三)最終的な出力、及び
(4)下流評価。
我々は最近のエージェントベンチマークを用いてSynAEを評価し、現実的で制御された生成方式を用いて一般的な合成データ障害モードをテストする。
SynAEは、データの妥当性、忠実度、多様性のきめ細かいばらつきを検出し、合成データ品質を完全に特徴付けるのに1つの指標が十分でないことを示し、エージェントテストのための合成データの多軸評価を動機付けている。
SynAEのデモはhttps://synae-2026-synae-demo.static.hf.space/index.htmlで、コードはhttps://github.com/wsqwsq/SynAEで公開されている。
関連論文リスト
- Memisis: Orchestrating and Evaluating Synthetic Data for Tabular Health Datasets [1.2089037589460674]
合成データのオーケストレーションと評価を行うツールであるMemisisを紹介する。
私たちのツールは、データ生成、検証、評価のための統合ワークフローを作成します。
論文 参考訳(メタデータ) (2026-05-18T02:24:52Z) - Leveraging Synthetic Data for Enhancing Egocentric Hand-Object Interaction Detection [23.019466723490297]
本研究は,エゴセントリック画像から手動物体のインタラクションを検出することにおける合成データの役割について考察する。
合成データと実際のラベル付きデータの10%しか使用せず、実データのみにトレーニングされたモデルよりも総合的なAPの改善を実現している。
論文 参考訳(メタデータ) (2026-03-31T13:32:37Z) - Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。
合成データがモデル一般化をどのように改善するかを批判的に検討する。
本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-09-07T19:28:52Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - TabSynDex: A Universal Metric for Robust Evaluation of Synthetic Tabular Data [14.900342838726747]
合成データのロバストな評価のための新しい普遍計量TabSynDexを提案する。
シングルスコアメトリックであるTabSynDexは、ニューラルネットワークベースのアプローチのトレーニングを観察および評価するためにも使用できる。
論文 参考訳(メタデータ) (2022-07-12T04:08:11Z) - Synthetic Benchmarks for Scientific Research in Explainable Machine
Learning [14.172740234933215]
我々はXAI-Benchをリリースした。XAI-Benchは、合成データセットと、特徴属性アルゴリズムをベンチマークするためのライブラリである。
実世界のデータセットとは異なり、合成データセットは条件付き期待値の効率的な計算を可能にする。
いくつかの評価指標にまたがって一般的な説明可能性手法をベンチマークし、一般的な説明者にとっての障害モードを特定することで、ライブラリのパワーを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。