論文の概要: Is Synthetic Dataset Reliable for Benchmarking Generalizable Person
Re-Identification?
- arxiv url: http://arxiv.org/abs/2209.05047v1
- Date: Mon, 12 Sep 2022 06:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 13:19:03.964224
- Title: Is Synthetic Dataset Reliable for Benchmarking Generalizable Person
Re-Identification?
- Title(参考訳): 合成データセットは、一般化された人物再同定のベンチマークに信頼できるか?
- Authors: Cuicui Kang
- Abstract要約: 最近の大規模合成データセット ClonedPerson は実世界のデータセットと統計的に同じGPReIDのベンチマークに確実に使用できることを示す。
本研究では、ソーストレーニングセットとターゲットテストセットの両方に合成データセットを使用することを保証する。
- 参考スコア(独自算出の注目度): 1.1041211464412568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies show that models trained on synthetic datasets are able to
achieve better generalizable person re-identification (GPReID) performance than
that trained on public real-world datasets. On the other hand, due to the
limitations of real-world person ReID datasets, it would also be important and
interesting to use large-scale synthetic datasets as test sets to benchmark
person ReID algorithms. Yet this raises a critical question: is synthetic
dataset reliable for benchmarking generalizable person re-identification? In
the literature there is no evidence showing this. To address this, we design a
method called Pairwise Ranking Analysis (PRA) to quantitatively measure the
ranking similarity and perform the statistical test of identical distributions.
Specifically, we employ Kendall rank correlation coefficients to evaluate
pairwise similarity values between algorithm rankings on different datasets.
Then, a non-parametric two-sample Kolmogorov-Smirnov (KS) test is performed for
the judgement of whether algorithm ranking correlations between synthetic and
real-world datasets and those only between real-world datasets lie in identical
distributions. We conduct comprehensive experiments, with ten representative
algorithms, three popular real-world person ReID datasets, and three recently
released large-scale synthetic datasets. Through the designed pairwise ranking
analysis and comprehensive evaluations, we conclude that a recent large-scale
synthetic dataset ClonedPerson can be reliably used to benchmark GPReID,
statistically the same as real-world datasets. Therefore, this study guarantees
the usage of synthetic datasets for both source training set and target testing
set, with completely no privacy concerns from real-world surveillance data.
Besides, the study in this paper might also inspire future designs of synthetic
datasets.
- Abstract(参考訳): 最近の研究では、合成データセットで訓練されたモデルは、公開現実のデータセットで訓練されたモデルよりも、より一般化可能な人物再識別(GPReID)のパフォーマンスを達成することができることが示されている。
一方、実世界の人物ReIDデータセットの制限のため、個人ReIDアルゴリズムをベンチマークするテストセットとして大規模合成データセットを使用することも重要かつ興味深いだろう。
合成データセットは、一般化可能な人物の再識別のベンチマークに信頼できるのか?
文献にこれを示す証拠はない。
そこで我々は,ペアワイズランキング分析(pra)という手法を考案し,ランキングの類似度を定量的に測定し,同一分布の統計テストを行う。
具体的には,kendallランク相関係数を用いて,異なるデータセット上でのアルゴリズムランキング間の相似性を評価する。
次に、合成データセットと実世界のデータセット間のアルゴリズムの相関関係が同一分布にあるか否かを判定するために、非パラメトリック2サンプルのコルモゴロフ・スミルノフ(KS)試験を行う。
10の代表的なアルゴリズム、人気のある現実世界のReIDデータセット3つ、そして最近リリースされた大規模合成データセット3つで包括的な実験を行います。
ペアワイズランキング分析と包括的評価により,近年の大規模合成データセットクローンは,実世界のデータセットと統計的に同じgpreidのベンチマークに確実に使用することができる。
そこで本研究では,実世界の監視データからプライバシーの懸念を全く受けずに,ソーストレーニングセットとターゲットテストセットの両方に合成データセットを使用することを保証している。
さらに、この研究は、合成データセットの将来の設計を刺激するかもしれない。
関連論文リスト
- Massively Annotated Datasets for Assessment of Synthetic and Real Data in Face Recognition [0.2775636978045794]
実データと合成データを用いて学習したモデルの性能のドリフトについて検討する。
属性集合上の実データと合成データセットの差について検討する。
興味深いことに、我々は実際のサンプルが合成分布を説明するのに十分であるにもかかわらず、その逆はもはや真実ではないことを検証した。
論文 参考訳(メタデータ) (2024-04-23T17:10:49Z) - Trading Off Scalability, Privacy, and Performance in Data Synthesis [11.698554876505446]
a) Howsoエンジンを導入し、(b)ランダムプロジェクションに基づく合成データ生成フレームワークを提案する。
Howsoエンジンが生成する合成データは、プライバシーと正確性に優れており、その結果、総合的なスコアが最高の結果となる。
提案するランダム・プロジェクション・ベース・フレームワークは,高い精度で合成データを生成することができ,スケーラビリティが最速である。
論文 参考訳(メタデータ) (2023-12-09T02:04:25Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Alice Benchmarks: Connecting Real World Re-Identification with the
Synthetic [92.02220105679713]
我々は、Aliceベンチマーク、大規模データセット、ベンチマークおよび評価プロトコルを研究コミュニティに導入する。
Aliceベンチマークでは、人と車の2つのre-IDタスクが提供されている。
実際のターゲットの重要な特徴として、トレーニングセットのクラスタビリティは、実際のドメイン適応テストシナリオに近づくように手動で保証されない。
論文 参考訳(メタデータ) (2023-10-06T17:58:26Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Synthetic Benchmarks for Scientific Research in Explainable Machine
Learning [14.172740234933215]
我々はXAI-Benchをリリースした。XAI-Benchは、合成データセットと、特徴属性アルゴリズムをベンチマークするためのライブラリである。
実世界のデータセットとは異なり、合成データセットは条件付き期待値の効率的な計算を可能にする。
いくつかの評価指標にまたがって一般的な説明可能性手法をベンチマークし、一般的な説明者にとっての障害モードを特定することで、ライブラリのパワーを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:10:21Z) - On the use of automatically generated synthetic image datasets for
benchmarking face recognition [2.0196229393131726]
GAN(Generative Adversarial Networks)の最近の進歩は、実際のデータセットを合成データセットで置き換える経路を提供する。
現実的な顔画像を合成するためのGAN(Generative Adversarial Networks)の最近の進歩は、実際のデータセットを合成データセットで置き換える経路を提供する。
合成データセットのベンチマーク結果は、良い置換であり、多くの場合、実際のデータセットのベンチマークと同様のエラー率とシステムランキングを提供する。
論文 参考訳(メタデータ) (2021-06-08T09:54:02Z) - Benchmarking the Benchmark -- Analysis of Synthetic NIDS Datasets [4.125187280299247]
我々は,より最近で関連する3つのNIDSデータセットにおいて,良性トラフィックの統計的性質を解析した。
以上の結果から,合成データセットと実世界の2つのデータセットの統計的特徴の相違が明らかとなった。
論文 参考訳(メタデータ) (2021-04-19T03:17:37Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。