論文の概要: Generating Synthetic Datasets by Interpolating along Generalized
Geodesics
- arxiv url: http://arxiv.org/abs/2306.06866v1
- Date: Mon, 12 Jun 2023 04:46:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 16:09:00.953855
- Title: Generating Synthetic Datasets by Interpolating along Generalized
Geodesics
- Title(参考訳): 一般測地線に沿った補間による合成データセットの生成
- Authors: Jiaojiao Fan and David Alvarez-Melis
- Abstract要約: 組み合わせ”として合成可能なデータセットの組み合わせ方法を示す。
特に、異なるラベルセットを持つデータセットと無関係なデータセットの間でさえ補間する方法を示す。
これは、オンデマンドデータセット合成をターゲットとする、有望な新しいアプローチであることを実証しています。
- 参考スコア(独自算出の注目度): 18.278734644369052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data for pretraining machine learning models often consists of collections of
heterogeneous datasets. Although training on their union is reasonable in
agnostic settings, it might be suboptimal when the target domain -- where the
model will ultimately be used -- is known in advance. In that case, one would
ideally pretrain only on the dataset(s) most similar to the target one. Instead
of limiting this choice to those datasets already present in the pretraining
collection, here we explore extending this search to all datasets that can be
synthesized as `combinations' of them. We define such combinations as
multi-dataset interpolations, formalized through the notion of generalized
geodesics from optimal transport (OT) theory. We compute these geodesics using
a recent notion of distance between labeled datasets, and derive alternative
interpolation schemes based on it: using either barycentric projections or
optimal transport maps, the latter computed using recent neural OT methods.
These methods are scalable, efficient, and -- notably -- can be used to
interpolate even between datasets with distinct and unrelated label sets.
Through various experiments in transfer learning in computer vision, we
demonstrate this is a promising new approach for targeted on-demand dataset
synthesis.
- Abstract(参考訳): 機械学習モデルの事前トレーニングのためのデータは、しばしば異種データセットのコレクションで構成される。
ユニオンでのトレーニングは、不可知的な設定では妥当だが、ターゲットドメイン(最終的にモデルが使用される)が事前に知られているとき、それは準最適であるかもしれない。
その場合、理想的には、ターゲットのデータセットと最もよく似たデータセットにのみ事前トレーニングされる。
この選択をプリトレーニングコレクションにすでに存在するデータセットに限定するのではなく、この検索を‘合成’として合成できるすべてのデータセットに拡張する。
このような組み合わせをマルチデータセット補間として定義し、最適輸送(ot)理論から一般化された測地線の概念を定式化した。
我々は、最近のラベル付きデータセット間の距離の概念を用いてこれらの測地学を計算し、それに基づく代替補間スキームを導出する。
これらのメソッドはスケーラブルで効率的であり、特に -- 異なるラベルセットと無関係なデータセット間でも補間することができる。
コンピュータビジョンにおけるトランスファーラーニングの様々な実験を通じて、この手法は、対象とするオンデマンドデータセット合成に有望な新しいアプローチであることを実証する。
関連論文リスト
- Modified CycleGAN for the synthesization of samples for wheat head
segmentation [0.09999629695552192]
注釈付きデータセットがない場合は、モデル開発に合成データを使用することができる。
そこで我々は,小麦頭部分割のための現実的な注釈付き合成データセットを開発した。
その結果、Diceのスコアは内部データセットで83.4%、外部のGlobal Wheat Head Detectionデータセットで83.6%に達した。
論文 参考訳(メタデータ) (2024-02-23T06:42:58Z) - Group Distributionally Robust Dataset Distillation with Risk
Minimization [18.07189444450016]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
数値実験により,その有効一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Joint Distributional Learning via Cramer-Wold Distance [0.7614628596146602]
高次元データセットの共分散学習を容易にするために,クレーマー-ウォルド距離正規化を導入し,クレーマー-ウォルド距離正規化法を提案する。
また、フレキシブルな事前モデリングを可能にする2段階学習手法を導入し、集約後と事前分布のアライメントを改善する。
論文 参考訳(メタデータ) (2023-10-25T05:24:23Z) - Composable Core-sets for Diversity Approximation on Multi-Dataset
Streams [4.765131728094872]
構成可能なコアセットはコアセットであり、コアセットのサブセットを結合して元のデータに対する近似を得るという性質を持つ。
本研究では,構成可能なコアセットを構築するためのコアセット構築アルゴリズムを導入し,アクティブな学習環境におけるストリームデータを要約する。
論文 参考訳(メタデータ) (2023-08-10T23:24:51Z) - Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。
提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文 参考訳(メタデータ) (2023-07-12T16:28:21Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z) - Geometric Dataset Distances via Optimal Transport [15.153110906331733]
本稿では, (i) モデルに依存しない, (ii) トレーニングを伴わない, (iii) ラベル集合が完全に不連結であり, (iv) 理論的な足場が固い場合でも, データセットを比較できる,という,データセット間の距離の代替概念を提案する。
この距離は最適な輸送に依存しており、リッチな幾何学的認識、解釈可能な対応およびよく理解された性質を提供する。
以上の結果から,この新たな距離は,データセットの有意義な比較を提供し,様々な実験環境やデータセット間での伝達学習困難度と相関関係があることが示唆された。
論文 参考訳(メタデータ) (2020-02-07T17:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。