論文の概要: Generating Synthetic Datasets by Interpolating along Generalized
Geodesics
- arxiv url: http://arxiv.org/abs/2306.06866v1
- Date: Mon, 12 Jun 2023 04:46:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 16:09:00.953855
- Title: Generating Synthetic Datasets by Interpolating along Generalized
Geodesics
- Title(参考訳): 一般測地線に沿った補間による合成データセットの生成
- Authors: Jiaojiao Fan and David Alvarez-Melis
- Abstract要約: 組み合わせ”として合成可能なデータセットの組み合わせ方法を示す。
特に、異なるラベルセットを持つデータセットと無関係なデータセットの間でさえ補間する方法を示す。
これは、オンデマンドデータセット合成をターゲットとする、有望な新しいアプローチであることを実証しています。
- 参考スコア(独自算出の注目度): 18.278734644369052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data for pretraining machine learning models often consists of collections of
heterogeneous datasets. Although training on their union is reasonable in
agnostic settings, it might be suboptimal when the target domain -- where the
model will ultimately be used -- is known in advance. In that case, one would
ideally pretrain only on the dataset(s) most similar to the target one. Instead
of limiting this choice to those datasets already present in the pretraining
collection, here we explore extending this search to all datasets that can be
synthesized as `combinations' of them. We define such combinations as
multi-dataset interpolations, formalized through the notion of generalized
geodesics from optimal transport (OT) theory. We compute these geodesics using
a recent notion of distance between labeled datasets, and derive alternative
interpolation schemes based on it: using either barycentric projections or
optimal transport maps, the latter computed using recent neural OT methods.
These methods are scalable, efficient, and -- notably -- can be used to
interpolate even between datasets with distinct and unrelated label sets.
Through various experiments in transfer learning in computer vision, we
demonstrate this is a promising new approach for targeted on-demand dataset
synthesis.
- Abstract(参考訳): 機械学習モデルの事前トレーニングのためのデータは、しばしば異種データセットのコレクションで構成される。
ユニオンでのトレーニングは、不可知的な設定では妥当だが、ターゲットドメイン(最終的にモデルが使用される)が事前に知られているとき、それは準最適であるかもしれない。
その場合、理想的には、ターゲットのデータセットと最もよく似たデータセットにのみ事前トレーニングされる。
この選択をプリトレーニングコレクションにすでに存在するデータセットに限定するのではなく、この検索を‘合成’として合成できるすべてのデータセットに拡張する。
このような組み合わせをマルチデータセット補間として定義し、最適輸送(ot)理論から一般化された測地線の概念を定式化した。
我々は、最近のラベル付きデータセット間の距離の概念を用いてこれらの測地学を計算し、それに基づく代替補間スキームを導出する。
これらのメソッドはスケーラブルで効率的であり、特に -- 異なるラベルセットと無関係なデータセット間でも補間することができる。
コンピュータビジョンにおけるトランスファーラーニングの様々な実験を通じて、この手法は、対象とするオンデマンドデータセット合成に有望な新しいアプローチであることを実証する。
関連論文リスト
- Automating Data Science Pipelines with Tensor Completion [4.956678070210018]
我々はテンソル補完の例としてデータサイエンスパイプラインをモデル化する。
目標は、可変値のすべての組み合わせに対応するテンソルの欠落する全てのエントリを特定することである。
既存の手法と提案手法を多種多様なデータセットで広く評価する。
論文 参考訳(メタデータ) (2024-10-08T22:34:08Z) - Personalized Federated Learning via Active Sampling [50.456464838807115]
本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。
本手法は,局所的なデータセットを用いて勾配ステップの効果を評価することにより,データ生成の関連性を評価する。
データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
論文 参考訳(メタデータ) (2024-09-03T17:12:21Z) - Entropic Optimal Transport Eigenmaps for Nonlinear Alignment and Joint Embedding of High-Dimensional Datasets [11.105392318582677]
本稿では,理論的保証付きデータセットの整列と共同埋め込みの原理的アプローチを提案する。
提案手法は,2つのデータセット間のEOT計画行列の先頭特異ベクトルを利用して,それらの共通基盤構造を抽出する。
EOT計画では,高次元状態において,潜伏変数の位置で評価されたカーネル関数を近似することにより,共有多様体構造を復元する。
論文 参考訳(メタデータ) (2024-07-01T18:48:55Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - Modified CycleGAN for the synthesization of samples for wheat head
segmentation [0.09999629695552192]
注釈付きデータセットがない場合は、モデル開発に合成データを使用することができる。
そこで我々は,小麦頭部分割のための現実的な注釈付き合成データセットを開発した。
その結果、Diceのスコアは内部データセットで83.4%、外部のGlobal Wheat Head Detectionデータセットで83.6%に達した。
論文 参考訳(メタデータ) (2024-02-23T06:42:58Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Joint Distributional Learning via Cramer-Wold Distance [0.7614628596146602]
高次元データセットの共分散学習を容易にするために,クレーマー-ウォルド距離正規化を導入し,クレーマー-ウォルド距離正規化法を提案する。
また、フレキシブルな事前モデリングを可能にする2段階学習手法を導入し、集約後と事前分布のアライメントを改善する。
論文 参考訳(メタデータ) (2023-10-25T05:24:23Z) - Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。
提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文 参考訳(メタデータ) (2023-07-12T16:28:21Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Geometric Dataset Distances via Optimal Transport [15.153110906331733]
本稿では, (i) モデルに依存しない, (ii) トレーニングを伴わない, (iii) ラベル集合が完全に不連結であり, (iv) 理論的な足場が固い場合でも, データセットを比較できる,という,データセット間の距離の代替概念を提案する。
この距離は最適な輸送に依存しており、リッチな幾何学的認識、解釈可能な対応およびよく理解された性質を提供する。
以上の結果から,この新たな距離は,データセットの有意義な比較を提供し,様々な実験環境やデータセット間での伝達学習困難度と相関関係があることが示唆された。
論文 参考訳(メタデータ) (2020-02-07T17:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。