論文の概要: Lightspeed Geometric Dataset Distance via Sliced Optimal Transport
- arxiv url: http://arxiv.org/abs/2501.18901v1
- Date: Fri, 31 Jan 2025 05:42:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:51.060230
- Title: Lightspeed Geometric Dataset Distance via Sliced Optimal Transport
- Title(参考訳): スライスされた最適輸送による光速度幾何学的データセット距離
- Authors: Khai Nguyen, Hai Nguyen, Tuan Pham, Nhat Ho,
- Abstract要約: 我々は、データセット比較のためのモデル非依存、埋め込み非依存アプローチであるスライスされた最適トランスポートデータセット距離(s-OTDD)を導入する。
データセットを1次元の分布に変換するデータポイントプロジェクションを導出する。
- 参考スコア(独自算出の注目度): 35.22009725098762
- License:
- Abstract: We introduce sliced optimal transport dataset distance (s-OTDD), a model-agnostic, embedding-agnostic approach for dataset comparison that requires no training, is robust to variations in the number of classes, and can handle disjoint label sets. The core innovation is Moment Transform Projection (MTP), which maps a label, represented as a distribution over features, to a real number. Using MTP, we derive a data point projection that transforms datasets into one-dimensional distributions. The s-OTDD is defined as the expected Wasserstein distance between the projected distributions, with respect to random projection parameters. Leveraging the closed form solution of one-dimensional optimal transport, s-OTDD achieves (near-)linear computational complexity in the number of data points and feature dimensions and is independent of the number of classes. With its geometrically meaningful projection, s-OTDD strongly correlates with the optimal transport dataset distance while being more efficient than existing dataset discrepancy measures. Moreover, it correlates well with the performance gap in transfer learning and classification accuracy in data augmentation.
- Abstract(参考訳): モデルに依存しない、組込みに依存しないデータセット比較手法であるS-OTDDを導入し、トレーニングを必要とせず、クラス数の変動に頑健であり、非結合なラベルセットを扱えるようにした。
中心となる革新は、MTP (Moment Transform Projection) である。
MTPを用いて、データセットを1次元分布に変換するデータポイントプロジェクションを導出する。
s-OTDDは、ランダムなプロジェクションパラメータに関して、予測された分布間のワッサーシュタイン距離として定義される。
1次元の最適輸送の閉形式解を利用すると、s-OTDDはデータポイントの数と特徴次元の(ほぼ)線形計算の複雑さを達成し、クラスの数とは無関係である。
幾何学的に意味のある投影によって、s-OTDDは、既存のデータセットの不一致測定よりも効率的でありながら、最適なトランスポートデータセット距離と強く相関する。
さらに、データ拡張における転送学習の性能ギャップと分類精度の相関性も高い。
関連論文リスト
- What is the Right Notion of Distance between Predict-then-Optimize Tasks? [35.842182348661076]
特徴量やラベル次元にのみ依存する従来のデータセット距離は,PtO(Predict-then-then-then)の文脈では情報性が欠如していることが示される。
下流決定の影響を組み込んだ新しいデータセット距離を提案する。
以上の結果から,この決定認識データセット距離は,PtOコンテキストにおける適応成功を効果的に捉えていることが明らかとなった。
論文 参考訳(メタデータ) (2024-09-11T04:13:17Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Project and Probe: Sample-Efficient Domain Adaptation by Interpolating
Orthogonal Features [119.22672589020394]
多様な特徴の集合を学習し,これらの特徴を補間することによって対象分布に適応する,軽量でサンプル効率のよい手法を提案する。
複数の分散シフト設定を持つ4つのデータセットに対する実験により、Pro$2$は、限られたターゲットデータが与えられた場合、パフォーマンスを5~15%向上することが示された。
論文 参考訳(メタデータ) (2023-02-10T18:58:03Z) - InfoOT: Information Maximizing Optimal Transport [58.72713603244467]
InfoOTは最適な輸送の情報理論の拡張である。
幾何学的距離を最小化しながら、ドメイン間の相互情報を最大化する。
この定式化は、外れ値に対して堅牢な新しい射影法をもたらし、目に見えないサンプルに一般化する。
論文 参考訳(メタデータ) (2022-10-06T18:55:41Z) - Uniform-in-Phase-Space Data Selection with Iterative Normalizing Flows [0.0]
データの位相空間を均一に分散するようにデータポイントを選択する戦略が提案されている。
データセットの小さなサブセットのみを使用して確率マップを構築する場合、レアデータポイントの確率を正確に推定するために反復法が用いられる。
提案フレームワークは、豊富なデータが利用可能であれば、データ効率のよい機械学習を可能にするための実行可能な経路として実証されている。
論文 参考訳(メタデータ) (2021-12-28T20:06:28Z) - Near-optimal estimation of smooth transport maps with kernel
sums-of-squares [81.02564078640275]
滑らかな条件下では、2つの分布の間の正方形ワッサーシュタイン距離は、魅力的な統計的誤差上界で効率的に計算できる。
生成的モデリングのような応用への関心の対象は、基礎となる最適輸送写像である。
そこで本研究では,地図上の統計的誤差であるL2$が,既存のミニマックス下限値とほぼ一致し,スムーズな地図推定が可能となる最初のトラクタブルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-03T13:45:36Z) - An Information-Geometric Distance on the Space of Tasks [31.359578768463752]
本稿では,データとラベルの共分散としてモデル化された学習課題間の距離を規定する。
そこで,本研究では,対象タスクのデータに対する残差を反復的に伝達する距離を計算するアルゴリズムを開発した。
様々な画像分類データセットに対して徹底的な実証検証と解析を行い、結合転送距離が微調整の難しさと強く相関していることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:48:39Z) - Geometric Dataset Distances via Optimal Transport [15.153110906331733]
本稿では, (i) モデルに依存しない, (ii) トレーニングを伴わない, (iii) ラベル集合が完全に不連結であり, (iv) 理論的な足場が固い場合でも, データセットを比較できる,という,データセット間の距離の代替概念を提案する。
この距離は最適な輸送に依存しており、リッチな幾何学的認識、解釈可能な対応およびよく理解された性質を提供する。
以上の結果から,この新たな距離は,データセットの有意義な比較を提供し,様々な実験環境やデータセット間での伝達学習困難度と相関関係があることが示唆された。
論文 参考訳(メタデータ) (2020-02-07T17:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。