論文の概要: Geometric Dataset Distances via Optimal Transport
- arxiv url: http://arxiv.org/abs/2002.02923v1
- Date: Fri, 7 Feb 2020 17:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 04:00:02.991815
- Title: Geometric Dataset Distances via Optimal Transport
- Title(参考訳): 最適輸送による幾何学的データセット距離
- Authors: David Alvarez-Melis and Nicol\`o Fusi
- Abstract要約: 本稿では, (i) モデルに依存しない, (ii) トレーニングを伴わない, (iii) ラベル集合が完全に不連結であり, (iv) 理論的な足場が固い場合でも, データセットを比較できる,という,データセット間の距離の代替概念を提案する。
この距離は最適な輸送に依存しており、リッチな幾何学的認識、解釈可能な対応およびよく理解された性質を提供する。
以上の結果から,この新たな距離は,データセットの有意義な比較を提供し,様々な実験環境やデータセット間での伝達学習困難度と相関関係があることが示唆された。
- 参考スコア(独自算出の注目度): 15.153110906331733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The notion of task similarity is at the core of various machine learning
paradigms, such as domain adaptation and meta-learning. Current methods to
quantify it are often heuristic, make strong assumptions on the label sets
across the tasks, and many are architecture-dependent, relying on task-specific
optimal parameters (e.g., require training a model on each dataset). In this
work we propose an alternative notion of distance between datasets that (i) is
model-agnostic, (ii) does not involve training, (iii) can compare datasets even
if their label sets are completely disjoint and (iv) has solid theoretical
footing. This distance relies on optimal transport, which provides it with rich
geometry awareness, interpretable correspondences and well-understood
properties. Our results show that this novel distance provides meaningful
comparison of datasets, and correlates well with transfer learning hardness
across various experimental settings and datasets.
- Abstract(参考訳): タスクの類似性の概念は、ドメイン適応やメタ学習など、さまざまな機械学習パラダイムの中核にある。
現在の方法はヒューリスティックで、タスク全体のラベルセットに強い仮定をしており、多くはアーキテクチャに依存しており、タスク固有の最適パラメータに依存している(例えば、各データセットでモデルをトレーニングする必要がある)。
本研究では,データセット間の距離の代替概念を提案する。
(i)モデル非依存である。
(ii)訓練は含まない。
(iii) ラベル集合が完全に解離していてもデータセットを比較することができる
(iv)理論的根拠が固い。
この距離は最適な輸送に依存しており、リッチな幾何学的認識、解釈可能な対応およびよく理解された性質を提供する。
以上の結果から,この新しい距離はデータセットの有意義な比較を提供し,様々な実験的な設定とデータセットの転送学習の困難さとよく相関することが示された。
関連論文リスト
- Symmetry Discovery for Different Data Types [52.2614860099811]
等価ニューラルネットワークは、そのアーキテクチャに対称性を取り入れ、より高度な一般化性能を実現する。
本稿では,タスクの入出力マッピングを近似したトレーニングニューラルネットワークによる対称性発見手法であるLieSDを提案する。
我々は,2体問題,慣性行列予測のモーメント,トップクォークタグ付けといった課題におけるLieSDの性能を検証した。
論文 参考訳(メタデータ) (2024-10-13T13:39:39Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - Generating Synthetic Datasets by Interpolating along Generalized
Geodesics [18.278734644369052]
組み合わせ”として合成可能なデータセットの組み合わせ方法を示す。
特に、異なるラベルセットを持つデータセットと無関係なデータセットの間でさえ補間する方法を示す。
これは、オンデマンドデータセット合成をターゲットとする、有望な新しいアプローチであることを実証しています。
論文 参考訳(メタデータ) (2023-06-12T04:46:44Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Wasserstein Task Embedding for Measuring Task Similarities [14.095478018850374]
異なるタスク間の類似度を測定することは、幅広い機械学習問題において重要である。
最適輸送理論を活用し、教師付き分類のための新しいタスク埋め込みを定義する。
提案手法の組込みは, 関連する手法と比較して, タスクの比較を著しく高速化することを示した。
論文 参考訳(メタデータ) (2022-08-24T18:11:04Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - Mixing Deep Learning and Multiple Criteria Optimization: An Application
to Distributed Learning with Multiple Datasets [0.0]
トレーニングフェーズは、マシンラーニングプロセスにおいて最も重要なステージです。
本研究では,特定の入力とラベルに関連付けられた出力との距離を基準として,複数の基準最適化モデルを構築した。
MNISTデータを用いた数値分類において,このモデルと数値実験を実現するためのスカラー化手法を提案する。
論文 参考訳(メタデータ) (2021-12-02T16:00:44Z) - A contribution to Optimal Transport on incomparable spaces [4.873362301533825]
この論文は、異なるデータが非可換空間に属する複雑なシナリオを研究することを提案する。
この論文は、これらの異なるケースに対して最適なトランスポートツールセットを提案する。
論文 参考訳(メタデータ) (2020-11-09T14:13:52Z) - An Information-Geometric Distance on the Space of Tasks [31.359578768463752]
本稿では,データとラベルの共分散としてモデル化された学習課題間の距離を規定する。
そこで,本研究では,対象タスクのデータに対する残差を反復的に伝達する距離を計算するアルゴリズムを開発した。
様々な画像分類データセットに対して徹底的な実証検証と解析を行い、結合転送距離が微調整の難しさと強く相関していることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:48:39Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。