Fugu-MT 論文翻訳(概要): Generating Synthetic Datasets by Interpolating along Generalized Geodesics

論文の概要: Generating Synthetic Datasets by Interpolating along Generalized Geodesics

arxiv url: http://arxiv.org/abs/2306.06866v1
Date: Mon, 12 Jun 2023 04:46:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-13 16:09:00.953855
Title: Generating Synthetic Datasets by Interpolating along Generalized Geodesics
Title（参考訳）: 一般測地線に沿った補間による合成データセットの生成
Authors: Jiaojiao Fan and David Alvarez-Melis
Abstract要約: 組み合わせ”として合成可能なデータセットの組み合わせ方法を示す。特に、異なるラベルセットを持つデータセットと無関係なデータセットの間でさえ補間する方法を示す。これは、オンデマンドデータセット合成をターゲットとする、有望な新しいアプローチであることを実証しています。
参考スコア（独自算出の注目度）: 18.278734644369052
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data for pretraining machine learning models often consists of collections of heterogeneous datasets. Although training on their union is reasonable in agnostic settings, it might be suboptimal when the target domain -- where the model will ultimately be used -- is known in advance. In that case, one would ideally pretrain only on the dataset(s) most similar to the target one. Instead of limiting this choice to those datasets already present in the pretraining collection, here we explore extending this search to all datasets that can be synthesized as `combinations' of them. We define such combinations as multi-dataset interpolations, formalized through the notion of generalized geodesics from optimal transport (OT) theory. We compute these geodesics using a recent notion of distance between labeled datasets, and derive alternative interpolation schemes based on it: using either barycentric projections or optimal transport maps, the latter computed using recent neural OT methods. These methods are scalable, efficient, and -- notably -- can be used to interpolate even between datasets with distinct and unrelated label sets. Through various experiments in transfer learning in computer vision, we demonstrate this is a promising new approach for targeted on-demand dataset synthesis.
Abstract（参考訳）: 機械学習モデルの事前トレーニングのためのデータは、しばしば異種データセットのコレクションで構成される。ユニオンでのトレーニングは、不可知的な設定では妥当だが、ターゲットドメイン(最終的にモデルが使用される)が事前に知られているとき、それは準最適であるかもしれない。その場合、理想的には、ターゲットのデータセットと最もよく似たデータセットにのみ事前トレーニングされる。この選択をプリトレーニングコレクションにすでに存在するデータセットに限定するのではなく、この検索を‘合成’として合成できるすべてのデータセットに拡張する。このような組み合わせをマルチデータセット補間として定義し、最適輸送(ot)理論から一般化された測地線の概念を定式化した。我々は、最近のラベル付きデータセット間の距離の概念を用いてこれらの測地学を計算し、それに基づく代替補間スキームを導出する。これらのメソッドはスケーラブルで効率的であり、特に -- 異なるラベルセットと無関係なデータセット間でも補間することができる。コンピュータビジョンにおけるトランスファーラーニングの様々な実験を通じて、この手法は、対象とするオンデマンドデータセット合成に有望な新しいアプローチであることを実証する。

関連論文リスト

Heterogeneous Self-Supervised Acoustic Pre-Training with Local Constraints [64.15709757611369]
異種データを扱うための自己教師付き事前学習手法を提案する。提案手法は、下流の教師付き微調整タスクに対する自己教師付き事前訓練モデルの適応性を大幅に向上させることができる。
論文参考訳（メタデータ） (2025-08-27T15:48:50Z)
Load Forecasting on A Highly Sparse Electrical Load Dataset Using Gaussian Interpolation [0.786975267379228]
データセットの欠落やゼロ値の存在として定義されたスパーシリティは、現実のデータセットで運用する上で、大きな課題となることが多い。本研究では,電力プラントの時給負荷データを用いた約62%のデータセットを,そのデータがワイドセンス定常(WSS)であると仮定した負荷予測に利用できることを示す。具体的には、データを統計的に分析し、データセット上で複数の機械学習モデルとディープラーニングモデルをトレーニングする。
論文参考訳（メタデータ） (2025-08-12T03:15:45Z)
Core-Set Selection for Data-efficient Land Cover Segmentation [16.89537279044251]
リモートセンシング画像セグメンテーションデータセットからサンプルの重要なサブセットを選択するための6つの新しいコアセット選択手法を提案する。本手法は,3つの土地被覆分類データセットのランダム選択ベースラインに対して,これらのアプローチをベンチマークする。この結果は,リモートセンシング領域におけるデータ中心学習の重要性と可能性を示している。
論文参考訳（メタデータ） (2025-05-02T12:22:08Z)
Automating Data Science Pipelines with Tensor Completion [4.956678070210018]
我々はテンソル補完の例としてデータサイエンスパイプラインをモデル化する。目標は、可変値のすべての組み合わせに対応するテンソルの欠落する全てのエントリを特定することである。既存の手法と提案手法を多種多様なデータセットで広く評価する。
論文参考訳（メタデータ） (2024-10-08T22:34:08Z)
Personalized Federated Learning via Active Sampling [50.456464838807115]
本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。本手法は,局所的なデータセットを用いて勾配ステップの効果を評価することにより,データ生成の関連性を評価する。データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
論文参考訳（メタデータ） (2024-09-03T17:12:21Z)
Entropic Optimal Transport Eigenmaps for Nonlinear Alignment and Joint Embedding of High-Dimensional Datasets [11.105392318582677]
本稿では,理論的保証付きデータセットの整列と共同埋め込みの原理的アプローチを提案する。提案手法は,2つのデータセット間のEOT計画行列の先頭特異ベクトルを利用して,それらの共通基盤構造を抽出する。 EOT計画では,高次元状態において,潜伏変数の位置で評価されたカーネル関数を近似することにより,共有多様体構造を復元する。
論文参考訳（メタデータ） (2024-07-01T18:48:55Z)
UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文参考訳（メタデータ） (2024-03-22T10:36:50Z)
Modified CycleGAN for the synthesization of samples for wheat head segmentation [0.09999629695552192]
注釈付きデータセットがない場合は、モデル開発に合成データを使用することができる。そこで我々は,小麦頭部分割のための現実的な注釈付き合成データセットを開発した。その結果、Diceのスコアは内部データセットで83.4%、外部のGlobal Wheat Head Detectionデータセットで83.6%に達した。
論文参考訳（メタデータ） (2024-02-23T06:42:58Z)
Minimally Supervised Learning using Topological Projections in Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文参考訳（メタデータ） (2024-01-12T22:51:48Z)
Joint Distributional Learning via Cramer-Wold Distance [0.7614628596146602]
高次元データセットの共分散学習を容易にするために,クレーマー-ウォルド距離正規化を導入し,クレーマー-ウォルド距離正規化法を提案する。また、フレキシブルな事前モデリングを可能にする2段階学習手法を導入し、集約後と事前分布のアライメントを改善する。
論文参考訳（メタデータ） (2023-10-25T05:24:23Z)
Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文参考訳（メタデータ） (2023-07-12T16:28:21Z)
Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文参考訳（メタデータ） (2022-07-17T07:05:39Z)
Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。私たちのアプローチは手動の分類学の調整を必要としません。
論文参考訳（メタデータ） (2021-02-25T18:55:58Z)
AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文参考訳（メタデータ） (2020-08-16T11:36:11Z)
Geometric Dataset Distances via Optimal Transport [15.153110906331733]
本稿では, (i) モデルに依存しない, (ii) トレーニングを伴わない, (iii) ラベル集合が完全に不連結であり, (iv) 理論的な足場が固い場合でも, データセットを比較できる,という,データセット間の距離の代替概念を提案する。この距離は最適な輸送に依存しており、リッチな幾何学的認識、解釈可能な対応およびよく理解された性質を提供する。以上の結果から,この新たな距離は,データセットの有意義な比較を提供し,様々な実験環境やデータセット間での伝達学習困難度と相関関係があることが示唆された。
論文参考訳（メタデータ） (2020-02-07T17:51:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。