論文の概要: Learning Tree-Structured Composition of Data Augmentation
- arxiv url: http://arxiv.org/abs/2408.14381v1
- Date: Mon, 26 Aug 2024 16:04:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 13:21:54.105740
- Title: Learning Tree-Structured Composition of Data Augmentation
- Title(参考訳): データ拡張における木構造構成の学習
- Authors: Dongyue Li, Kailai Chen, Predrag Radivojac, Hongyang R. Zhang,
- Abstract要約: そこで本研究では,$k$変換の2進木構造合成を探索するアルゴリズムを提案する。
我々のアルゴリズムはランタイムの複雑さを$O(2d k)$で達成し、$O(kd)$よりもはるかに高速である。
- 参考スコア(独自算出の注目度): 16.435641358351976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation is widely used for training a neural network given little labeled data. A common practice of augmentation training is applying a composition of multiple transformations sequentially to the data. Existing augmentation methods such as RandAugment randomly sample from a list of pre-selected transformations, while methods such as AutoAugment apply advanced search to optimize over an augmentation set of size $k^d$, which is the number of transformation sequences of length $d$, given a list of $k$ transformations. In this paper, we design efficient algorithms whose running time complexity is much faster than the worst-case complexity of $O(k^d)$, provably. We propose a new algorithm to search for a binary tree-structured composition of $k$ transformations, where each tree node corresponds to one transformation. The binary tree generalizes sequential augmentations, such as the SimCLR augmentation scheme for contrastive learning. Using a top-down, recursive search procedure, our algorithm achieves a runtime complexity of $O(2^d k)$, which is much faster than $O(k^d)$ as $k$ increases above $2$. We apply our algorithm to tackle data distributions with heterogeneous subpopulations by searching for one tree in each subpopulation and then learning a weighted combination, resulting in a forest of trees. We validate our proposed algorithms on numerous graph and image datasets, including a multi-label graph classification dataset we collected. The dataset exhibits significant variations in the sizes of graphs and their average degrees, making it ideal for studying data augmentation. We show that our approach can reduce the computation cost by 43% over existing search methods while improving performance by 4.3%. The tree structures can be used to interpret the relative importance of each transformation, such as identifying the important transformations on small vs. large graphs.
- Abstract(参考訳): データ拡張は、ラベル付きデータが少ないニューラルネットワークのトレーニングに広く使用されている。
拡張トレーニングの一般的な実践は、複数の変換の合成をデータに順次適用することである。
RandAugmentのような既存の拡張手法は、事前選択された変換のリストからランダムにサンプリングするが、AutoAugmentのようなメソッドは、$k$の変換列の数である$k^d$の拡張セットを最適化するために高度な検索を適用する。
本稿では,実行時間の複雑さが$O(k^d)$よりもはるかに高速なアルゴリズムを設計する。
そこで我々は,木ノードが1つの変換に対応するような$k$変換の2進木構造合成を探索するアルゴリズムを提案する。
二分木は、コントラスト学習のためのSimCLR拡張スキームのようなシーケンシャルな拡張を一般化する。
我々のアルゴリズムは、トップダウンで再帰的な探索手順を用いて、O(2^d k)$のランタイム複雑性を達成し、$O(k^d)$よりもはるかに高速である。
本研究では,各サブポピュレーションに1本の木を探索し,重み付けされた組み合わせを学習することにより,不均質なサブポピュレーションを持つデータ分布に対処するアルゴリズムを提案する。
提案したアルゴリズムを,収集した多ラベルグラフ分類データセットを含む多数のグラフおよび画像データセットで検証する。
データセットはグラフのサイズとその平均度に大きなバリエーションを示しており、データ拡張を研究するのに最適である。
提案手法は,既存の検索手法よりも計算コストを43%削減し,性能を4.3%向上させる。
木構造は、小さなグラフと大きなグラフの重要な変換を特定するなど、各変換の相対的な重要性を解釈するのに使うことができる。
関連論文リスト
- QWO: Speeding Up Permutation-Based Causal Discovery in LiGAMs [20.661343069864888]
QWO は与えられた置換に対して$mathcalGpi$ の計算効率を大幅に向上させる新しい手法である。
QWOは、最先端のBICベースの手法と比較して、$O(n2)$$$(n$は変数の数)のスピードアップがあり、非常にスケーラブルである。
論文 参考訳(メタデータ) (2024-10-30T16:10:46Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - On Computing Optimal Tree Ensembles [7.424944196676223]
ランダム林や、より一般的には(決定ノブレイクダッシュ-)ツリーアンサンブルは、分類と回帰の方法として広く使われている。
最近のアルゴリズムの進歩は、そのサイズや深さなどの様々な測定に最適な決定木を計算することができる。
2つの新しいアルゴリズムと対応する下位境界を提供する。
論文 参考訳(メタデータ) (2023-06-07T13:30:43Z) - Dynamic Data Augmentation via MCTS for Prostate MRI Segmentation [19.780410411548935]
本稿ではDDAug(Dynamic Data Augmentation)を提案する。
DDAug計算は、様々な拡張を表現する階層木構造を開発する。
我々の手法は、現在の最先端データ拡張戦略より優れています。
論文 参考訳(メタデータ) (2023-05-25T06:44:43Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z) - A Simple yet Effective Method for Graph Classification [7.397201068210497]
学習過程を簡素化しつつ,グラフ分類性能の向上の可能性を検討する。
グラフ上の構造エントロピーにヒントを得て、データサンプルをグラフからコードツリーに変換する。
本稿では,木カーネルと畳み込みネットワークを提案し,グラフ分類の手法を実装した。
論文 参考訳(メタデータ) (2022-06-06T07:24:44Z) - A Fully Single Loop Algorithm for Bilevel Optimization without Hessian
Inverse [121.54116938140754]
両レベル最適化問題に対して,Hessian 逆フリーな完全単一ループアルゴリズムを提案する。
我々のアルゴリズムは$O(epsilon-2)$と収束することを示す。
論文 参考訳(メタデータ) (2021-12-09T02:27:52Z) - Multidimensional Assignment Problem for multipartite entity resolution [69.48568967931608]
Multipartiteエンティティ解決は、複数のデータセットから1つのエンティティにレコードを統合することを目的としている。
代入問題を解くために、グリーディアルゴリズムと大規模近傍探索という2つの手順を適用する。
データベースのサイズが大きくなるにつれて、設計ベースのマルチスタートがより効率的であることを示す。
論文 参考訳(メタデータ) (2021-12-06T20:34:55Z) - Structural Optimization Makes Graph Classification Simpler and Better [5.770986723520119]
モデル学習プロセスを簡素化しつつ,グラフ分類性能の向上の可能性を検討する。
構造情報アセスメントの進歩に触発されて、グラフから木をコードするデータサンプルを最適化する。
本稿では,木カーネルと畳み込みネットワークにこのスキームを実装し,グラフ分類を行う。
論文 参考訳(メタデータ) (2021-09-05T08:54:38Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。