論文の概要: Coordinate In and Value Out: Training Flow Transformers in Ambient Space
- arxiv url: http://arxiv.org/abs/2412.03791v1
- Date: Thu, 05 Dec 2024 01:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:42:07.473702
- Title: Coordinate In and Value Out: Training Flow Transformers in Ambient Space
- Title(参考訳): コーディネートインとバリューアウト: 環境空間におけるフロートランスのトレーニング
- Authors: Yuyang Wang, Anurag Ranjan, Josh Susskind, Miguel Angel Bautista,
- Abstract要約: Ambient Space Flow Transformers (ASFT) は、周辺空間におけるフローマッチング変換を学習するためのドメインに依存しないアプローチである。
我々は、ASFTが座標空間で連続的に予測できる条件独立なポイントワイドトレーニング目標を提案する。
- 参考スコア(独自算出の注目度): 6.911507447184487
- License:
- Abstract: Flow matching models have emerged as a powerful method for generative modeling on domains like images or videos, and even on unstructured data like 3D point clouds. These models are commonly trained in two stages: first, a data compressor (i.e., a variational auto-encoder) is trained, and in a subsequent training stage a flow matching generative model is trained in the low-dimensional latent space of the data compressor. This two stage paradigm adds complexity to the overall training recipe and sets obstacles for unifying models across data domains, as specific data compressors are used for different data modalities. To this end, we introduce Ambient Space Flow Transformers (ASFT), a domain-agnostic approach to learn flow matching transformers in ambient space, sidestepping the requirement of training compressors and simplifying the training process. We introduce a conditionally independent point-wise training objective that enables ASFT to make predictions continuously in coordinate space. Our empirical results demonstrate that using general purpose transformer blocks, ASFT effectively handles different data modalities such as images and 3D point clouds, achieving strong performance in both domains and outperforming comparable approaches. ASFT is a promising step towards domain-agnostic flow matching generative models that can be trivially adopted in different data domains.
- Abstract(参考訳): フローマッチングモデルは、画像やビデオ、さらには3Dポイントクラウドのような非構造化データでさえも生成モデリングする強力な方法として登場した。
これらのモデルは、まずデータ圧縮機(つまり変分オートエンコーダ)を訓練し、その後の訓練段階では、データ圧縮機の低次元潜在空間でフローマッチング生成モデルを訓練する。
この2段階のパラダイムは、トレーニングのレシピ全体に複雑さを増し、特定のデータ圧縮機が異なるデータモダリティに使用されるため、データドメイン全体にわたってモデルを統一するための障害を設定する。
この目的のために,Ambient Space Flow Transformers (ASFT) を導入し, 周辺空間における流れマッチング変換を学習し, 圧縮機の訓練要件を脇取りし, 訓練プロセスを簡素化する。
我々は、ASFTが座標空間で連続的に予測できる条件独立なポイントワイドトレーニング目標を提案する。
実験の結果,ASFTは画像や3次元点雲などの様々なデータモダリティを効果的に処理し,両領域で高い性能を達成し,同等のアプローチを達成できることがわかった。
ASFTは、異なるデータドメインに自明に適用可能な、ドメインに依存しないフローマッチング生成モデルに向けた、有望なステップである。
関連論文リスト
- Combining Denoising Autoencoders with Contrastive Learning to fine-tune Transformer Models [0.0]
本研究は,分類タスクのベースモデルを調整するための3段階手法を提案する。
我々は,DAE(Denoising Autoencoder)を用いたさらなるトレーニングを行うことで,モデルの信号をデータ配信に適用する。
さらに、教師付きコントラスト学習のための新しいデータ拡張手法を導入し、不均衡なデータセットを修正する。
論文 参考訳(メタデータ) (2024-05-23T11:08:35Z) - Heterogeneous Federated Learning with Splited Language Model [22.65325348176366]
フェデレート・スプリット・ラーニング(FSL)は、実際には有望な分散学習パラダイムである。
本稿では,前訓練画像変換器(PIT)をFedVと呼ばれる初期モデルとして利用し,トレーニングプロセスの高速化とモデルロバスト性の向上を図る。
我々は、実世界のデータセット、異なる部分的デバイス参加、異種データ分割におけるPITを用いたFSL手法の体系的評価を初めて行った。
論文 参考訳(メタデータ) (2024-03-24T07:33:08Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Fourier Test-time Adaptation with Multi-level Consistency for Robust
Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。
FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。
異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文 参考訳(メタデータ) (2023-06-05T02:29:38Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Adapting Sentence Transformers for the Aviation Domain [0.8437187555622164]
本稿では,航空分野における文変換器の適応手法を提案する。
本手法は,事前学習と微調整を併用した2段階のプロセスである。
本研究は,航空などの専門産業における高品質なNLPソリューション開発におけるドメイン固有適応の重要性を強調した。
論文 参考訳(メタデータ) (2023-05-16T15:53:24Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - Transformers for End-to-End InfoSec Tasks: A Feasibility Study [6.847381178288385]
私たちは2つの異なるInfoSecデータフォーマット、特にURLとPEファイルに対してトランスフォーマーモデルを実装します。
URLトランスフォーマーモデルは、高いパフォーマンスレベルに達するためには、異なるトレーニングアプローチが必要です。
提案手法は,PEファイルのベンチマークデータセット上で,確立されたマルウェア検出モデルに相容れない性能を示す。
論文 参考訳(メタデータ) (2022-12-05T23:50:46Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。