Fugu-MT 論文翻訳(概要): Coordinate In and Value Out: Training Flow Transformers in Ambient Space

論文の概要: Coordinate In and Value Out: Training Flow Transformers in Ambient Space

arxiv url: http://arxiv.org/abs/2412.03791v1
Date: Thu, 05 Dec 2024 01:00:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 20:43:01.830791
Title: Coordinate In and Value Out: Training Flow Transformers in Ambient Space
Title（参考訳）: コーディネートインとバリューアウト: 環境空間におけるフロートランスのトレーニング
Authors: Yuyang Wang, Anurag Ranjan, Josh Susskind, Miguel Angel Bautista,
Abstract要約: Ambient Space Flow Transformers (ASFT) は、周辺空間におけるフローマッチング変換を学習するためのドメインに依存しないアプローチである。我々は、ASFTが座標空間で連続的に予測できる条件独立なポイントワイドトレーニング目標を提案する。
参考スコア（独自算出の注目度）: 6.911507447184487
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Flow matching models have emerged as a powerful method for generative modeling on domains like images or videos, and even on unstructured data like 3D point clouds. These models are commonly trained in two stages: first, a data compressor (i.e., a variational auto-encoder) is trained, and in a subsequent training stage a flow matching generative model is trained in the low-dimensional latent space of the data compressor. This two stage paradigm adds complexity to the overall training recipe and sets obstacles for unifying models across data domains, as specific data compressors are used for different data modalities. To this end, we introduce Ambient Space Flow Transformers (ASFT), a domain-agnostic approach to learn flow matching transformers in ambient space, sidestepping the requirement of training compressors and simplifying the training process. We introduce a conditionally independent point-wise training objective that enables ASFT to make predictions continuously in coordinate space. Our empirical results demonstrate that using general purpose transformer blocks, ASFT effectively handles different data modalities such as images and 3D point clouds, achieving strong performance in both domains and outperforming comparable approaches. ASFT is a promising step towards domain-agnostic flow matching generative models that can be trivially adopted in different data domains.
Abstract（参考訳）: フローマッチングモデルは、画像やビデオ、さらには3Dポイントクラウドのような非構造化データでさえも生成モデリングする強力な方法として登場した。これらのモデルは、まずデータ圧縮機(つまり変分オートエンコーダ)を訓練し、その後の訓練段階では、データ圧縮機の低次元潜在空間でフローマッチング生成モデルを訓練する。この2段階のパラダイムは、トレーニングのレシピ全体に複雑さを増し、特定のデータ圧縮機が異なるデータモダリティに使用されるため、データドメイン全体にわたってモデルを統一するための障害を設定する。この目的のために,Ambient Space Flow Transformers (ASFT) を導入し, 周辺空間における流れマッチング変換を学習し, 圧縮機の訓練要件を脇取りし, 訓練プロセスを簡素化する。我々は、ASFTが座標空間で連続的に予測できる条件独立なポイントワイドトレーニング目標を提案する。実験の結果,ASFTは画像や3次元点雲などの様々なデータモダリティを効果的に処理し,両領域で高い性能を達成し,同等のアプローチを達成できることがわかった。 ASFTは、異なるデータドメインに自明に適用可能な、ドメインに依存しないフローマッチング生成モデルに向けた、有望なステップである。

関連論文リスト

Aero-Nef: Neural Fields for Rapid Aircraft Aerodynamics Simulations [1.1932047172700866]
本稿では,メッシュ領域上での定常流体力学シミュレーションの代理モデルを学習する手法を提案する。提案したモデルは, 異なる流れ条件に対して非構造領域に直接適用することができる。顕著なことに、RANS超音速翼データセット上の高忠実度解法よりも5桁高速な推論を行うことができる。
論文参考訳（メタデータ） (2024-07-29T11:48:44Z)
Everything to the Synthetic: Diffusion-driven Test-time Adaptation via Synthetic-Domain Alignment [81.78901060731269]
テスト時間適応(TTA)は、これまで見つからなかった、シフトしたターゲットドメイン上でのソースドメイン事前訓練モデルの性能を改善することを目的としている。従来のTTA手法は、主にターゲットデータストリームに基づいてモデルの重みを適応し、ターゲットデータの量と順序に敏感なモデル性能を実現する。最近提案された拡散駆動型TTA法は、モデル入力を重みに代えて適応することでこれを緩和し、ソースドメイン上で訓練された無条件拡散モデルにより、ターゲットドメインデータをソースドメインに近似する合成ドメインに変換する。
論文参考訳（メタデータ） (2024-06-06T17:39:09Z)
Combining Denoising Autoencoders with Contrastive Learning to fine-tune Transformer Models [0.0]
本研究は,分類タスクのベースモデルを調整するための3段階手法を提案する。我々は,DAE(Denoising Autoencoder)を用いたさらなるトレーニングを行うことで,モデルの信号をデータ配信に適用する。さらに、教師付きコントラスト学習のための新しいデータ拡張手法を導入し、不均衡なデータセットを修正する。
論文参考訳（メタデータ） (2024-05-23T11:08:35Z)
Boundary-aware Decoupled Flow Networks for Realistic Extreme Rescaling [49.215957313126324]
Invertible rescaling Network (IRN) やgenerative adversarial Network (GAN) などを含む最近の生成手法は、画像再スケーリングにおいて例外的な性能を示した。しかし、IRNベースの手法は過度に滑らかな結果を生成する傾向にあり、一方、GANベースの手法は偽の細部を容易に生成する。本稿では,現実的かつ視覚的に満足な結果を生成するために,境界対応デカップリングフローネットワーク(BDFlow)を提案する。
論文参考訳（メタデータ） (2024-05-05T14:05:33Z)
Heterogeneous Federated Learning with Splited Language Model [22.65325348176366]
フェデレート・スプリット・ラーニング(FSL)は、実際には有望な分散学習パラダイムである。本稿では,前訓練画像変換器(PIT)をFedVと呼ばれる初期モデルとして利用し,トレーニングプロセスの高速化とモデルロバスト性の向上を図る。我々は、実世界のデータセット、異なる部分的デバイス参加、異種データ分割におけるPITを用いたFSL手法の体系的評価を初めて行った。
論文参考訳（メタデータ） (2024-03-24T07:33:08Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
Bayesian Flow Networks [4.197165999892042]
本稿では,ベイジアン・フロー・ネットワーク(BFN)について述べる。ベイジアン・フロー・ネットワーク(BFN)は,独立分布の集合のパラメータをベイジアン推論で修正した新しい生成モデルである。単純な事前および反復的な2つの分布の更新から始めると、拡散モデルの逆過程に似た生成手順が得られる。 BFNは動的にバイナライズされたMNISTとCIFAR-10で画像モデリングを行うために競合するログライクフレーションを実現し、text8文字レベルの言語モデリングタスクにおいて既知のすべての離散拡散モデルより優れている。
論文参考訳（メタデータ） (2023-08-14T09:56:35Z)
Fourier Test-time Adaptation with Multi-level Consistency for Robust Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。 FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文参考訳（メタデータ） (2023-06-05T02:29:38Z)
Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-26T00:43:02Z)
Adapting Sentence Transformers for the Aviation Domain [0.8437187555622164]
本稿では,航空分野における文変換器の適応手法を提案する。本手法は,事前学習と微調整を併用した2段階のプロセスである。本研究は,航空などの専門産業における高品質なNLPソリューション開発におけるドメイン固有適応の重要性を強調した。
論文参考訳（メタデータ） (2023-05-16T15:53:24Z)
AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文参考訳（メタデータ） (2023-04-19T16:18:47Z)
Transformers for End-to-End InfoSec Tasks: A Feasibility Study [6.847381178288385]
私たちは2つの異なるInfoSecデータフォーマット、特にURLとPEファイルに対してトランスフォーマーモデルを実装します。 URLトランスフォーマーモデルは、高いパフォーマンスレベルに達するためには、異なるトレーニングアプローチが必要です。提案手法は,PEファイルのベンチマークデータセット上で,確立されたマルウェア検出モデルに相容れない性能を示す。
論文参考訳（メタデータ） (2022-12-05T23:50:46Z)
Inference from Real-World Sparse Measurements [21.194357028394226]
実世界の問題は、しばしば複雑で非構造的な測定セットが伴うが、これはセンサーが空間または時間に狭く配置されているときに起こる。セットからセットまで様々な位置で測定セットを処理し、どこででも読み出しを抽出できるディープラーニングアーキテクチャは、方法論的に困難である。本稿では,適用性と実用的堅牢性に着目したアテンションベースモデルを提案する。
論文参考訳（メタデータ） (2022-10-20T13:42:20Z)
Manifold Interpolating Optimal-Transport Flows for Trajectory Inference [64.94020639760026]
最適輸送流(MIOFlow)を補間するマニフォールド補間法を提案する。 MIOFlowは、散発的なタイムポイントで撮影された静的スナップショットサンプルから、連続的な人口動態を学習する。本手法は, 胚体分化および急性骨髄性白血病の治療から得られたscRNA-seqデータとともに, 分岐とマージによるシミュレーションデータについて検討した。
論文参考訳（メタデータ） (2022-06-29T22:19:03Z)
Parallel Successive Learning for Dynamic Distributed Model Training over Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文参考訳（メタデータ） (2022-02-07T05:11:01Z)
Positional Encoding Augmented GAN for the Assessment of Wind Flow for Pedestrian Comfort in Urban Areas [0.41998444721319217]
本研究は,CFDを用いた3次元フローフィールドの計算から,建物のフットプリント上の2次元画像から画像への変換に基づく問題まで,歩行者の高さレベルでのフローフィールドの予測に至るまでの課題を言い換える。本稿では,画像から画像への変換タスクの最先端を表現したPix2PixやCycleGANなど,GAN(Generative Adversarial Network)の利用について検討する。
論文参考訳（メタデータ） (2021-12-15T19:37:11Z)
ACDC: Online Unsupervised Cross-Domain Adaptation [15.72925931271688]
本稿では,非教師付きドメイン適応フレームワークであるACDCを提案する。 ACDCは3つのモジュールを単一のモデルにカプセル化している。特徴を抽出する自動エンコーダ、ドメイン変換を実行する対向モジュール、ソースストリームを学習してターゲットストリームを予測する推定器である。実験の結果, 基準法よりも目標精度が向上し, 場合によっては10%以上の増加が見られた。
論文参考訳（メタデータ） (2021-10-04T11:08:32Z)
DeFlow: Learning Complex Image Degradations from Unpaired Data with Conditional Flows [145.83812019515818]
本論文では,不対データから画像劣化を学習するDeFlowを提案する。共有フローデコーダネットワークの潜在空間における劣化過程をモデル化する。共同画像復元と超解像におけるDeFlowの定式化を検証した。
論文参考訳（メタデータ） (2021-01-14T18:58:01Z)
Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。本稿では,自然言語処理タスクにmixupを適用する方法について検討する。我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文参考訳（メタデータ） (2020-10-05T23:37:30Z)
Over-the-Air Federated Learning from Heterogeneous Data [107.05618009955094]
フェデレートラーニング(Federated Learning、FL)は、集中型モデルの分散ラーニングのためのフレームワークである。我々は,共通局所勾配勾配勾配(SGD)FLアルゴリズムを強化するコンバージェント OTA FL (COTAF) アルゴリズムを開発した。我々は,COTAFにより誘導されるプリコーディングが,OTA FLを用いて訓練されたモデルの収束率と精度を顕著に向上させることを示す。
論文参考訳（メタデータ） (2020-09-27T08:28:25Z)
Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。 PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文参考訳（メタデータ） (2020-07-07T03:36:28Z)
Closing the Dequantization Gap: PixelCNN as a Single-Layer Flow [16.41460104376002]
有限体積を変換し、離散データに対する確率の正確な計算を可能にするサブセットフローを導入する。我々は、WaveNets、PixelCNNs、Transformersを含む通常の離散自己回帰モデルを単層フローとして識別する。我々は, CIFAR-10 を用いて, 脱量子化を訓練した流れモデルについて, 実測結果を示す。
論文参考訳（メタデータ） (2020-02-06T22:58:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。