論文の概要: Bridging Operator Learning and Conditioned Neural Fields: A Unifying Perspective
- arxiv url: http://arxiv.org/abs/2405.13998v1
- Date: Wed, 22 May 2024 21:13:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 20:04:17.224641
- Title: Bridging Operator Learning and Conditioned Neural Fields: A Unifying Perspective
- Title(参考訳): ブリッジング演算子学習と条件付きニューラルネットワーク:統一的視点
- Authors: Sifan Wang, Jacob H Seidman, Shyam Sankaran, Hanwen Wang, George J. Pappas, Paris Perdikaris,
- Abstract要約: 演算子学習は、無限次元関数空間間のマッピングを学習することを目的とした機械学習の新興分野である。
一般に使われている演算子学習モデルの多くは、条件付け機構が点情報および/または大域情報に限定されたニューラルネットワークとみなすことができる。
そこで我々は,視覚変換器エンコーダを用いたニューラルオペレーターアーキテクチャであるContinuous Vision Transformer (CViT)を提案する。
- 参考スコア(独自算出の注目度): 24.1795082775376
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Operator learning is an emerging area of machine learning which aims to learn mappings between infinite dimensional function spaces. Here we uncover a connection between operator learning architectures and conditioned neural fields from computer vision, providing a unified perspective for examining differences between popular operator learning models. We find that many commonly used operator learning models can be viewed as neural fields with conditioning mechanisms restricted to point-wise and/or global information. Motivated by this, we propose the Continuous Vision Transformer (CViT), a novel neural operator architecture that employs a vision transformer encoder and uses cross-attention to modulate a base field constructed with a trainable grid-based positional encoding of query coordinates. Despite its simplicity, CViT achieves state-of-the-art results across challenging benchmarks in climate modeling and fluid dynamics. Our contributions can be viewed as a first step towards adapting advanced computer vision architectures for building more flexible and accurate machine learning models in physical sciences.
- Abstract(参考訳): 演算子学習は、無限次元関数空間間のマッピングを学習することを目的とした機械学習の新興分野である。
ここでは、演算子学習アーキテクチャとコンピュータビジョンからの条件付きニューラルネットワークの関係を明らかにし、一般的な演算子学習モデルの違いを調べる統一的な視点を提供する。
一般に使われている演算子学習モデルの多くは、条件付け機構が点情報および/または大域情報に限定されたニューラルネットワークとみなすことができる。
そこで本研究では,ニューラルネットワークアーキテクチャであるContinuous Vision Transformer (CViT)を提案する。
その単純さにもかかわらず、CViTは気候モデリングと流体力学の挑戦的なベンチマークで最先端の結果を達成する。
私たちのコントリビューションは、物理科学でより柔軟で正確な機械学習モデルを構築するために、高度なコンピュータビジョンアーキテクチャを適用するための第一歩と見ることができます。
関連論文リスト
- LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - Bond Graphs for multi-physics informed Neural Networks for multi-variate time series [6.775534755081169]
既存の手法は複雑な多分野・多領域現象のタスクには適用されない。
タスク固有モデルに入力可能な多物理インフォームド表現を生成するニューラルボンドグラフ(NBgE)を提案する。
論文 参考訳(メタデータ) (2024-05-22T12:30:25Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - OnDev-LCT: On-Device Lightweight Convolutional Transformers towards
federated learning [29.798780069556074]
フェデレートラーニング(FL)は、複数のエッジデバイスにまたがる機械学習モデルを協調的にトレーニングするための、有望なアプローチとして登場した。
トレーニングデータとリソースに制限のあるオンデバイスビジョンタスクのための軽量畳み込み変換器を提案する。
論文 参考訳(メタデータ) (2024-01-22T02:17:36Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Learned multiphysics inversion with differentiable programming and
machine learning [1.8893605328938345]
本稿では, 画像・モデリング・監視のための地震研究所 (SLIM) を, 計算物理のためのオープンソースソフトウェアフレームワークとして紹介する。
複数の抽象化レイヤを統合することで、ソフトウェアは可読性と拡張性の両方を持つように設計されています。
論文 参考訳(メタデータ) (2023-04-12T03:38:22Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - AP-MTL: Attention Pruned Multi-task Learning Model for Real-time
Instrument Detection and Segmentation in Robot-assisted Surgery [23.33984309289549]
高解像度画像の検出とセグメンテーションのためのリアルタイムロボットシステムの訓練は、限られた計算資源で難しい問題となる。
重み付きエンコーダとタスク認識検出とセグメンテーションデコーダを備えた,エンドツーエンドのトレーニング可能なリアルタイムマルチタスク学習モデルを開発した。
我々のモデルは最先端のセグメンテーションモデルや検出モデルよりも優れており、最も優れたモデルもその課題である。
論文 参考訳(メタデータ) (2020-03-10T14:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。