論文の概要: VICON: A Foundation Model for Multi-Physics Fluid Dynamics via Vision In-Context Operator Networks
- arxiv url: http://arxiv.org/abs/2411.16063v2
- Date: Thu, 06 Feb 2025 01:11:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:29:29.980452
- Title: VICON: A Foundation Model for Multi-Physics Fluid Dynamics via Vision In-Context Operator Networks
- Title(参考訳): VICON:Vision In-Context Operator Networksによる多相流体力学の基礎モデル
- Authors: Yadi Cao, Yuxuan Liu, Liu Yang, Rose Yu, Hayden Schaeffer, Stanley Osher,
- Abstract要約: In-Context Operator Networks (ICON) は、数ショットのインコンテキストアプローチを使用して、異なるタイプのPDEをまたいだ演算子を学習する。
我々は,パッチワイズ操作により2次元関数を効率的に処理するビジョントランスフォーマーアーキテクチャを組み込んだITS(Vision In-Context Operator Networks)を提案する。
- 参考スコア(独自算出の注目度): 21.061630022134203
- License:
- Abstract: In-Context Operator Networks (ICONs) are models that learn operators across different types of PDEs using a few-shot, in-context approach. Although they show successful generalization to various PDEs, existing methods treat each data point as a single token, and suffer from computational inefficiency when processing dense data, limiting their application in higher spatial dimensions. In this work, we propose \textit{Vision In-Context Operator Networks} (VICON), incorporating a vision transformer architecture that efficiently processes 2D functions through patch-wise operations. We evaluated our method on three fluid dynamics datasets, demonstrating both superior performance (reducing the rescaled $L^2$ error by $40\%$ and $61.6\%$ for two benchmark datasets for compressible flows, respectively) and computational efficiency (requiring only one-third of the inference time per frame) in long-term rollout predictions compared to the current state-of-the-art sequence-to-sequence model with fixed timestep prediction: Multiple Physics Pretraining (MPP). Compared to MPP, our method preserves the benefits of in-context operator learning, enabling flexible context formation when dealing with insufficient frame counts or varying timestep values.
- Abstract(参考訳): In-Context Operator Networks(In-Context Operator Networks、ICON)は、PDEの異なるタイプのオペレータを数ショットのインコンテキストアプローチで学習するモデルである。
様々なPDEへの一般化は成功したが、既存の手法では各データポイントを単一のトークンとして扱うことができ、高密度データを処理する際に計算不効率に悩まされ、より高次元での応用が制限される。
本研究では,パッチワイズ操作により2次元関数を効率的に処理するビジョントランスフォーマーアーキテクチャを組み込んだ「textit{Vision In-Context Operator Networks} (VICON)」を提案する。
計算効率(フレーム当たりの推論時間の3分の1しか必要としない)と計算効率(長期ロールアウト予測)の両面での優れた性能(再スケールした$L^2$エラーを40 %$と61.6 %$に減らした)を,固定時間ステップ予測を用いた現状のシークエンス・ツー・シーケンスモデルと比較した。
MPPと比較して、本手法はコンテキスト内演算子の学習の利点を保ち、フレーム数不足や時間ステップの変動に対処する際の柔軟なコンテキスト形成を可能にする。
関連論文リスト
- ContextFormer: Redefining Efficiency in Semantic Segmentation [46.06496660333768]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Med-DANet V2: A Flexible Dynamic Architecture for Efficient Medical
Volumetric Segmentation [29.082411035685773]
医用セグメンテーションのための動的アーキテクチャネットワーク(Med-DANet)は、良好な精度と効率のトレードオフを実現している。
本稿では、データ自体とモデル構造の両方の観点から、動的推論フレームワークの統一的な定式化について検討する。
当社のフレームワークでは,BraTS 2019のセグメンテーション結果と同等で,モデル効率を4.1倍と17.3倍に向上しています。
論文 参考訳(メタデータ) (2023-10-28T09:57:28Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - A Multi-Resolution Framework for U-Nets with Applications to
Hierarchical VAEs [29.995904718691204]
無限次元関数空間上のモデルの有限次元切り込みとしてU-Netを識別する多分解能フレームワークを定式化する。
次に、我々のフレームワークを活用して、U-Netアーキテクチャを持つ最先端階層型VAE(HVAE)を特定します。
論文 参考訳(メタデータ) (2023-01-19T17:33:48Z) - Simultaneous Multiple Object Detection and Pose Estimation using 3D Model Infusion with Monocular Vision [25.70995300410493]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。
単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。
我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文 参考訳(メタデータ) (2022-11-21T05:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。