論文の概要: VICON: Vision In-Context Operator Networks for Multi-Physics Fluid Dynamics Prediction
- arxiv url: http://arxiv.org/abs/2411.16063v1
- Date: Mon, 25 Nov 2024 03:25:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:18:13.529046
- Title: VICON: Vision In-Context Operator Networks for Multi-Physics Fluid Dynamics Prediction
- Title(参考訳): VICON:マルチ物理流体力学予測のためのビジョンインコンテキスト演算子ネットワーク
- Authors: Yadi Cao, Yuxuan Liu, Liu Yang, Rose Yu, Hayden Schaeffer, Stanley Osher,
- Abstract要約: In-Context Operator Networks (ICON) は、数ショットのインコンテキストアプローチを使用して、異なるタイプのPDEをまたいだ演算子を学習する。
既存の方法は、各データポイントを単一のトークンとして扱い、高密度データを処理する際に計算の非効率さに悩まされる。
本稿では,ビジョン・イン・コンテキスト・オペレーター・ネットワーク(VICON)を提案する。
- 参考スコア(独自算出の注目度): 21.061630022134203
- License:
- Abstract: In-Context Operator Networks (ICONs) are models that learn operators across different types of PDEs using a few-shot, in-context approach. Although they show successful generalization to various PDEs, existing methods treat each data point as a single token, and suffer from computational inefficiency when processing dense data, limiting their application in higher spatial dimensions. In this work, we propose Vision In-Context Operator Networks (VICON), incorporating a vision transformer architecture that efficiently processes 2D functions through patch-wise operations. We evaluated our method on three fluid dynamics datasets, demonstrating both superior performance (reducing scaled $L^2$ error by $40\%$ and $61.6\%$ for two benchmark datasets for compressible flows, respectively) and computational efficiency (requiring only one-third of the inference time per frame) in long-term rollout predictions compared to the current state-of-the-art sequence-to-sequence model with fixed timestep prediction: Multiple Physics Pretraining (MPP). Compared to MPP, our method preserves the benefits of in-context operator learning, enabling flexible context formation when dealing with insufficient frame counts or varying timestep values.
- Abstract(参考訳): In-Context Operator Networks(In-Context Operator Networks、ICON)は、PDEの異なるタイプのオペレータを数ショットのインコンテキストアプローチで学習するモデルである。
様々なPDEへの一般化は成功したが、既存の手法では各データポイントを単一のトークンとして扱うことができ、高密度データを処理する際に計算不効率に悩まされ、より高次元での応用が制限される。
本研究では,ビジョン・イン・コンテキスト・オペレーター・ネットワーク (VICON) を提案する。
提案手法を3つの流体力学データセット上で評価し, 長期ロールアウト予測における性能(圧縮性フローに対する2つのベンチマークデータセットの場合, 40 %$と 61.6 %$)と計算効率(フレームあたりの推論時間の3分の1しか必要としない)を, 固定時間ステップ予測を用いた現状のシーケンス・ツー・シーケンスモデルと比較した。
MPPと比較して、本手法はコンテキスト内演算子の学習の利点を保ち、フレーム数不足や時間ステップの変動に対処する際の柔軟なコンテキスト形成を可能にする。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Med-DANet V2: A Flexible Dynamic Architecture for Efficient Medical
Volumetric Segmentation [29.082411035685773]
医用セグメンテーションのための動的アーキテクチャネットワーク(Med-DANet)は、良好な精度と効率のトレードオフを実現している。
本稿では、データ自体とモデル構造の両方の観点から、動的推論フレームワークの統一的な定式化について検討する。
当社のフレームワークでは,BraTS 2019のセグメンテーション結果と同等で,モデル効率を4.1倍と17.3倍に向上しています。
論文 参考訳(メタデータ) (2023-10-28T09:57:28Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Simultaneous Multiple Object Detection and Pose Estimation using 3D
Model Infusion with Monocular Vision [21.710141497071373]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。
単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。
我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文 参考訳(メタデータ) (2022-11-21T05:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。