論文の概要: VICON: Vision In-Context Operator Networks for Multi-Physics Fluid Dynamics Prediction
- arxiv url: http://arxiv.org/abs/2411.16063v1
- Date: Mon, 25 Nov 2024 03:25:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:50.674929
- Title: VICON: Vision In-Context Operator Networks for Multi-Physics Fluid Dynamics Prediction
- Title(参考訳): VICON:マルチ物理流体力学予測のためのビジョンインコンテキスト演算子ネットワーク
- Authors: Yadi Cao, Yuxuan Liu, Liu Yang, Rose Yu, Hayden Schaeffer, Stanley Osher,
- Abstract要約: In-Context Operator Networks (ICON) は、数ショットのインコンテキストアプローチを使用して、異なるタイプのPDEをまたいだ演算子を学習する。
既存の方法は、各データポイントを単一のトークンとして扱い、高密度データを処理する際に計算の非効率さに悩まされる。
本稿では,ビジョン・イン・コンテキスト・オペレーター・ネットワーク(VICON)を提案する。
- 参考スコア(独自算出の注目度): 21.061630022134203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-Context Operator Networks (ICONs) are models that learn operators across different types of PDEs using a few-shot, in-context approach. Although they show successful generalization to various PDEs, existing methods treat each data point as a single token, and suffer from computational inefficiency when processing dense data, limiting their application in higher spatial dimensions. In this work, we propose Vision In-Context Operator Networks (VICON), incorporating a vision transformer architecture that efficiently processes 2D functions through patch-wise operations. We evaluated our method on three fluid dynamics datasets, demonstrating both superior performance (reducing scaled $L^2$ error by $40\%$ and $61.6\%$ for two benchmark datasets for compressible flows, respectively) and computational efficiency (requiring only one-third of the inference time per frame) in long-term rollout predictions compared to the current state-of-the-art sequence-to-sequence model with fixed timestep prediction: Multiple Physics Pretraining (MPP). Compared to MPP, our method preserves the benefits of in-context operator learning, enabling flexible context formation when dealing with insufficient frame counts or varying timestep values.
- Abstract(参考訳): In-Context Operator Networks(In-Context Operator Networks、ICON)は、PDEの異なるタイプのオペレータを数ショットのインコンテキストアプローチで学習するモデルである。
様々なPDEへの一般化は成功したが、既存の手法では各データポイントを単一のトークンとして扱うことができ、高密度データを処理する際に計算不効率に悩まされ、より高次元での応用が制限される。
本研究では,ビジョン・イン・コンテキスト・オペレーター・ネットワーク (VICON) を提案する。
提案手法を3つの流体力学データセット上で評価し, 長期ロールアウト予測における性能(圧縮性フローに対する2つのベンチマークデータセットの場合, 40 %$と 61.6 %$)と計算効率(フレームあたりの推論時間の3分の1しか必要としない)を, 固定時間ステップ予測を用いた現状のシーケンス・ツー・シーケンスモデルと比較した。
MPPと比較して、本手法はコンテキスト内演算子の学習の利点を保ち、フレーム数不足や時間ステップの変動に対処する際の柔軟なコンテキスト形成を可能にする。
関連論文リスト
- Spatiotemporal Attention Learning Framework for Event-Driven Object Recognition [1.0445957451908694]
イベントベースの視覚センサは、位置、極性、情報を含むスパースイベントストリームとして、局所ピクセルレベルの強度変化をキャプチャする。
本稿では、CBAM(Contemporalal Block Attention Module)により強化されたVARGGネットワークを利用した、イベントベースのオブジェクト認識のための新しい学習フレームワークを提案する。
提案手法は,従来のVGGモデルと比較してパラメータ数を2.3%削減しつつ,最先端のResNet手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-04-01T02:37:54Z) - Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition [6.168286187549952]
提案するハイブリッドなエンドツーエンドフレームワークは,3つの重要な概念にまたがって学習を分解し,推論コストを先行技術に対して330倍に削減する。
実験により,本手法は最先端のビデオ認識性能を実現する軽量なアーキテクチャを実現することが示された。
論文 参考訳(メタデータ) (2025-03-17T21:13:48Z) - Transformers with Joint Tokens and Local-Global Attention for Efficient Human Pose Estimation [34.99437411281915]
本稿では,精度,効率,ロバストな2次元ポーズ推定のための2つのViTモデルを提案する。
6つのベンチマーク実験により,提案手法が最先端手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-02-28T22:34:22Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Med-DANet V2: A Flexible Dynamic Architecture for Efficient Medical
Volumetric Segmentation [29.082411035685773]
医用セグメンテーションのための動的アーキテクチャネットワーク(Med-DANet)は、良好な精度と効率のトレードオフを実現している。
本稿では、データ自体とモデル構造の両方の観点から、動的推論フレームワークの統一的な定式化について検討する。
当社のフレームワークでは,BraTS 2019のセグメンテーション結果と同等で,モデル効率を4.1倍と17.3倍に向上しています。
論文 参考訳(メタデータ) (2023-10-28T09:57:28Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - HeteroEdge: Addressing Asymmetry in Heterogeneous Collaborative
Autonomous Systems [1.274065448486689]
2台の無人地上車両(UGV)と2台のNVIDIA Jetsonデバイスからなるテストベッドの自己適応最適化フレームワークを提案する。
このフレームワークは、異種ノード上の複数のタスク(ストレージ、処理、計算、送信、推論)を同時に効率的に管理する。
入力された画像フレームの圧縮とマスキング、類似したフレームの識別、および最適化のための境界条件を得るためにプロファイリング装置を含む。
論文 参考訳(メタデータ) (2023-05-05T02:43:16Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - A Multi-Resolution Framework for U-Nets with Applications to
Hierarchical VAEs [29.995904718691204]
無限次元関数空間上のモデルの有限次元切り込みとしてU-Netを識別する多分解能フレームワークを定式化する。
次に、我々のフレームワークを活用して、U-Netアーキテクチャを持つ最先端階層型VAE(HVAE)を特定します。
論文 参考訳(メタデータ) (2023-01-19T17:33:48Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Simultaneous Multiple Object Detection and Pose Estimation using 3D
Model Infusion with Monocular Vision [21.710141497071373]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。
単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。
我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文 参考訳(メタデータ) (2022-11-21T05:18:56Z) - HFedMS: Heterogeneous Federated Learning with Memorable Data Semantics
in Industrial Metaverse [49.1501082763252]
本稿では,新しい産業メタバースに実用FLを取り入れたHFEDMSを提案する。
動的グルーピングとトレーニングモード変換によってデータの均一性を低下させる。
そして、圧縮された履歴データセマンティクスを融合することで、忘れられた知識を補う。
ストリームされた非I.d.FEMNISTデータセットに対して,368個のシミュレーションデバイスを用いて実験を行った。
論文 参考訳(メタデータ) (2022-11-07T04:33:24Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。