論文の概要: SWAN: World-Aware Adaptive Multimodal Networks for Runtime Variations
- arxiv url: http://arxiv.org/abs/2604.26181v2
- Date: Fri, 01 May 2026 02:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 13:37:10.918273
- Title: SWAN: World-Aware Adaptive Multimodal Networks for Runtime Variations
- Title(参考訳): SWAN: 実行時変動に対するワールドアウェア適応型マルチモーダルネットワーク
- Authors: Jason Wu, Shir-Kang Scott Jin, Yuyang Yuan, Maggie Wigness, Lance M. Kaplan, Hang Qiu, Mani Srivastava,
- Abstract要約: SWAN(Sample and World-Aware Multimodal Network)は、3つの目標すべてを達成する適応型マルチモーダルネットワークである。
複雑な多目的3次元検出による自律走行領域においてSWANを提示し、FLOPを49%まで低減し、最小限の劣化を回避した。
- 参考スコア(独自算出の注目度): 7.830088573985883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal deep neural networks deployed in realistic environments must contend with runtime variations: changes in modality quality, overall input complexity, and available platform resources. Current networks struggle with such fluctuations -- adaptive networks cannot adhere to a strict compute budget, controller-based networks neglect to consider input complexity, and statically provisioned networks fail at all the above. Consequently, they do not extract maximum utility from the expended computational resources. We present SWAN (Sample and World-Aware Multimodal Network), the first adaptive multimodal network that accomplishes all three goals. SWAN employs a quality-aware controller to assign resources among modalities according to a variable user-specified maximum budget. Within this budget, an adaptive gating module further optimizes efficiency by scaling layer utilization according to sample complexity. For further gains, SWAN also employs a token dropping module that masks semantically irrelevant multimodal features before performing detections. We evaluate SWAN in the domain of autonomous driving with complex multi-object 3D detection, reducing FLOPs by up to 49% with minimal degradation.
- Abstract(参考訳): 現実的な環境にデプロイされるマルチモーダルディープニューラルネットワークは、モダリティ品質の変化、全体的な入力複雑性、利用可能なプラットフォームリソースといったランタイムのバリエーションと競合する必要があります。
適応型ネットワークは厳格な計算予算を守れず、コントローラベースのネットワークは入力の複雑さを考慮せず、静的に設定されたネットワークは上記のすべてで失敗する。
その結果、拡張された計算資源から最大ユーティリティを抽出することができない。
SWAN(Sample and World-Aware Multimodal Network)は,3つの目標すべてを達成する適応型マルチモーダルネットワークである。
SWANは、可変ユーザ指定の最大予算に従って、モダリティ間でリソースを割り当てるために品質認識コントローラを使用する。
この予算内では、適応ゲーティングモジュールは、サンプルの複雑さに応じて層利用をスケーリングすることで、さらに効率を最適化する。
さらに利益を得るためにSWANは、検出を実行する前に意味的に無関係なマルチモーダル機能を隠蔽するトークンドロップモジュールも採用している。
複雑な多目的3次元検出による自律走行領域におけるSWANの評価を行い、FLOPを49%まで低減し、最小限の劣化を回避した。
関連論文リスト
- Meta Hierarchical Reinforcement Learning for Scalable Resource Management in O-RAN [9.290879387995401]
本稿では,モデル非依存型メタラーニング(MAML)に触発された適応型メタ階層型強化学習フレームワークを提案する。
このフレームワークは階層的な制御とメタラーニングを統合し、グローバルとローカルの両方の適応を可能にする。
ネットワークスケールの増加に伴い、適応と一貫性のある公平性、レイテンシ、スループットのパフォーマンスが最大40%向上する。
論文 参考訳(メタデータ) (2025-12-08T08:16:27Z) - Adaptive Mesh-Quantization for Neural PDE Solvers [51.26961483962011]
グラフニューラルネットワークは複雑なジオメトリや境界条件に必要な不規則なメッシュを処理できるが、それでもすべてのノードで一様計算処理を適用できる。
適応メッシュ量子化(Adaptive Mesh Quantization): メッシュノード,エッジ,クラスタ特徴間の空間適応量子化であり,量子化モデルで使用されるビット幅を動的に調整する。
我々は,MP-PDEとGraphViTという2つの最先端モデルと統合して,複数のタスクのパフォーマンスを評価することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2025-11-23T14:47:24Z) - A Lightweight RL-Driven Deep Unfolding Network for Robust WMMSE Precoding in Massive MU-MIMO-OFDM Systems [8.526578240549794]
本稿では,各SWMMSEイテレーションをネットワーク層にマッピングする,軽量強化学習(RL)駆動の深層展開(RLDDU-Net)ネットワークを提案する。
具体的には、そのDUモジュールは、ビーム領域の間隔と周波数領域のサブキャリア相関を統合し、収束を著しく加速し、計算オーバーヘッドを低減する。
不完全なCSI下でのシミュレーションの結果、RLDDU-Netは計算効率と収束効率を向上しつつ、既存のEWSR性能のベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-06-19T06:54:42Z) - ADMN: A Layer-Wise Adaptive Multimodal Network for Dynamic Input Noise and Compute Resources [5.456551020443246]
マルチモーダルディープラーニングシステムは、様々な計算資源の可用性と入力の質の変動に苦慮している。
両課題に対処可能なレイヤワイド適応深度マルチモーダルネットワーク ADMN を提案する。
評価の結果, ADMNは, 浮動小数点演算の75%を削減しつつ, 最先端ネットワークの精度を向上できることがわかった。
論文 参考訳(メタデータ) (2025-02-11T17:19:44Z) - RTF-Q: Efficient Unsupervised Domain Adaptation with Retraining-free Quantization [14.447148108341688]
ReTraining-Free Quantization (RTF-Q) を用いた効率的な非教師なし領域適応法を提案する。
提案手法では,計算コストの異なる低精度量子化アーキテクチャを用い,動的予算を持つデバイスに適用する。
提案するネットワークは,3つのベンチマークにおける最先端手法との競合精度を実証する。
論文 参考訳(メタデータ) (2024-08-11T11:53:29Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation [86.02485817444216]
マルチプロンプトアライメント(MPA: Multi-Prompt Alignment)は,マルチソースUDAのためのシンプルかつ効率的なフレームワークである。
MPAは、学習したプロンプトを自動エンコードプロセスで認知し、再構築されたプロンプトの合意を最大化することでそれらを調整する。
実験によると、MPAは3つの一般的なデータセットで最先端の結果を達成し、DomainNetの平均精度は54.1%である。
論文 参考訳(メタデータ) (2022-09-30T03:40:10Z) - Multi-path Neural Networks for On-device Multi-domain Visual
Classification [55.281139434736254]
本稿では,モバイルデバイス上でのマルチドメイン視覚分類のためのマルチパスネットワークの自動学習手法を提案する。
提案するマルチパスネットワークは,各ドメインに1つの強化学習コントローラを適用して,MobileNetV3のような検索空間から生成されたスーパーネットワークの最適経路を選択することにより,ニューラルネットワーク検索から学習する。
決定されたマルチパスモデルは、個々のドメインパス内の非共有ノード内にドメイン固有のパラメータを保持しながら、共有ノード内のドメイン間でパラメータを選択的に共有する。
論文 参考訳(メタデータ) (2020-10-10T05:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。