論文の概要: An Efficient Modern Baseline for FloodNet VQA
- arxiv url: http://arxiv.org/abs/2205.15025v1
- Date: Mon, 30 May 2022 12:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 13:27:00.917515
- Title: An Efficient Modern Baseline for FloodNet VQA
- Title(参考訳): FloodNet VQAのための効率的なモダンベースライン
- Authors: Aditya Kane and Sahil Khose
- Abstract要約: 我々は,現代画像とテキストの特徴抽象化モデルとの結合,付加,要素ワイド乗算といった基本的な組み合わせ法を再検討する。
我々は,FloodNetデータセットの既存手法より優れ,最先端の性能を実現する,シンプルで効率的なシステムを設計する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing efficient and reliable VQA systems remains a challenging problem,
more so in the case of disaster management and response systems. In this work,
we revisit fundamental combination methods like concatenation, addition and
element-wise multiplication with modern image and text feature abstraction
models. We design a simple and efficient system which outperforms pre-existing
methods on the FloodNet dataset and achieves state-of-the-art performance. This
simplified system requires significantly less training and inference time than
modern VQA architectures. We also study the performance of various backbones
and report their consolidated results. Code is available at
https://github.com/sahilkhose/floodnet_vqa.
- Abstract(参考訳): 災害管理や対応システムにおいて, 効率的で信頼性の高いVQAシステムの設計は依然として困難な問題である。
本研究では,現代画像とテキストの特徴抽象化モデルとの結合,付加,要素ワイド乗算といった基本的な組み合わせ法を再検討する。
我々は,FloodNetデータセットの既存手法より優れ,最先端の性能を実現する,シンプルで効率的なシステムを設計する。
この単純化されたシステムでは、現在のVQAアーキテクチャよりもトレーニングや推論時間が大幅に少なくなります。
また,様々なバックボーンの性能を調査し,その統合結果を報告する。
コードはhttps://github.com/sahilkhose/floodnet_vqaで入手できる。
関連論文リスト
- AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Exploring the design space of deep-learning-based weather forecasting systems [56.129148006412855]
本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。
UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。
固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
論文 参考訳(メタデータ) (2024-10-09T22:25:50Z) - Heterogeneous Continual Learning [88.53038822561197]
本稿では,ネットワークアーキテクチャの変更に伴う継続学習(CL)問題に対処する新しい枠組みを提案する。
本研究は, 蒸留ファミリ上に構築し, より弱いモデルが教師の役割を担うような, 新たな環境に適応するものである。
また、知識伝達を支援するために、タスク前の視覚的特徴を復元するクイック・ディープ・インバージョン(QDI)を提案する。
論文 参考訳(メタデータ) (2023-06-14T15:54:42Z) - DeepRLS: A Recurrent Network Architecture with Least Squares Implicit
Layers for Non-blind Image Deconvolution [15.986942312624]
非盲点画像デコンボリューションの問題について検討する。
本稿では,画像品質の非常に競争力のある復元結果をもたらす新しい再帰的ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-10T13:16:51Z) - Precise Learning of Source Code Contextual Semantics via Hierarchical
Dependence Structure and Graph Attention Networks [28.212889828892664]
階層的な依存関係を組み込んだ新しいソースコードモデルを提案する。
本稿では,基本ブロックの構文構造,すなわち対応するASTをソースコードモデルに導入し,十分な情報を提供する。
その結果,本モデルではパラメータのスケールを50%削減し,プログラム分類タスクの精度を4%向上させることができた。
論文 参考訳(メタデータ) (2021-11-20T04:03:42Z) - SIRe-Networks: Skip Connections over Interlaced Multi-Task Learning and
Residual Connections for Structure Preserving Object Classification [28.02302915971059]
本稿では、オブジェクト分類タスクにおける消失勾配を低減するために、SIReを定義したインターレース型マルチタスク学習戦略を提案する。
提案手法は、自動エンコーダを介して入力画像構造を保存することにより、畳み込みニューラルネットワーク(CNN)を直接改善する。
提案手法を検証するため、SIRe戦略を介して単純なCNNと有名なネットワークの様々な実装を拡張し、CIFAR100データセットで広範囲にテストする。
論文 参考訳(メタデータ) (2021-10-06T13:54:49Z) - Structured Convolutions for Efficient Neural Network Design [65.36569572213027]
畳み込みニューラルネットワーク構築ブロックのテクスト単純構造における冗長性を利用してモデル効率に取り組む。
この分解が2Dカーネルや3Dカーネルだけでなく、完全に接続されたレイヤにも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-08-06T04:38:38Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。