論文の概要: An Efficient Modern Baseline for FloodNet VQA
- arxiv url: http://arxiv.org/abs/2205.15025v1
- Date: Mon, 30 May 2022 12:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 13:27:00.917515
- Title: An Efficient Modern Baseline for FloodNet VQA
- Title(参考訳): FloodNet VQAのための効率的なモダンベースライン
- Authors: Aditya Kane and Sahil Khose
- Abstract要約: 我々は,現代画像とテキストの特徴抽象化モデルとの結合,付加,要素ワイド乗算といった基本的な組み合わせ法を再検討する。
我々は,FloodNetデータセットの既存手法より優れ,最先端の性能を実現する,シンプルで効率的なシステムを設計する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing efficient and reliable VQA systems remains a challenging problem,
more so in the case of disaster management and response systems. In this work,
we revisit fundamental combination methods like concatenation, addition and
element-wise multiplication with modern image and text feature abstraction
models. We design a simple and efficient system which outperforms pre-existing
methods on the FloodNet dataset and achieves state-of-the-art performance. This
simplified system requires significantly less training and inference time than
modern VQA architectures. We also study the performance of various backbones
and report their consolidated results. Code is available at
https://github.com/sahilkhose/floodnet_vqa.
- Abstract(参考訳): 災害管理や対応システムにおいて, 効率的で信頼性の高いVQAシステムの設計は依然として困難な問題である。
本研究では,現代画像とテキストの特徴抽象化モデルとの結合,付加,要素ワイド乗算といった基本的な組み合わせ法を再検討する。
我々は,FloodNetデータセットの既存手法より優れ,最先端の性能を実現する,シンプルで効率的なシステムを設計する。
この単純化されたシステムでは、現在のVQAアーキテクチャよりもトレーニングや推論時間が大幅に少なくなります。
また,様々なバックボーンの性能を調査し,その統合結果を報告する。
コードはhttps://github.com/sahilkhose/floodnet_vqaで入手できる。
関連論文リスト
- Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Heterogeneous Continual Learning [88.53038822561197]
本稿では,ネットワークアーキテクチャの変更に伴う継続学習(CL)問題に対処する新しい枠組みを提案する。
本研究は, 蒸留ファミリ上に構築し, より弱いモデルが教師の役割を担うような, 新たな環境に適応するものである。
また、知識伝達を支援するために、タスク前の視覚的特徴を復元するクイック・ディープ・インバージョン(QDI)を提案する。
論文 参考訳(メタデータ) (2023-06-14T15:54:42Z) - RDRN: Recursively Defined Residual Network for Image Super-Resolution [58.64907136562178]
深部畳み込みニューラルネットワーク(CNN)は、単一画像超解像において顕著な性能を得た。
本稿では,注目ブロックを効率的に活用する新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-17T11:06:29Z) - Simple and Efficient Architectures for Semantic Segmentation [50.1563637917129]
ResNetのようなバックボーンと小型のマルチスケールヘッドを備えた単純なエンコーダデコーダアーキテクチャは,HRNetやFANet,DDRNetといった複雑なセマンティックセマンティックセマンティクスアーキテクチャよりも優れていることを示す。
そこで我々は,Cityscapesデータセット上の複雑なモデルの性能に適合する,あるいは超越した,デスクトップおよびモバイルターゲット用のこのようなシンプルなアーキテクチャのファミリーを提示する。
論文 参考訳(メタデータ) (2022-06-16T15:08:34Z) - DeepRLS: A Recurrent Network Architecture with Least Squares Implicit
Layers for Non-blind Image Deconvolution [15.986942312624]
非盲点画像デコンボリューションの問題について検討する。
本稿では,画像品質の非常に競争力のある復元結果をもたらす新しい再帰的ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-10T13:16:51Z) - Precise Learning of Source Code Contextual Semantics via Hierarchical
Dependence Structure and Graph Attention Networks [28.212889828892664]
階層的な依存関係を組み込んだ新しいソースコードモデルを提案する。
本稿では,基本ブロックの構文構造,すなわち対応するASTをソースコードモデルに導入し,十分な情報を提供する。
その結果,本モデルではパラメータのスケールを50%削減し,プログラム分類タスクの精度を4%向上させることができた。
論文 参考訳(メタデータ) (2021-11-20T04:03:42Z) - SIRe-Networks: Skip Connections over Interlaced Multi-Task Learning and
Residual Connections for Structure Preserving Object Classification [28.02302915971059]
本稿では、オブジェクト分類タスクにおける消失勾配を低減するために、SIReを定義したインターレース型マルチタスク学習戦略を提案する。
提案手法は、自動エンコーダを介して入力画像構造を保存することにより、畳み込みニューラルネットワーク(CNN)を直接改善する。
提案手法を検証するため、SIRe戦略を介して単純なCNNと有名なネットワークの様々な実装を拡張し、CIFAR100データセットで広範囲にテストする。
論文 参考訳(メタデータ) (2021-10-06T13:54:49Z) - Structured Convolutions for Efficient Neural Network Design [65.36569572213027]
畳み込みニューラルネットワーク構築ブロックのテクスト単純構造における冗長性を利用してモデル効率に取り組む。
この分解が2Dカーネルや3Dカーネルだけでなく、完全に接続されたレイヤにも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-08-06T04:38:38Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。