論文の概要: MoVie: Revisiting Modulated Convolutions for Visual Counting and Beyond
- arxiv url: http://arxiv.org/abs/2004.11883v3
- Date: Wed, 7 Oct 2020 06:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 04:02:18.858336
- Title: MoVie: Revisiting Modulated Convolutions for Visual Counting and Beyond
- Title(参考訳): MoVie: ビジュアルカウントとそれ以上の修正された畳み込みを再考
- Authors: Duy-Kien Nguyen, Vedanuj Goswami, and Xinlei Chen
- Abstract要約: 本稿では,自然画像とクエリが与えられた事象数を予測することを目的とした,視覚的計数に焦点を当てた。
本稿では、クエリと画像を局所的に融合させる変調畳み込みを再検討する、シンプルで効果的な方法を提案する。
- 参考スコア(独自算出の注目度): 36.06141749068271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on visual counting, which aims to predict the number of
occurrences given a natural image and a query (e.g. a question or a category).
Unlike most prior works that use explicit, symbolic models which can be
computationally expensive and limited in generalization, we propose a simple
and effective alternative by revisiting modulated convolutions that fuse the
query and the image locally. Following the design of residual bottleneck, we
call our method MoVie, short for Modulated conVolutional bottlenecks. Notably,
MoVie reasons implicitly and holistically and only needs a single forward-pass
during inference. Nevertheless, MoVie showcases strong performance for
counting: 1) advancing the state-of-the-art on counting-specific VQA tasks
while being more efficient; 2) outperforming prior-art on difficult benchmarks
like COCO for common object counting; 3) helped us secure the first place of
2020 VQA challenge when integrated as a module for 'number' related questions
in generic VQA models. Finally, we show evidence that modulated convolutions
such as MoVie can serve as a general mechanism for reasoning tasks beyond
counting.
- Abstract(参考訳): 本稿では,自然画像と問合せ(質問やカテゴリなど)の出現回数を予測することを目的とした,視覚的カウントに着目した。
計算コストが高く,一般化に制限のある,明示的で象徴的なモデルを用いた従来のほとんどの作品とは異なり,クエリとイメージを局所的に融合させる変調畳み込みを再検討することで,シンプルで効果的な代替案を提案する。
残差ボトルネックの設計の後、我々はこの手法を MoVie と呼び、変調共生ボトルネック(Modulated conVolutional bottlenecks)と略す。
特にMoVieは暗黙的かつ全体的理由があり、推論中に1つのフォワードパスしか必要としない。
それでもMoVieは、カウントする上での強力なパフォーマンスを見せている。
1) より効率的でありながら、特定VQAタスクの数え方に関する最先端の推進
2) 共通オブジェクトカウントのためのCOCOのような難しいベンチマークにおいて、先行技術より優れています。
3. 一般的なVQAモデルで'番号'に関連する質問のモジュールとして統合されたことにより、2020 VQAチャレンジの最初の場所の確保に役立ちました。
最後に,映画などの変調畳み込みが,計算以外のタスクを推論するための一般的なメカニズムであることを示す。
関連論文リスト
- LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - MoReVQA: Exploring Modular Reasoning Models for Video Question Answering [101.25249395748794]
本稿では,ビデオ質問応答(videoQA)の課題を,分解した多段階モジュラー推論フレームワークを用いて解決する。
従来の単一ステージ計画手法とは異なり、イベント、グラウンドステージ、最終的な推論ステージからなるマルチステージシステムと外部メモリとの組み合わせを提案する。
論文 参考訳(メタデータ) (2024-04-09T17:59:31Z) - Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Modularized Zero-shot VQA with Pre-trained Models [20.674979268279728]
本稿では,質問をサブ推論ステップに明示的に分解し,高度に解釈可能なモジュール化されたゼロショットネットワークを提案する。
ゼロショット設定下での2つのVQAベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-27T05:00:14Z) - Logical Implications for Visual Question Answering Consistency [2.005299372367689]
本稿では,VQAモデルに広く適用可能な新しい整合損失項を提案する。
本稿では,これらの論理的関係を専用言語モデルを用いて推論し,一貫性損失関数として用いることを提案する。
我々は、VQAイントロスペクションとDMEデータセットに関する広範な実験を行い、我々の手法が最先端のVQAモデルに改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-16T16:00:18Z) - Declaration-based Prompt Tuning for Visual Question Answering [16.688288454811016]
本稿では,DPT(Declaation-based Prompt Tuning)と呼ばれる,革新的なビジュアル言語(VL)ファインチューニングパラダイムを提案する。
DPTは、VQAモデルの事前学習と微調整の目的を共同で最適化し、事前学習されたVLモデルの下流タスクへの効果的な適応を促進する。
GQAデータセットの実験結果によると、DPTは完全な教師付き(2.68%)とゼロショット/フェーショット(31%以上)の両方で精度に大きな差で微調整されたデータセットよりも優れていた。
論文 参考訳(メタデータ) (2022-05-05T05:56:55Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - How to Design Sample and Computationally Efficient VQA Models [53.65668097847456]
テキストを確率的プログラムとして表現し,イメージをオブジェクトレベルのシーングラフとして表現することが,これらのデシラタを最も満足していることが判明した。
既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
論文 参考訳(メタデータ) (2021-03-22T01:48:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。