論文の概要: Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for
Complex Visual Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2307.16395v1
- Date: Mon, 31 Jul 2023 03:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 16:00:32.450743
- Title: Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for
Complex Visual Reasoning Tasks
- Title(参考訳): ギャップを橋渡しする: 複雑なビジュアル推論タスクのためのブリッジアーキテクチャの機能を探る
- Authors: Kousik Rajesh, Mrigank Raman, Mohammed Asad Karim, Pranit Chawla
- Abstract要約: ブリッジアーキテクチャは、VQA、キャプション、画像検索といったタスクを解決するために、画像空間からテキスト空間へのプロジェクトである。
我々はNLVR2データセットの従来のブリッジアーキテクチャを拡張し、細粒度オブジェクト推論をファシリケートするためにオブジェクトレベル機能を追加する。
我々の分析では、ブリッジアーキテクチャにオブジェクトレベル機能を追加しても役に立ちませんし、NLVR2のような複雑な推論タスクにおいて、マルチモーダルデータでの事前トレーニングが良いパフォーマンスの鍵であることを示しています。
- 参考スコア(独自算出の注目度): 4.093474663507322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent times there has been a surge of multi-modal architectures based on
Large Language Models, which leverage the zero shot generation capabilities of
LLMs and project image embeddings into the text space and then use the
auto-regressive capacity to solve tasks such as VQA, captioning, and image
retrieval. We name these architectures as "bridge-architectures" as they
project from the image space to the text space. These models deviate from the
traditional recipe of training transformer based multi-modal models, which
involve using large-scale pre-training and complex multi-modal interactions
through co or cross attention. However, the capabilities of bridge
architectures have not been tested on complex visual reasoning tasks which
require fine grained analysis about the image. In this project, we investigate
the performance of these bridge-architectures on the NLVR2 dataset, and compare
it to state-of-the-art transformer based architectures. We first extend the
traditional bridge architectures for the NLVR2 dataset, by adding object level
features to faciliate fine-grained object reasoning. Our analysis shows that
adding object level features to bridge architectures does not help, and that
pre-training on multi-modal data is key for good performance on complex
reasoning tasks such as NLVR2. We also demonstrate some initial results on a
recently bridge-architecture, LLaVA, in the zero shot setting and analyze its
performance.
- Abstract(参考訳): 近年、Large Language Modelsに基づくマルチモーダルアーキテクチャが急増しており、LLMのゼロショット生成能力とプロジェクトイメージのテキスト空間への埋め込みを活用し、VQA、キャプション、画像検索といったタスクを解決するために自動回帰能力を使用している。
我々はこれらのアーキテクチャを、画像空間からテキスト空間へ投影する"ブリッジアーキテクチャ"と命名する。
これらのモデルは、大規模な事前学習と、co または cross による複雑なマルチモーダル相互作用を含む、トランスフォーマーベースのマルチモーダルモデルのトレーニングのレシピから逸脱する。
しかし、ブリッジアーキテクチャの能力は、画像に関するきめ細かい分析を必要とする複雑な視覚的推論タスクではテストされていない。
本稿では,NLVR2データセット上でのブリッジアーキテクチャの性能について検討し,最先端のトランスフォーマーベースアーキテクチャと比較する。
まず、NLVR2データセットの従来のブリッジアーキテクチャを拡張し、粒度の細かいオブジェクト推論にオブジェクトレベル機能を追加する。
分析の結果、ブリッジアーキテクチャにオブジェクトレベルの機能を追加することは役に立たず、マルチモーダルデータでの事前トレーニングはnlvr2のような複雑な推論タスクにおける優れたパフォーマンスの鍵であることがわかった。
また,最近のブリッジアーキテクチャであるllavaについて,ゼロショット設定での初期結果を実証し,その性能解析を行った。
関連論文リスト
- AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - Mixed-Query Transformer: A Unified Image Segmentation Architecture [57.32212654642384]
既存の統合イメージセグメンテーションモデルは、複数のタスクにまたがる統一アーキテクチャを採用するが、各データセットに合わせた個別の重みを使用するか、複数のデータセットに1セットの重みを適用するが、1つのタスクに限定される。
マルチタスクとマルチデータセット画像セグメンテーションを一組の重みで統合したアーキテクチャであるMixed-Query Transformer (MQ-Former)を紹介した。
論文 参考訳(メタデータ) (2024-04-06T01:54:17Z) - Building Optimal Neural Architectures using Interpretable Knowledge [15.66288233048004]
AutoBuildは、オペレーションとアーキテクチャモジュールの潜伏した埋め込みと、それらが現れるアーキテクチャの地味なパフォーマンスを整合させるスキームである。
比較的少数の評価済みアーキテクチャをマイニングすることで、AutoBuildは高品質なアーキテクチャを直接構築するか、あるいは検索スペースを減らして関連分野に集中できることを示す。
論文 参考訳(メタデータ) (2024-03-20T04:18:38Z) - RSBuilding: Towards General Remote Sensing Image Building Extraction and Change Detection with Foundation Model [22.56227565913003]
本稿では、基礎モデルの観点から、RSBuildingと呼ばれる総合的なリモートセンシング画像構築モデルを提案する。
RSBuildingはクロスシーンの一般化とタスク理解を強化するように設計されている。
我々のモデルは最大245,000の画像からなるデータセットでトレーニングされ、複数のビルの抽出と変更検出データセットで検証された。
論文 参考訳(メタデータ) (2024-03-12T11:51:59Z) - The Impact of Different Backbone Architecture on Autonomous Vehicle
Dataset [120.08736654413637]
バックボーンアーキテクチャによって抽出された特徴の質は、全体的な検出性能に大きな影響を与える可能性がある。
本研究は,KITTI,NuScenes,BDDの3つの自律走行車データセットを評価し,対象検出タスクにおける異なるバックボーンアーキテクチャの性能を比較した。
論文 参考訳(メタデータ) (2023-09-15T17:32:15Z) - BridgeTower: Building Bridges Between Encoders in Vision-Language Representation Learning [91.93547262073213]
近年,2towerアーキテクチャを用いた視覚言語モデル(VL)が視覚表現学習を支配している。
そこで,BridgeTowerを提案する。このBridgeTowerは,ユニモーダルエンコーダの上位層とクロスモーダルエンコーダの各層との間の接続を構築する複数のブリッジ層を提供する。
BridgeTowerは78.73%の精度を達成し、以前の最先端モデルであるMETERを1.09%上回った。
論文 参考訳(メタデータ) (2022-06-17T09:42:35Z) - Rethinking Multi-Modal Alignment in Video Question Answering from
Feature and Sample Perspectives [30.666823939595627]
本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴とサンプルの観点から再考する。
我々はヘテロジニアスグラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの両方の視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。
提案手法は, NExT-QAベンチマークにおいて, 最先端モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-25T10:42:07Z) - Stage-Wise Neural Architecture Search [65.03109178056937]
ResNetやNASNetのような現代の畳み込みネットワークは、多くのコンピュータビジョンアプリケーションで最先端の結果を得た。
これらのネットワークは、同じ解像度で表現を操作するレイヤのセットであるステージで構成されている。
各ステージにおけるレイヤー数の増加はネットワークの予測能力を向上させることが示されている。
しかし、結果として得られるアーキテクチャは、浮動小数点演算、メモリ要求、推論時間の観点から計算的に高価になる。
論文 参考訳(メタデータ) (2020-04-23T14:16:39Z) - Hierarchical Neural Architecture Search for Single Image
Super-Resolution [18.624661846174412]
深部ニューラルネットワークは画像超解像(SR)において有望な性能を示した
ほとんどのSRモデルは、計算ブロックのセルレベル設計とアップサンプリングブロックの位置のネットワークレベル設計の両方を含む階層アーキテクチャに従う。
本稿では,計算コストの異なる有望なアーキテクチャを自動設計する階層型ニューラルネットワーク探索法を提案する。
論文 参考訳(メタデータ) (2020-03-10T10:19:44Z) - Hierarchical Conditional Relation Networks for Video Question Answering [62.1146543269993]
条件関係ネットワーク(CRN)と呼ばれる汎用再利用可能なニューラルネットワークユニットを導入する。
CRNは、ビデオ上での表現と推論のためのより洗練された構造を構築するためのビルディングブロックとして機能する。
その結果,ビデオQAのような複雑なドメインに対する汎用推論ユニットの構築の影響が示された。
論文 参考訳(メタデータ) (2020-02-25T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。