論文の概要: Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for
Complex Visual Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2307.16395v1
- Date: Mon, 31 Jul 2023 03:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 16:00:32.450743
- Title: Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for
Complex Visual Reasoning Tasks
- Title(参考訳): ギャップを橋渡しする: 複雑なビジュアル推論タスクのためのブリッジアーキテクチャの機能を探る
- Authors: Kousik Rajesh, Mrigank Raman, Mohammed Asad Karim, Pranit Chawla
- Abstract要約: ブリッジアーキテクチャは、VQA、キャプション、画像検索といったタスクを解決するために、画像空間からテキスト空間へのプロジェクトである。
我々はNLVR2データセットの従来のブリッジアーキテクチャを拡張し、細粒度オブジェクト推論をファシリケートするためにオブジェクトレベル機能を追加する。
我々の分析では、ブリッジアーキテクチャにオブジェクトレベル機能を追加しても役に立ちませんし、NLVR2のような複雑な推論タスクにおいて、マルチモーダルデータでの事前トレーニングが良いパフォーマンスの鍵であることを示しています。
- 参考スコア(独自算出の注目度): 4.093474663507322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent times there has been a surge of multi-modal architectures based on
Large Language Models, which leverage the zero shot generation capabilities of
LLMs and project image embeddings into the text space and then use the
auto-regressive capacity to solve tasks such as VQA, captioning, and image
retrieval. We name these architectures as "bridge-architectures" as they
project from the image space to the text space. These models deviate from the
traditional recipe of training transformer based multi-modal models, which
involve using large-scale pre-training and complex multi-modal interactions
through co or cross attention. However, the capabilities of bridge
architectures have not been tested on complex visual reasoning tasks which
require fine grained analysis about the image. In this project, we investigate
the performance of these bridge-architectures on the NLVR2 dataset, and compare
it to state-of-the-art transformer based architectures. We first extend the
traditional bridge architectures for the NLVR2 dataset, by adding object level
features to faciliate fine-grained object reasoning. Our analysis shows that
adding object level features to bridge architectures does not help, and that
pre-training on multi-modal data is key for good performance on complex
reasoning tasks such as NLVR2. We also demonstrate some initial results on a
recently bridge-architecture, LLaVA, in the zero shot setting and analyze its
performance.
- Abstract(参考訳): 近年、Large Language Modelsに基づくマルチモーダルアーキテクチャが急増しており、LLMのゼロショット生成能力とプロジェクトイメージのテキスト空間への埋め込みを活用し、VQA、キャプション、画像検索といったタスクを解決するために自動回帰能力を使用している。
我々はこれらのアーキテクチャを、画像空間からテキスト空間へ投影する"ブリッジアーキテクチャ"と命名する。
これらのモデルは、大規模な事前学習と、co または cross による複雑なマルチモーダル相互作用を含む、トランスフォーマーベースのマルチモーダルモデルのトレーニングのレシピから逸脱する。
しかし、ブリッジアーキテクチャの能力は、画像に関するきめ細かい分析を必要とする複雑な視覚的推論タスクではテストされていない。
本稿では,NLVR2データセット上でのブリッジアーキテクチャの性能について検討し,最先端のトランスフォーマーベースアーキテクチャと比較する。
まず、NLVR2データセットの従来のブリッジアーキテクチャを拡張し、粒度の細かいオブジェクト推論にオブジェクトレベル機能を追加する。
分析の結果、ブリッジアーキテクチャにオブジェクトレベルの機能を追加することは役に立たず、マルチモーダルデータでの事前トレーニングはnlvr2のような複雑な推論タスクにおける優れたパフォーマンスの鍵であることがわかった。
また,最近のブリッジアーキテクチャであるllavaについて,ゼロショット設定での初期結果を実証し,その性能解析を行った。
関連論文リスト
- RSBuilding: Towards General Remote Sensing Image Building Extraction and
Change Detection with Foundation Model [26.315481107133582]
本稿では、基礎モデルの観点から、RSBuildingと呼ばれる総合的なリモートセンシング画像構築モデルを提案する。
RSBuildingはクロスシーンの一般化とタスク理解を強化するように設計されている。
我々のモデルは最大245,000の画像からなるデータセットでトレーニングされ、複数のビルの抽出と変更検出データセットで検証された。
論文 参考訳(メタデータ) (2024-03-12T11:51:59Z) - Question Aware Vision Transformer for Multimodal Reasoning [14.188369270753347]
マルチモーダル推論のための質問認識型視覚変換器QA-ViTを提案する。
視覚エンコーダに直接質問認識を埋め込む。
この統合により、仮定された問題に関連性のある画像の側面に焦点を当てた動的視覚的特徴が得られる。
論文 参考訳(メタデータ) (2024-02-08T08:03:39Z) - Serving Deep Learning Model in Relational Databases [72.72372281808694]
リレーショナルデータ上での深層学習(DL)モデルの実現は、様々な商業分野や科学分野において重要な要件となっている。
最先端のDL-Centricアーキテクチャは、DL計算を専用のDLフレームワークにオフロードします。
UDF-Centricアーキテクチャは、データベースシステム内の1つ以上のテンソル計算をユーザ定義関数(UDF)にカプセル化する。
potentialRelation-Centricアーキテクチャは、演算子による大規模テンソル計算を表現することを目的としている。
論文 参考訳(メタデータ) (2023-10-07T06:01:35Z) - The Impact of Different Backbone Architecture on Autonomous Vehicle
Dataset [120.08736654413637]
バックボーンアーキテクチャによって抽出された特徴の質は、全体的な検出性能に大きな影響を与える可能性がある。
本研究は,KITTI,NuScenes,BDDの3つの自律走行車データセットを評価し,対象検出タスクにおける異なるバックボーンアーキテクチャの性能を比較した。
論文 参考訳(メタデータ) (2023-09-15T17:32:15Z) - BridgeTower: Building Bridges Between Encoders in Vision-Language
Representation Learning [79.65698559093973]
近年,2towerアーキテクチャを用いた視覚言語モデル(VL)が視覚表現学習を支配している。
そこで,BridgeTowerを提案する。このBridgeTowerは,ユニモーダルエンコーダの上位層とクロスモーダルエンコーダの各層との間の接続を構築する複数のブリッジ層を提供する。
BridgeTowerは78.73%の精度を達成し、以前の最先端モデルであるMETERを1.09%上回った。
論文 参考訳(メタデータ) (2022-06-17T09:42:35Z) - Rethinking Multi-Modal Alignment in Video Question Answering from
Feature and Sample Perspectives [30.666823939595627]
本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴とサンプルの観点から再考する。
我々はヘテロジニアスグラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの両方の視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。
提案手法は, NExT-QAベンチマークにおいて, 最先端モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-25T10:42:07Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z) - Stage-Wise Neural Architecture Search [65.03109178056937]
ResNetやNASNetのような現代の畳み込みネットワークは、多くのコンピュータビジョンアプリケーションで最先端の結果を得た。
これらのネットワークは、同じ解像度で表現を操作するレイヤのセットであるステージで構成されている。
各ステージにおけるレイヤー数の増加はネットワークの予測能力を向上させることが示されている。
しかし、結果として得られるアーキテクチャは、浮動小数点演算、メモリ要求、推論時間の観点から計算的に高価になる。
論文 参考訳(メタデータ) (2020-04-23T14:16:39Z) - Hierarchical Neural Architecture Search for Single Image
Super-Resolution [18.624661846174412]
深部ニューラルネットワークは画像超解像(SR)において有望な性能を示した
ほとんどのSRモデルは、計算ブロックのセルレベル設計とアップサンプリングブロックの位置のネットワークレベル設計の両方を含む階層アーキテクチャに従う。
本稿では,計算コストの異なる有望なアーキテクチャを自動設計する階層型ニューラルネットワーク探索法を提案する。
論文 参考訳(メタデータ) (2020-03-10T10:19:44Z) - Hierarchical Conditional Relation Networks for Video Question Answering [62.1146543269993]
条件関係ネットワーク(CRN)と呼ばれる汎用再利用可能なニューラルネットワークユニットを導入する。
CRNは、ビデオ上での表現と推論のためのより洗練された構造を構築するためのビルディングブロックとして機能する。
その結果,ビデオQAのような複雑なドメインに対する汎用推論ユニットの構築の影響が示された。
論文 参考訳(メタデータ) (2020-02-25T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。