Fugu-MT 論文翻訳(概要): Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for Complex Visual Reasoning Tasks

論文の概要: Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for Complex Visual Reasoning Tasks

arxiv url: http://arxiv.org/abs/2307.16395v1
Date: Mon, 31 Jul 2023 03:57:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-01 16:00:32.450743
Title: Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for Complex Visual Reasoning Tasks
Title（参考訳）: ギャップを橋渡しする: 複雑なビジュアル推論タスクのためのブリッジアーキテクチャの機能を探る
Authors: Kousik Rajesh, Mrigank Raman, Mohammed Asad Karim, Pranit Chawla
Abstract要約: ブリッジアーキテクチャは、VQA、キャプション、画像検索といったタスクを解決するために、画像空間からテキスト空間へのプロジェクトである。我々はNLVR2データセットの従来のブリッジアーキテクチャを拡張し、細粒度オブジェクト推論をファシリケートするためにオブジェクトレベル機能を追加する。我々の分析では、ブリッジアーキテクチャにオブジェクトレベル機能を追加しても役に立ちませんし、NLVR2のような複雑な推論タスクにおいて、マルチモーダルデータでの事前トレーニングが良いパフォーマンスの鍵であることを示しています。
参考スコア（独自算出の注目度）: 4.093474663507322
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent times there has been a surge of multi-modal architectures based on Large Language Models, which leverage the zero shot generation capabilities of LLMs and project image embeddings into the text space and then use the auto-regressive capacity to solve tasks such as VQA, captioning, and image retrieval. We name these architectures as "bridge-architectures" as they project from the image space to the text space. These models deviate from the traditional recipe of training transformer based multi-modal models, which involve using large-scale pre-training and complex multi-modal interactions through co or cross attention. However, the capabilities of bridge architectures have not been tested on complex visual reasoning tasks which require fine grained analysis about the image. In this project, we investigate the performance of these bridge-architectures on the NLVR2 dataset, and compare it to state-of-the-art transformer based architectures. We first extend the traditional bridge architectures for the NLVR2 dataset, by adding object level features to faciliate fine-grained object reasoning. Our analysis shows that adding object level features to bridge architectures does not help, and that pre-training on multi-modal data is key for good performance on complex reasoning tasks such as NLVR2. We also demonstrate some initial results on a recently bridge-architecture, LLaVA, in the zero shot setting and analyze its performance.
Abstract（参考訳）: 近年、Large Language Modelsに基づくマルチモーダルアーキテクチャが急増しており、LLMのゼロショット生成能力とプロジェクトイメージのテキスト空間への埋め込みを活用し、VQA、キャプション、画像検索といったタスクを解決するために自動回帰能力を使用している。我々はこれらのアーキテクチャを、画像空間からテキスト空間へ投影する"ブリッジアーキテクチャ"と命名する。これらのモデルは、大規模な事前学習と、co または cross による複雑なマルチモーダル相互作用を含む、トランスフォーマーベースのマルチモーダルモデルのトレーニングのレシピから逸脱する。しかし、ブリッジアーキテクチャの能力は、画像に関するきめ細かい分析を必要とする複雑な視覚的推論タスクではテストされていない。本稿では,NLVR2データセット上でのブリッジアーキテクチャの性能について検討し,最先端のトランスフォーマーベースアーキテクチャと比較する。まず、NLVR2データセットの従来のブリッジアーキテクチャを拡張し、粒度の細かいオブジェクト推論にオブジェクトレベル機能を追加する。分析の結果、ブリッジアーキテクチャにオブジェクトレベルの機能を追加することは役に立たず、マルチモーダルデータでの事前トレーニングはnlvr2のような複雑な推論タスクにおける優れたパフォーマンスの鍵であることがわかった。また,最近のブリッジアーキテクチャであるllavaについて,ゼロショット設定での初期結果を実証し,その性能解析を行った。

関連論文リスト

Multi-View Depth Consistent Image Generation Using Generative AI Models: Application on Architectural Design of University Buildings [20.569648863933285]
生成AIモデルを用いた新しい3段階一貫した画像生成フレームワークを提案する。バックボーンとしてControlNetを使用し、アーキテクチャ靴箱モデルのマルチビュー入力に対応するように最適化する。実験により,提案フレームワークは,一貫したスタイルと構造コヒーレンスを持つマルチビューアーキテクチャ画像を生成することができることを示した。
論文参考訳（メタデータ） (2025-03-05T00:16:09Z)
MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism [67.56918651825056]
並列マルチ時間問い合わせ(MI)機構を備えた新しいデコーダアーキテクチャを提案する。我々のMIベースモデルであるMI-DETRはCOCOベンチマークで既存のDETRライクなモデルよりも優れています。診断と可視化の一連の実験は、MIの有効性、合理性、解釈可能性を示している。
論文参考訳（メタデータ） (2025-03-03T12:19:06Z)
AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。 AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-11-07T18:43:17Z)
Mixed-Query Transformer: A Unified Image Segmentation Architecture [57.32212654642384]
既存の統合イメージセグメンテーションモデルは、複数のタスクにまたがる統一アーキテクチャを採用するが、各データセットに合わせた個別の重みを使用するか、複数のデータセットに1セットの重みを適用するが、1つのタスクに限定される。マルチタスクとマルチデータセット画像セグメンテーションを一組の重みで統合したアーキテクチャであるMixed-Query Transformer (MQ-Former)を紹介した。
論文参考訳（メタデータ） (2024-04-06T01:54:17Z)
Building Optimal Neural Architectures using Interpretable Knowledge [15.66288233048004]
AutoBuildは、オペレーションとアーキテクチャモジュールの潜伏した埋め込みと、それらが現れるアーキテクチャの地味なパフォーマンスを整合させるスキームである。比較的少数の評価済みアーキテクチャをマイニングすることで、AutoBuildは高品質なアーキテクチャを直接構築するか、あるいは検索スペースを減らして関連分野に集中できることを示す。
論文参考訳（メタデータ） (2024-03-20T04:18:38Z)
RSBuilding: Towards General Remote Sensing Image Building Extraction and Change Detection with Foundation Model [22.56227565913003]
本稿では、基礎モデルの観点から、RSBuildingと呼ばれる総合的なリモートセンシング画像構築モデルを提案する。 RSBuildingはクロスシーンの一般化とタスク理解を強化するように設計されている。我々のモデルは最大245,000の画像からなるデータセットでトレーニングされ、複数のビルの抽出と変更検出データセットで検証された。
論文参考訳（メタデータ） (2024-03-12T11:51:59Z)
The Impact of Different Backbone Architecture on Autonomous Vehicle Dataset [120.08736654413637]
バックボーンアーキテクチャによって抽出された特徴の質は、全体的な検出性能に大きな影響を与える可能性がある。本研究は,KITTI,NuScenes,BDDの3つの自律走行車データセットを評価し,対象検出タスクにおける異なるバックボーンアーキテクチャの性能を比較した。
論文参考訳（メタデータ） (2023-09-15T17:32:15Z)
BridgeTower: Building Bridges Between Encoders in Vision-Language Representation Learning [91.93547262073213]
近年,2towerアーキテクチャを用いた視覚言語モデル(VL)が視覚表現学習を支配している。そこで,BridgeTowerを提案する。このBridgeTowerは,ユニモーダルエンコーダの上位層とクロスモーダルエンコーダの各層との間の接続を構築する複数のブリッジ層を提供する。 BridgeTowerは78.73%の精度を達成し、以前の最先端モデルであるMETERを1.09%上回った。
論文参考訳（メタデータ） (2022-06-17T09:42:35Z)
Rethinking Multi-Modal Alignment in Video Question Answering from Feature and Sample Perspectives [30.666823939595627]
本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴とサンプルの観点から再考する。我々はヘテロジニアスグラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの両方の視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。提案手法は, NExT-QAベンチマークにおいて, 最先端モデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-04-25T10:42:07Z)
Stage-Wise Neural Architecture Search [65.03109178056937]
ResNetやNASNetのような現代の畳み込みネットワークは、多くのコンピュータビジョンアプリケーションで最先端の結果を得た。これらのネットワークは、同じ解像度で表現を操作するレイヤのセットであるステージで構成されている。各ステージにおけるレイヤー数の増加はネットワークの予測能力を向上させることが示されている。しかし、結果として得られるアーキテクチャは、浮動小数点演算、メモリ要求、推論時間の観点から計算的に高価になる。
論文参考訳（メタデータ） (2020-04-23T14:16:39Z)
Hierarchical Neural Architecture Search for Single Image Super-Resolution [18.624661846174412]
深部ニューラルネットワークは画像超解像(SR)において有望な性能を示したほとんどのSRモデルは、計算ブロックのセルレベル設計とアップサンプリングブロックの位置のネットワークレベル設計の両方を含む階層アーキテクチャに従う。本稿では,計算コストの異なる有望なアーキテクチャを自動設計する階層型ニューラルネットワーク探索法を提案する。
論文参考訳（メタデータ） (2020-03-10T10:19:44Z)
Hierarchical Conditional Relation Networks for Video Question Answering [62.1146543269993]
条件関係ネットワーク(CRN)と呼ばれる汎用再利用可能なニューラルネットワークユニットを導入する。 CRNは、ビデオ上での表現と推論のためのより洗練された構造を構築するためのビルディングブロックとして機能する。その結果,ビデオQAのような複雑なドメインに対する汎用推論ユニットの構築の影響が示された。
論文参考訳（メタデータ） (2020-02-25T07:00:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。