論文の概要: Analyzing Modular Approaches for Visual Question Decomposition
- arxiv url: http://arxiv.org/abs/2311.06411v1
- Date: Fri, 10 Nov 2023 22:14:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 18:47:18.498983
- Title: Analyzing Modular Approaches for Visual Question Decomposition
- Title(参考訳): 視覚的質問分解のためのモジュラーアプローチの解析
- Authors: Apoorv Khandelwal, Ellie Pavlick, Chen Sun
- Abstract要約: 追加トレーニングのないモジュラニューラルネットワークは、最近、視覚言語タスクでエンドツーエンドのニューラルネットワークを上回ることが示されている。
本稿では、その追加性能がどこから来たのか、また、それが仮定する(最先端、エンドツーエンドの)BLIP-2モデルと、追加のシンボルコンポーネントとの違いについて尋ねる。
We found that ViperGPT's report gains over BLIP-2 may be due to its selection of task-specific modules, and we run ViperGPT using a task-agnostic selection of modules, and these gains away。
- 参考スコア(独自算出の注目度): 38.73070270272822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modular neural networks without additional training have recently been shown
to surpass end-to-end neural networks on challenging vision-language tasks. The
latest such methods simultaneously introduce LLM-based code generation to build
programs and a number of skill-specific, task-oriented modules to execute them.
In this paper, we focus on ViperGPT and ask where its additional performance
comes from and how much is due to the (state-of-art, end-to-end) BLIP-2 model
it subsumes vs. additional symbolic components. To do so, we conduct a
controlled study (comparing end-to-end, modular, and prompting-based methods
across several VQA benchmarks). We find that ViperGPT's reported gains over
BLIP-2 can be attributed to its selection of task-specific modules, and when we
run ViperGPT using a more task-agnostic selection of modules, these gains go
away. Additionally, ViperGPT retains much of its performance if we make
prominent alterations to its selection of modules: e.g. removing or retaining
only BLIP-2. Finally, we compare ViperGPT against a prompting-based
decomposition strategy and find that, on some benchmarks, modular approaches
significantly benefit by representing subtasks with natural language, instead
of code.
- Abstract(参考訳): 追加のトレーニングのないモジュール型ニューラルネットワークは、視覚言語課題においてエンドツーエンドのニューラルネットワークを上回っていることが最近示されている。
最新の手法では、LLMベースのコード生成を同時に導入し、プログラムをビルドし、それを実行するためのスキル固有のタスク指向モジュールをいくつか導入している。
本稿では, ViperGPT に焦点をあて,その追加性能がどこから来たのか,また,それが仮定する (最先端,エンドツーエンド) BLIP-2 モデルと,追加の記号的コンポーネントとの違いがどの程度なのかを問う。
そのために、制御された研究(複数のVQAベンチマークでエンドツーエンド、モジュール、プロンプトベースの手法を比較)を行う。
blip-2に対するvipergptの報告された利益は、タスク固有のモジュールの選択に起因しており、よりタスクに依存しないモジュールの選択を使用してvipergptを実行すると、これらの利益は消滅する。
さらに、ViperGPTは、BLIP-2のみを削除または保持するなど、モジュールの選択に顕著な変更を加えると、その性能を保っている。
最後に、VierGPTとプロンプトベースの分解戦略を比較し、いくつかのベンチマークでは、コードではなく、自然言語でサブタスクを表現することで、モジュラーアプローチが大きなメリットがあることを見出した。
関連論文リスト
- Learning to Route for Dynamic Adapter Composition in Continual Learning with Language Models [56.93608812478369]
本稿では,新たなPEFTモジュールのトレーニングを分離し,タスクの専門化を保証する手法であるL2Rを提案する。
その後、L2Rは学習したモジュールを学習し、以前見たタスクの例を含む小さなメモリを利用するルータのネットワークをトレーニングする。
その結果,L2RはPEFTモジュールの効率的な構成を提供し,他の手法と比較して一般化と性能が向上した。
論文 参考訳(メタデータ) (2024-08-16T23:57:29Z) - Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - Deep Submodular Peripteral Networks [1.8061637661945513]
本稿では,新しいサブモジュラー関数群であるディープサブモジュラー・ペプタラル・ネットワーク(DSPN)とその訓練方法を紹介する。
本研究では,DSPNがコストのかかるサブモジュール関数からサブモジュール性を学ぶことの有効性を実証し,実験的設計とオンラインストリーミングアプリケーションの両方においてその優位性を示す。
論文 参考訳(メタデータ) (2024-03-13T02:53:52Z) - GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and
reusing ModulEs [64.49176353858792]
本稿では,モジュールの増殖・再利用による生成的ニューロシンボリック視覚推論を提案する。
提案モデルは,視覚的質問応答や表現理解の参照など,標準的なタスクに対して競合的に機能する。
いくつかのトレーニング例を観察し、モジュールを再使用することで、新しい視覚的推論タスクに適応することができる。
論文 参考訳(メタデータ) (2023-11-08T18:59:05Z) - ViperGPT: Visual Inference via Python Execution for Reasoning [23.56704214763551]
視覚・言語モデルを構成するフレームワークであるViperGPTを導入し,問合せの結果を生成する。
この単純なアプローチでは、さらなるトレーニングは必要とせず、様々な複雑な視覚的タスクで最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-03-14T17:57:47Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。