論文の概要: Analyzing Modular Approaches for Visual Question Decomposition
- arxiv url: http://arxiv.org/abs/2311.06411v1
- Date: Fri, 10 Nov 2023 22:14:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 18:47:18.498983
- Title: Analyzing Modular Approaches for Visual Question Decomposition
- Title(参考訳): 視覚的質問分解のためのモジュラーアプローチの解析
- Authors: Apoorv Khandelwal, Ellie Pavlick, Chen Sun
- Abstract要約: 追加トレーニングのないモジュラニューラルネットワークは、最近、視覚言語タスクでエンドツーエンドのニューラルネットワークを上回ることが示されている。
本稿では、その追加性能がどこから来たのか、また、それが仮定する(最先端、エンドツーエンドの)BLIP-2モデルと、追加のシンボルコンポーネントとの違いについて尋ねる。
We found that ViperGPT's report gains over BLIP-2 may be due to its selection of task-specific modules, and we run ViperGPT using a task-agnostic selection of modules, and these gains away。
- 参考スコア(独自算出の注目度): 38.73070270272822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modular neural networks without additional training have recently been shown
to surpass end-to-end neural networks on challenging vision-language tasks. The
latest such methods simultaneously introduce LLM-based code generation to build
programs and a number of skill-specific, task-oriented modules to execute them.
In this paper, we focus on ViperGPT and ask where its additional performance
comes from and how much is due to the (state-of-art, end-to-end) BLIP-2 model
it subsumes vs. additional symbolic components. To do so, we conduct a
controlled study (comparing end-to-end, modular, and prompting-based methods
across several VQA benchmarks). We find that ViperGPT's reported gains over
BLIP-2 can be attributed to its selection of task-specific modules, and when we
run ViperGPT using a more task-agnostic selection of modules, these gains go
away. Additionally, ViperGPT retains much of its performance if we make
prominent alterations to its selection of modules: e.g. removing or retaining
only BLIP-2. Finally, we compare ViperGPT against a prompting-based
decomposition strategy and find that, on some benchmarks, modular approaches
significantly benefit by representing subtasks with natural language, instead
of code.
- Abstract(参考訳): 追加のトレーニングのないモジュール型ニューラルネットワークは、視覚言語課題においてエンドツーエンドのニューラルネットワークを上回っていることが最近示されている。
最新の手法では、LLMベースのコード生成を同時に導入し、プログラムをビルドし、それを実行するためのスキル固有のタスク指向モジュールをいくつか導入している。
本稿では, ViperGPT に焦点をあて,その追加性能がどこから来たのか,また,それが仮定する (最先端,エンドツーエンド) BLIP-2 モデルと,追加の記号的コンポーネントとの違いがどの程度なのかを問う。
そのために、制御された研究(複数のVQAベンチマークでエンドツーエンド、モジュール、プロンプトベースの手法を比較)を行う。
blip-2に対するvipergptの報告された利益は、タスク固有のモジュールの選択に起因しており、よりタスクに依存しないモジュールの選択を使用してvipergptを実行すると、これらの利益は消滅する。
さらに、ViperGPTは、BLIP-2のみを削除または保持するなど、モジュールの選択に顕著な変更を加えると、その性能を保っている。
最後に、VierGPTとプロンプトベースの分解戦略を比較し、いくつかのベンチマークでは、コードではなく、自然言語でサブタスクを表現することで、モジュラーアプローチが大きなメリットがあることを見出した。
関連論文リスト
- Deep Submodular Peripteral Network [2.0299470687349177]
submodular peripteral network (DSPNs) は、submodular functionの新たなファミリーである。
コントラスト学習にインスパイアされたGPC対応戦略を用いて,DSPNとその学習方法を紹介する。
DSPNsが高コストな目標部分モジュラリティ関数からサブモジュラリティを学習する際の有効性を実証する。
論文 参考訳(メタデータ) (2024-03-13T02:53:52Z) - GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and
reusing ModulEs [64.49176353858792]
本稿では,モジュールの増殖・再利用による生成的ニューロシンボリック視覚推論を提案する。
提案モデルは,視覚的質問応答や表現理解の参照など,標準的なタスクに対して競合的に機能する。
いくつかのトレーニング例を観察し、モジュールを再使用することで、新しい視覚的推論タスクに適応することができる。
論文 参考訳(メタデータ) (2023-11-08T18:59:05Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - Value Iteration Networks with Gated Summarization Module [7.289178621436725]
本稿では,VIN(Value Iteration Networks)が直面している,より大きな入力マップの処理と,繰り返しの増大による累積誤差の影響の軽減に対処する。
本稿では,GS-VIN (Gated Summarization Module) を用いた新しい手法であるValue Iteration Networksを提案する。
論文 参考訳(メタデータ) (2023-05-11T12:25:12Z) - ViperGPT: Visual Inference via Python Execution for Reasoning [23.56704214763551]
視覚・言語モデルを構成するフレームワークであるViperGPTを導入し,問合せの結果を生成する。
この単純なアプローチでは、さらなるトレーニングは必要とせず、様々な複雑な視覚的タスクで最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-03-14T17:57:47Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - Evaluating Modules in Graph Contrastive Learning [29.03038320344791]
グラフコントラスト学習モデルを4つのモジュールに分解するフレームワークを提案する。
ノード分類タスクとグラフ分類タスクについて実験を行う。
モジュール化されたツールキットOpenGCLとして実装と結果をリリースします。
論文 参考訳(メタデータ) (2021-06-15T14:14:23Z) - Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box
Estimation [87.53808756910452]
そこで我々は,Alpha-Refineと呼ばれる新しい,フレキシブルで高精度な改良モジュールを提案する。
正確なピクセルワイド相関層と空間認識の非局所層を利用して特徴を融合させ、バウンディングボックス、コーナー、マスクの3つの相補的な出力を予測する。
提案するAlpha-Refineモジュールは,DiMP,ATOM,SiamRPN++,RTMDNet,ECOの5つの有名かつ最先端のベーストラッカーに適用する。
論文 参考訳(メタデータ) (2020-07-04T07:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。