論文の概要: LCV2: An Efficient Pretraining-Free Framework for Grounded Visual Question Answering
- arxiv url: http://arxiv.org/abs/2401.15842v2
- Date: Sat, 23 Mar 2024 02:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 01:45:48.944593
- Title: LCV2: An Efficient Pretraining-Free Framework for Grounded Visual Question Answering
- Title(参考訳): LCV2: 接地型視覚質問応答のための効果的な事前学習不要フレームワーク
- Authors: Yuhan Chen, Lumei Su, Lihua Chen, Zhiwei Lin,
- Abstract要約: LCV2モジュラー法は視覚言語マルチモーダル領域におけるグラウンドド視覚質問応答タスクに対して提案される。
このアプローチは、市販のVQAモデルと市販のビジュアルグラウンド(VG)モデルの間の中間メディエータとして、凍結した大言語モデル(LLM)に依存している。
このフレームワークは、低計算リソース下でのVQAグラウンディングタスクにデプロイすることができる。
- 参考スコア(独自算出の注目度): 6.263815658578159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, the LCV2 modular method is proposed for the Grounded Visual Question Answering task in the vision-language multimodal domain. This approach relies on a frozen large language model (LLM) as intermediate mediator between the off-the-shelf VQA model and the off-the-shelf visual grounding (VG) model, where the LLM transforms and conveys textual information between the two modules based on a designed prompt. LCV2 establish an integrated plug-and-play framework without the need for any pre-training process. This framework can be deployed for VQA Grounding tasks under low computational resources. The modularized model within the framework allows application with various state-of-the-art pre-trained models, exhibiting significant potential to be advance with the times. Experimental implementations were conducted under constrained computational and memory resources, evaluating the proposed method's performance on benchmark datasets including GQA, CLEVR, and VizWiz-VQA-Grounding. Comparative analyses with baseline methods demonstrate the robust competitiveness of LCV2.
- Abstract(参考訳): 本稿では,視覚言語マルチモーダル領域におけるグラウンドド視覚質問応答タスクに対して,LCV2モジュラー手法を提案する。
このアプローチは、既製のVQAモデルと既製のビジュアルグラウンドディング(VG)モデルの間の中間メディエータとして、凍結した大言語モデル(LLM)に依存し、LLMは設計したプロンプトに基づいて2つのモジュール間のテキスト情報を変換し伝達する。
LCV2は、事前学習プロセスを必要としない統合されたプラグイン・アンド・プレイ・フレームワークを確立する。
このフレームワークは、低計算リソース下でのVQAグラウンディングタスクにデプロイすることができる。
フレームワーク内のモジュール化されたモデルは、様々な最先端の事前訓練されたモデルを持つアプリケーションを可能にする。
GQA, CLEVR, VizWiz-VQA-Grounding などのベンチマークデータセットを用いて, 提案手法の性能評価を行った。
ベースライン法との比較分析により, LCV2の強靭な競合性を示す。
関連論文リスト
- Prismatic VLMs: Investigating the Design Space of Visually-Conditioned
Language Models [77.77951795883698]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
まず,視覚的質問応答,言語からのオブジェクトローカライゼーション,幻覚などの特性を探索する課題セットを対象とする,標準化された評価スイートをコンパイルする。
我々は、事前訓練された視覚表現を含むキー設計軸に沿ったVLMを厳格に調査し、ベース対インストラクション言語モデルを用いたトレードオフの定量化を行う。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - ES-MVSNet: Efficient Framework for End-to-end Self-supervised Multi-View
Stereo [11.41432976633312]
本研究では、ES-MVSNetと呼ばれるエンドツーエンドのMVSのための効率的なフレームワークを提案する。
モデル性能を損なうことなくメモリ使用量を43%削減するメモリ効率アーキテクチャを提案する。
非対称なビュー選択ポリシーと領域認識深度整合性の設計により、新たな整合性信号のサードパーティモデルに頼ることなく、E2E自己監督型MVS手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-04T08:16:47Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Zero-shot Visual Question Answering with Language Model Feedback [83.65140324876536]
知識に基づく視覚的質問応答(VQA)のための言語モデル指導型キャプションアプローチ LAMOC を提案する。
提案手法では,予備学習言語モデル (PLM) である回答予測モデルの文脈として,キャプションモデルによって生成されたキャプションを用いる。
論文 参考訳(メタデータ) (2023-05-26T15:04:20Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Transfer Learning in Multi-Agent Reinforcement Learning with Double
Q-Networks for Distributed Resource Sharing in V2X Communication [24.442174952832108]
本稿では,V2X通信ネットワークにおける分散スペクトル共有の問題に対処する。
目的は、V2IおよびV2Vリンクの資源効率の高い共存を提供することである。
論文 参考訳(メタデータ) (2021-07-13T15:50:10Z) - WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文 参考訳(メタデータ) (2021-03-11T09:39:49Z) - A Hierarchical Deep Actor-Critic Learning Method for Joint Distribution
System State Estimation [1.7205106391379026]
グリッドエッジにおける顧客のリアルタイム監視は、重要なタスクとなっている。
ほぼリアルタイムなソリューションを実現するために,新しい階層型強化学習支援フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-04T22:38:21Z) - Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文 参考訳(メタデータ) (2020-10-24T08:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。