論文の概要: LCVO: An Efficient Pretraining-Free Framework for Visual Question
Answering Grounding
- arxiv url: http://arxiv.org/abs/2401.15842v1
- Date: Mon, 29 Jan 2024 02:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 16:13:54.644870
- Title: LCVO: An Efficient Pretraining-Free Framework for Visual Question
Answering Grounding
- Title(参考訳): lcvo: visual question answering groundingのための効率的事前学習フリーフレームワーク
- Authors: Yuhan Chen, Lumei Su, Lihua Chen, Zhiwei Lin
- Abstract要約: 視覚言語マルチモーダル領域における視覚質問応答(VQA)グラウンディングタスクに対してLCVOモジュラー法を提案する。
このアプローチは、市販のVQAモデルと市販のOpen-Vocabulary Object Detection (OVD)モデルの間の中間メディエータとして、凍結した大言語モデル(LLM)に依存している。
このフレームワークは、低計算リソース下でのVQAグラウンディングタスクにデプロイすることができる。
- 参考スコア(独自算出の注目度): 6.842768617547857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, the LCVO modular method is proposed for the Visual Question
Answering (VQA) Grounding task in the vision-language multimodal domain. This
approach relies on a frozen large language model (LLM) as intermediate mediator
between the off-the-shelf VQA model and the off-the-shelf Open-Vocabulary
Object Detection (OVD) model, where the LLM transforms and conveys textual
information between the two modules based on a designed prompt. LCVO establish
an integrated plug-and-play framework without the need for any pre-training
process. This framework can be deployed for VQA Grounding tasks under low
computational resources. The modularized model within the framework allows
application with various state-of-the-art pre-trained models, exhibiting
significant potential to be advance with the times. Experimental
implementations were conducted under constrained computational and memory
resources, evaluating the proposed method's performance on benchmark datasets
including GQA, CLEVR, and VizWiz-VQA-Grounding. Comparative analyses with
baseline methods demonstrate the robust competitiveness of LCVO.
- Abstract(参考訳): 本稿では,視覚言語マルチモーダル領域における視覚質問応答(VQA)グラウンディングタスクに対してLCVOモジュラー手法を提案する。
このアプローチは、既成のvqaモデルと市販のopen-vocabulary object detection(ovd)モデルの間の中間仲介者として凍った大型言語モデル(llm)に依存しており、llmは設計されたプロンプトに基づいて2つのモジュール間でテキスト情報を変換し、伝達する。
LCVOは事前学習の必要なく、プラグイン・アンド・プレイ・フレームワークを統合化している。
このフレームワークは、低計算リソース下でVQAグラウンディングタスクにデプロイすることができる。
フレームワーク内のモジュール化されたモデルは、様々な最先端の事前訓練されたモデルを持つアプリケーションを可能にする。
GQA, CLEVR, VizWiz-VQA-Grounding などのベンチマークデータセットを用いて, 提案手法の性能評価を行った。
ベースライン法との比較分析によりLCVOの強靭な競争性を示す。
関連論文リスト
- MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [29.234931173107825]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - Localized Symbolic Knowledge Distillation for Visual Commonsense Models [150.18129140140238]
ローカル化されたVisual Commonsenseモデルを構築し、ユーザが入力として(複数の)リージョンを指定できるようにします。
大規模言語モデルから局所的なコモンセンス知識を抽出してモデルを訓練する。
局所化コモンセンスコーパスのトレーニングにより,既存の視覚言語モデルを抽出し,リファレンス・アズ・インプット・インタフェースをサポートできることが判明した。
論文 参考訳(メタデータ) (2023-12-08T05:23:50Z) - ES-MVSNet: Efficient Framework for End-to-end Self-supervised Multi-View
Stereo [11.41432976633312]
本研究では、ES-MVSNetと呼ばれるエンドツーエンドのMVSのための効率的なフレームワークを提案する。
モデル性能を損なうことなくメモリ使用量を43%削減するメモリ効率アーキテクチャを提案する。
非対称なビュー選択ポリシーと領域認識深度整合性の設計により、新たな整合性信号のサードパーティモデルに頼ることなく、E2E自己監督型MVS手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-04T08:16:47Z) - Zero-shot Visual Question Answering with Language Model Feedback [83.65140324876536]
知識に基づく視覚的質問応答(VQA)のための言語モデル指導型キャプションアプローチ LAMOC を提案する。
提案手法では,予備学習言語モデル (PLM) である回答予測モデルの文脈として,キャプションモデルによって生成されたキャプションを用いる。
論文 参考訳(メタデータ) (2023-05-26T15:04:20Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z) - KGI: An Integrated Framework for Knowledge Intensive Language Tasks [16.511913995069097]
本稿では,他の知識集約型言語タスクに対して,この手法の強化版に基づくシステムを提案する。
我々のシステムは、KILTのリーダーボードで最高のモデルに匹敵する結果を得る。
論文 参考訳(メタデータ) (2022-04-08T10:36:21Z) - I-DLV-sr: A Stream Reasoning System based on I-DLV [2.862606936691229]
我々は,Apache Flink と I2-DLV システム間の密なきめ細かなインタラクションを可能にするフレームワークに依存した,データストリーム上の推論のための新しい論理ベースのシステムを提案する。
このアーキテクチャは、Flinkの強力な分散ストリーム処理機能と、オーバーグラウンド技術に基づくI2-DLVのインクリメンタル推論機能の両方を活用することができる。
論文 参考訳(メタデータ) (2021-08-05T18:02:34Z) - WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文 参考訳(メタデータ) (2021-03-11T09:39:49Z) - Tradeoffs in Sentence Selection Techniques for Open-Domain Question
Answering [54.541952928070344]
文選択のためのモデルの2つのグループについて述べる。QAベースのアプローチは、解答候補を特定するための完全なQAシステムを実行し、検索ベースのモデルは、各質問に特に関連する各節の一部を見つける。
非常に軽量なQAモデルは、このタスクではうまく機能するが、検索ベースモデルは高速である。
論文 参考訳(メタデータ) (2020-09-18T23:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。