Fugu-MT 論文翻訳(概要): LCV2: An Efficient Pretraining-Free Framework for Grounded Visual Question Answering

論文の概要: LCV2: An Efficient Pretraining-Free Framework for Grounded Visual Question Answering

arxiv url: http://arxiv.org/abs/2401.15842v2
Date: Sat, 23 Mar 2024 02:46:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 01:45:48.944593
Title: LCV2: An Efficient Pretraining-Free Framework for Grounded Visual Question Answering
Title（参考訳）: LCV2: 接地型視覚質問応答のための効果的な事前学習不要フレームワーク
Authors: Yuhan Chen, Lumei Su, Lihua Chen, Zhiwei Lin,
Abstract要約: LCV2モジュラー法は視覚言語マルチモーダル領域におけるグラウンドド視覚質問応答タスクに対して提案される。このアプローチは、市販のVQAモデルと市販のビジュアルグラウンド(VG)モデルの間の中間メディエータとして、凍結した大言語モデル(LLM)に依存している。このフレームワークは、低計算リソース下でのVQAグラウンディングタスクにデプロイすることができる。
参考スコア（独自算出の注目度）: 6.263815658578159
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, the LCV2 modular method is proposed for the Grounded Visual Question Answering task in the vision-language multimodal domain. This approach relies on a frozen large language model (LLM) as intermediate mediator between the off-the-shelf VQA model and the off-the-shelf visual grounding (VG) model, where the LLM transforms and conveys textual information between the two modules based on a designed prompt. LCV2 establish an integrated plug-and-play framework without the need for any pre-training process. This framework can be deployed for VQA Grounding tasks under low computational resources. The modularized model within the framework allows application with various state-of-the-art pre-trained models, exhibiting significant potential to be advance with the times. Experimental implementations were conducted under constrained computational and memory resources, evaluating the proposed method's performance on benchmark datasets including GQA, CLEVR, and VizWiz-VQA-Grounding. Comparative analyses with baseline methods demonstrate the robust competitiveness of LCV2.
Abstract（参考訳）: 本稿では,視覚言語マルチモーダル領域におけるグラウンドド視覚質問応答タスクに対して,LCV2モジュラー手法を提案する。このアプローチは、既製のVQAモデルと既製のビジュアルグラウンドディング(VG)モデルの間の中間メディエータとして、凍結した大言語モデル(LLM)に依存し、LLMは設計したプロンプトに基づいて2つのモジュール間のテキスト情報を変換し伝達する。 LCV2は、事前学習プロセスを必要としない統合されたプラグイン・アンド・プレイ・フレームワークを確立する。このフレームワークは、低計算リソース下でのVQAグラウンディングタスクにデプロイすることができる。フレームワーク内のモジュール化されたモデルは、様々な最先端の事前訓練されたモデルを持つアプリケーションを可能にする。 GQA, CLEVR, VizWiz-VQA-Grounding などのベンチマークデータセットを用いて, 提案手法の性能評価を行った。ベースライン法との比較分析により, LCV2の強靭な競合性を示す。

関連論文リスト

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL [70.1326027641056]
視覚言語モデル(VLM)は、様々なコンピュータビジョンタスクにおいて印象的な性能を達成している。本稿では,キー画像領域に適応的な焦点付けとズームインを行うことができるChain-of-Focus(CoF)手法を提案する。教師付き微調整と強化学習を含む2段階の訓練パイプラインを提案する。
論文参考訳（メタデータ） (2025-05-21T12:18:15Z)
VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering [8.21219588747224]
本稿では,視覚エンコーダとシーケンス・ツー・シーケンス言語モデルを統合する統一アーキテクチャであるVLMTについて述べる。 VLMTは直接トークンレベルの注入機構を使用して、共有埋め込み空間内で視覚的およびテキスト的入力を融合する。 2つのベンチマークデータセットに関する総合的な実験は、提案手法の有効性を実証する。
論文参考訳（メタデータ） (2025-04-11T05:51:44Z)
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文参考訳（メタデータ） (2024-10-23T11:31:06Z)
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。 MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文参考訳（メタデータ） (2024-10-09T17:59:04Z)
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。 1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文参考訳（メタデータ） (2024-10-07T16:14:05Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
Conformal Trajectory Prediction with Multi-View Data Integration in Cooperative Driving [4.628774934971078]
軌道予測に関する現在の研究は、主にエゴ車両の搭載センサーによって収集されたデータに依存している。 V2INetは、既存の単一ビューモデルを拡張することで、マルチビューデータをモデル化するための新しい軌道予測フレームワークである。以上の結果から,FDE(Final Displacement Error)とMR(Miss Rate)において,単一GPUを用いた優れた性能を示した。
論文参考訳（メタデータ） (2024-08-01T08:32:03Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
Transfer Learning in Multi-Agent Reinforcement Learning with Double Q-Networks for Distributed Resource Sharing in V2X Communication [24.442174952832108]
本稿では,V2X通信ネットワークにおける分散スペクトル共有の問題に対処する。目的は、V2IおよびV2Vリンクの資源効率の高い共存を提供することである。
論文参考訳（メタデータ） (2021-07-13T15:50:10Z)
WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文参考訳（メタデータ） (2021-03-11T09:39:49Z)
Unsupervised Vision-and-Language Pre-training Without Parallel Images and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。 4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文参考訳（メタデータ） (2020-10-24T08:17:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。