論文の概要: SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge
- arxiv url: http://arxiv.org/abs/2405.14554v2
- Date: Tue, 20 Aug 2024 09:04:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 19:49:55.094297
- Title: SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge
- Title(参考訳): SearchLVLMs: 最新インターネット知識検索による大規模視線モデル拡張のためのプラグイン・アンド・プレイフレームワーク
- Authors: Chuanhao Li, Zhen Li, Chenchen Jing, Shuo Liu, Wenqi Shao, Yuwei Wu, Ping Luo, Yu Qiao, Kaipeng Zhang,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、LLaVAシリーズのような最新の知識を知らない。
本稿では,サーチLVLMと呼ばれる最新の知識に関する視覚的質問応答(VQA)を扱うために,既存のLVLMを増補するプラグイン・アンド・プレイフレームワークを提案する。
- 参考スコア(独自算出の注目度): 56.772051051558215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) are ignorant of the up-to-date knowledge, such as LLaVA series, because they cannot be updated frequently due to the large amount of resources required, and therefore fail in many cases. For example, if a LVLM was released on January 2024, and it wouldn't know the singer of the theme song for the new Detective Conan movie, which wasn't released until April 2024. To solve the problem, a promising solution motivated by retrieval-augmented generation (RAG) is to provide LVLMs with up-to-date knowledge via internet search during inference, i.e., internet-augmented generation (IAG), which is already integrated in some closed-source commercial LVLMs such as GPT-4V. However, the specific mechanics underpinning them remain a mystery. In this paper, we propose a plug-and-play framework, for augmenting existing LVLMs in handling visual question answering (VQA) about up-to-date knowledge, dubbed SearchLVLMs. A hierarchical filtering model is trained to effectively and efficiently find the most helpful content from the websites returned by a search engine to prompt LVLMs with up-to-date knowledge. To train the model and evaluate our framework's performance, we propose a pipeline to automatically generate news-related VQA samples to construct a dataset, dubbed UDK-VQA. A multi-model voting mechanism is introduced to label the usefulness of website/content for VQA samples to construct the training set. Experimental results demonstrate the effectiveness of our framework, outperforming GPT-4V by about 25% in accuracy.
- Abstract(参考訳): 大規模な視覚言語モデル(LVLM)は、LLaVAシリーズのような最新の知識を知らない。
例えば、2024年1月にLVLMが公開された場合、2024年4月まで公開されなかった新しいディテクティブ・コナンのテーマソングの歌手は知らないだろう。
この問題を解決するために、検索強化世代(RAG)によって動機付けられた有望な解決策は、推論中にインターネット検索による最新の知識、すなわち、既にGPT-4Vのようなクローズドソースの商用LVLMに統合されているインターネット拡張世代(IAG)を提供することである。
しかし、それらを支える特定の力学は謎のままである。
本稿では,サーチLVLMと呼ばれる最新の知識に関する視覚的質問応答(VQA)を扱うために,既存のLVLMを増補するプラグイン・アンド・プレイフレームワークを提案する。
階層的フィルタリングモデルは、検索エンジンが返却したWebサイトから最も有用なコンテンツを効果的かつ効率的に見つけるように訓練され、LVLMを最新の知識で促す。
モデルをトレーニングし,我々のフレームワークの性能を評価するために,UDK-VQAと呼ばれるデータセットを構築するために,ニュース関連VQAサンプルを自動的に生成するパイプラインを提案する。
トレーニングセットを構築するために、VQAサンプルのWebサイト/コンテンツの有用性をラベル付けするために、マルチモデル投票機構を導入する。
実験の結果,GPT-4Vの精度が約25%向上した。
関連論文リスト
- SURf: Teaching Large Vision-Language Models to Selectively Utilize Retrieved Information [26.049228685973667]
LVLM(Large Vision-Language Models)は、コンピュータビジョンと自然言語処理の共通点において重要な存在である。
現在、ほとんどのLVLMは検索された情報を選択的に活用するのに苦労しており、無関係または誤解を招く参照に敏感である。
選択的検索情報(SURf)にLVLMを教えるための自己組織化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-21T09:36:14Z) - Do Large Language Models Need a Content Delivery Network? [4.816440228214873]
我々は、LLMエンジンや他の計算および記憶資源間でKVキャッシュのストレージ、転送、構成を動的に最適化する知識配信ネットワーク(KDN)を構想する。
我々は、KDNプロトタイプをhttps://github.com/LMCache/LMCacheでオープンソース化しました。
論文 参考訳(メタデータ) (2024-09-16T18:46:24Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction [36.40833517478628]
大規模な言語モデルでは、更新を最新状態に保つか、あるいは新しいドメインに適応する必要がある。
1つの鍵は、記憶された情報がクエリプロンプトで抽出可能な方法で最新の情報を記憶することである。
微調整中に文書の難易度を最小化しているにもかかわらず、LLMはプロンプト文を通して情報を取り出すのに苦労している。
論文 参考訳(メタデータ) (2024-02-16T06:29:16Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。