Fugu-MT 論文翻訳(概要): SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge

論文の概要: SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge

arxiv url: http://arxiv.org/abs/2405.14554v2
Date: Tue, 20 Aug 2024 09:04:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 19:49:55.094297
Title: SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge
Title（参考訳）: SearchLVLMs: 最新インターネット知識検索による大規模視線モデル拡張のためのプラグイン・アンド・プレイフレームワーク
Authors: Chuanhao Li, Zhen Li, Chenchen Jing, Shuo Liu, Wenqi Shao, Yuwei Wu, Ping Luo, Yu Qiao, Kaipeng Zhang,
Abstract要約: 大規模視覚言語モデル(LVLM)は、LLaVAシリーズのような最新の知識を知らない。本稿では,サーチLVLMと呼ばれる最新の知識に関する視覚的質問応答(VQA)を扱うために,既存のLVLMを増補するプラグイン・アンド・プレイフレームワークを提案する。
参考スコア（独自算出の注目度）: 56.772051051558215
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large vision-language models (LVLMs) are ignorant of the up-to-date knowledge, such as LLaVA series, because they cannot be updated frequently due to the large amount of resources required, and therefore fail in many cases. For example, if a LVLM was released on January 2024, and it wouldn't know the singer of the theme song for the new Detective Conan movie, which wasn't released until April 2024. To solve the problem, a promising solution motivated by retrieval-augmented generation (RAG) is to provide LVLMs with up-to-date knowledge via internet search during inference, i.e., internet-augmented generation (IAG), which is already integrated in some closed-source commercial LVLMs such as GPT-4V. However, the specific mechanics underpinning them remain a mystery. In this paper, we propose a plug-and-play framework, for augmenting existing LVLMs in handling visual question answering (VQA) about up-to-date knowledge, dubbed SearchLVLMs. A hierarchical filtering model is trained to effectively and efficiently find the most helpful content from the websites returned by a search engine to prompt LVLMs with up-to-date knowledge. To train the model and evaluate our framework's performance, we propose a pipeline to automatically generate news-related VQA samples to construct a dataset, dubbed UDK-VQA. A multi-model voting mechanism is introduced to label the usefulness of website/content for VQA samples to construct the training set. Experimental results demonstrate the effectiveness of our framework, outperforming GPT-4V by about 25% in accuracy.
Abstract（参考訳）: 大規模な視覚言語モデル(LVLM)は、LLaVAシリーズのような最新の知識を知らない。例えば、2024年1月にLVLMが公開された場合、2024年4月まで公開されなかった新しいディテクティブ・コナンのテーマソングの歌手は知らないだろう。この問題を解決するために、検索強化世代(RAG)によって動機付けられた有望な解決策は、推論中にインターネット検索による最新の知識、すなわち、既にGPT-4Vのようなクローズドソースの商用LVLMに統合されているインターネット拡張世代(IAG)を提供することである。しかし、それらを支える特定の力学は謎のままである。本稿では,サーチLVLMと呼ばれる最新の知識に関する視覚的質問応答(VQA)を扱うために,既存のLVLMを増補するプラグイン・アンド・プレイフレームワークを提案する。階層的フィルタリングモデルは、検索エンジンが返却したWebサイトから最も有用なコンテンツを効果的かつ効率的に見つけるように訓練され、LVLMを最新の知識で促す。モデルをトレーニングし,我々のフレームワークの性能を評価するために,UDK-VQAと呼ばれるデータセットを構築するために,ニュース関連VQAサンプルを自動的に生成するパイプラインを提案する。トレーニングセットを構築するために、VQAサンプルのWebサイト/コンテンツの有用性をラベル付けするために、マルチモデル投票機構を導入する。実験の結果,GPT-4Vの精度が約25%向上した。

関連論文リスト

LinkedOut: Linking World Knowledge Representation Out of Video LLM for Next-Generation Video Recommendation [32.57236582010967]
ビデオ大言語モデル(VLLM)は、インターネット規模のデータの事前学習を通じて、世界認知ビデオ理解を解放する。本稿では,ビデオから直接VLLM世界の知識を抽出し,高速な推論を可能にするLinkedOutを提案する。我々は、リッチなVLLM機能から適切な抽象化レベルを選択し、パーソナライズ、解釈可能、低レイテンシのレコメンデーションを可能にする層間知識融合MoEを導入する。
論文参考訳（メタデータ） (2025-12-18T18:52:18Z)
VideoSSR: Video Self-Supervised Reinforcement Learning [62.25888935329454]
RLVR(Reinforcement Learning with Verifiable Rewards)は、MLLM(Multimodal Large Language Models)の映像理解能力を大幅に向上させた。ビデオ内のリッチで本質的な情報は、高品質で検証可能なトレーニングデータの自己生成に利用できますか?
論文参考訳（メタデータ） (2025-11-09T08:36:40Z)
Detecting Knowledge Boundary of Vision Large Language Models by Sampling-Based Inference [78.08901120841833]
視覚大言語モデル(VLLM)の知識境界を検出する手法を提案する。本稿では,VLLMの知識境界の表現に成功し,性能の維持や改善を図りながら不差別な検索を抑えることができることを示す。
論文参考訳（メタデータ） (2025-02-25T09:32:08Z)
LAVID: An Agentic LVLM Framework for Diffusion-Generated Video Detection [14.687867348598035]
大規模視覚言語モデル(LVLM)は、AI生成コンテンツ検出の新しいツールとなっている。本稿では,LVLMを用いた新たなai生成ビデオ検出システムであるLAVIDを提案する。提案するパイプラインは,検出のための明示的な知識ツールのセットを自動的に選択し,自己書換えによって構造を適応的に調整する。
論文参考訳（メタデータ） (2025-02-20T19:34:58Z)
SURf: Teaching Large Vision-Language Models to Selectively Utilize Retrieved Information [26.049228685973667]
LVLM(Large Vision-Language Models)は、コンピュータビジョンと自然言語処理の共通点において重要な存在である。現在、ほとんどのLVLMは検索された情報を選択的に活用するのに苦労しており、無関係または誤解を招く参照に敏感である。選択的検索情報(SURf)にLVLMを教えるための自己組織化フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-21T09:36:14Z)
Do Large Language Models Need a Content Delivery Network? [4.816440228214873]
我々は、LLMエンジンや他の計算および記憶資源間でKVキャッシュのストレージ、転送、構成を動的に最適化する知識配信ネットワーク(KDN)を構想する。我々は、KDNプロトタイプをhttps://github.com/LMCache/LMCacheでオープンソース化しました。
論文参考訳（メタデータ） (2024-09-16T18:46:24Z)
Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文参考訳（メタデータ） (2024-02-19T11:11:08Z)
Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction [36.40833517478628]
大規模な言語モデルでは、更新を最新状態に保つか、あるいは新しいドメインに適応する必要がある。 1つの鍵は、記憶された情報がクエリプロンプトで抽出可能な方法で最新の情報を記憶することである。微調整中に文書の難易度を最小化しているにもかかわらず、LLMはプロンプト文を通して情報を取り出すのに苦労している。
論文参考訳（メタデータ） (2024-02-16T06:29:16Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文参考訳（メタデータ） (2023-10-05T00:04:12Z)
LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文参考訳（メタデータ） (2023-06-15T16:39:24Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。