論文の概要: SURf: Teaching Large Vision-Language Models to Selectively Utilize Retrieved Information
- arxiv url: http://arxiv.org/abs/2409.14083v1
- Date: Sat, 21 Sep 2024 09:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 03:44:25.331534
- Title: SURf: Teaching Large Vision-Language Models to Selectively Utilize Retrieved Information
- Title(参考訳): SURf: 検索情報を選択的に活用する大規模視覚言語モデル
- Authors: Jiashuo Sun, Jihai Zhang, Yucheng Zhou, Zhaochen Su, Xiaoye Qu, Yu Cheng,
- Abstract要約: LVLM(Large Vision-Language Models)は、コンピュータビジョンと自然言語処理の共通点において重要な存在である。
現在、ほとんどのLVLMは検索された情報を選択的に活用するのに苦労しており、無関係または誤解を招く参照に敏感である。
選択的検索情報(SURf)にLVLMを教えるための自己組織化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 26.049228685973667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have become pivotal at the intersection of computer vision and natural language processing. However, the full potential of LVLMs Retrieval-Augmented Generation (RAG) capabilities remains underutilized. Existing works either focus solely on the text modality or are limited to specific tasks. Moreover, most LVLMs struggle to selectively utilize retrieved information and are sensitive to irrelevant or misleading references. To address these challenges, we propose a self-refinement framework designed to teach LVLMs to Selectively Utilize Retrieved Information (SURf). Specifically, when given questions that are incorrectly answered by the LVLM backbone, we obtain references that help correct the answers (positive references) and those that do not (negative references). We then fine-tune the LVLM backbone using a combination of these positive and negative references. Our experiments across three tasks and seven datasets demonstrate that our framework significantly enhances LVLMs ability to effectively utilize retrieved multimodal references and improves their robustness against irrelevant or misleading information. The source code is available at https://github.com/GasolSun36/SURf.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、コンピュータビジョンと自然言語処理の共通点において重要な存在である。
しかし、LVLMのRetrieval-Augmented Generation(RAG)能力の潜在能力は未利用のままである。
既存の作品は、テキストのモダリティのみに焦点を当てるか、特定のタスクに限定されている。
さらに、ほとんどのLVLMは、検索した情報を選択的に活用するのに苦労し、無関係または誤解を招く参照に敏感である。
これらの課題に対処するため、我々はLVLMに検索情報(SURf)を選択的に活用するための自己補充フレームワークを提案する。
特に、LVLMのバックボーンによって誤って答えられた質問が与えられた場合、回答(正の参照)と正の参照(負の参照)を補正する参照を得る。
次に、これらの正と負の基準の組み合わせを用いて、LVLMバックボーンを微調整する。
3つのタスクと7つのデータセットにまたがる実験により、我々のフレームワークは、検索したマルチモーダル参照を効果的に活用するLVLMの能力を大幅に向上し、無関係または誤解を招く情報に対するロバスト性を向上することを示した。
ソースコードはhttps://github.com/GasolSun36/SURf.comで入手できる。
関連論文リスト
- Augmenting Multimodal LLMs with Self-Reflective Tokens for Knowledge-based Visual Question Answering [44.008094698200026]
本稿では,外部知識ソースを統合することでMLLMの適応性を高める新しい手法を提案する。
提案するモデルであるReflectiVA(ReflectiVA)では,反射トークンを用いて外部知識の必要性を動的に判定する。
これにより、MLLMは外部知識が不要なタスクにおいて、レイテンシとパフォーマンスを保ちながら、外部知識を管理することができる。
論文 参考訳(メタデータ) (2024-11-25T19:01:03Z) - Making Large Vision Language Models to be Good Few-shot Learners [11.204701216476815]
FSC(Few-shot Classification)は、コンピュータビジョンにおける基本的な課題である。
LVLMは、サポートデータから有用な情報を効果的に抽出するのではなく、特定の応答形式を学習するリスクを負う。
本稿では,FSCにおけるLVLMの性能について検討し,学習不足や重度の位置バイアスの有無などの重要な問題を明らかにする。
論文 参考訳(メタデータ) (2024-08-21T03:01:11Z) - SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge [56.772051051558215]
大規模視覚言語モデル(LVLM)は、LLaVAシリーズのような最新の知識を知らない。
本稿では,サーチLVLMと呼ばれる最新の知識に関する視覚的質問応答(VQA)を扱うために,既存のLVLMを増補するプラグイン・アンド・プレイフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T13:32:07Z) - When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively [3.705145020383824]
本稿では,Large Language Models (LLMs) が,与えられた質問に答えるために追加のコンテキストを必要とする場合に,既製の情報検索(IR)システムを使用する方法を示す。
論文 参考訳(メタデータ) (2024-04-30T16:52:55Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Enhancing In-Context Learning with Answer Feedback for Multi-Span
Question Answering [9.158919909909146]
本稿では,LLMが望ましくない出力を通知するなど,ラベル付きデータを活用する新しい手法を提案する。
3つのマルチスパン質問応答データセットとキーフレーズ抽出データセットの実験により、我々の新しいプロンプト戦略はLLMの文脈内学習性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2023-06-07T15:20:24Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。