論文の概要: EVCap: Retrieval-Augmented Image Captioning with External Visual-Name
Memory for Open-World Comprehension
- arxiv url: http://arxiv.org/abs/2311.15879v1
- Date: Mon, 27 Nov 2023 14:51:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 14:54:20.002479
- Title: EVCap: Retrieval-Augmented Image Captioning with External Visual-Name
Memory for Open-World Comprehension
- Title(参考訳): EVCap: オープンワールド理解のための外部ビジュアルネームメモリを備えた検索拡張イメージキャプション
- Authors: Jiaxuan Li, Duc Minh Vo, Akihiro Sugimoto, Hideki Nakayama
- Abstract要約: 大言語モデル(LLM)に基づく画像キャプションは、トレーニングデータで明示的に観察されていないオブジェクトを記述する能力を持つ。
外部視覚名メモリ(EVCap)から取得したオブジェクト名でLLMを誘導する高効率な画像キャプション手法を提案する。
我々のモデルはCOCOデータセットでのみトレーニングされており、追加の微調整や再トレーニングをすることなく、ドメイン外のデータに適応することができる。
- 参考スコア(独自算出の注目度): 26.58462034394907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs)-based image captioning has the capability of
describing objects not explicitly observed in training data; yet novel objects
occur frequently, necessitating the requirement of sustaining up-to-date object
knowledge for open-world comprehension. Instead of relying on large amounts of
data and scaling up network parameters, we introduce a highly effective
retrieval-augmented image captioning method that prompts LLMs with object names
retrieved from External Visual--name memory (EVCap). We build ever-changing
object knowledge memory using objects' visuals and names, enabling us to (i)
update the memory at a minimal cost and (ii) effortlessly augment LLMs with
retrieved object names utilizing a lightweight and fast-to-train model. Our
model, which was trained only on the COCO dataset, can be adapted to out-domain
data without additional fine-tuning or retraining. Our comprehensive
experiments conducted on various benchmarks and synthetic commonsense-violating
data demonstrate that EVCap, comprising solely 3.97M trainable parameters,
exhibits superior performance compared to other methods of equivalent model
size scale. Notably, it achieves competitive performance against specialist
SOTAs with an enormous number of parameters. Our code is available at
https://jiaxuan-li.github.io/EVCap.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく画像キャプションは、トレーニングデータで明示的に観察されていないオブジェクトを記述する能力を持つが、新しいオブジェクトは頻繁に発生し、オープンワールドの理解のために最新のオブジェクト知識を維持する必要がある。
大量のデータに頼らず、ネットワークパラメータをスケールアップする代わりに、外部視覚名メモリ(EVCap)から取得したオブジェクト名でLLMを高速に検索する画像キャプション手法を導入する。
オブジェクトのビジュアルと名前を使って、絶えず変化するオブジェクト知識メモリを構築します。
(i)最小限のコストでメモリを更新し、
(II)軽量かつ高速な列車モデルを用いたオブジェクト名検索によるLCMの強化。
我々のモデルはCOCOデータセットでのみトレーニングされており、追加の微調整や再トレーニングをすることなく、ドメイン外のデータに適応することができる。
各種ベンチマークおよび合成コモンセンス違反データを用いて実施した総合実験により,3.97Mのトレーニング可能なパラメータのみからなるEVCapは,同等のモデルサイズスケールの他の手法に比べて優れた性能を示した。
特に、非常に多くのパラメータを持つ専門のSOTAに対して、競争性能を達成する。
私たちのコードはhttps://jiaxuan-li.github.io/EVCapで公開されています。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Generative Cross-Modal Retrieval: Memorizing Images in Multimodal
Language Models for Retrieval and Beyond [99.73306923465424]
画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを提案する。
MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-16T16:31:46Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - Open-Vocabulary Object Detection using Pseudo Caption Labels [3.260777306556596]
よりきめ細かいラベルは、新しいオブジェクトに関するより豊かな知識を引き出すために必要である、と我々は主張する。
分離されたVisualGenomeデータセットでトレーニングされた最良のモデルは、APが34.5、APrが30.6で、最先端のパフォーマンスに匹敵する。
論文 参考訳(メタデータ) (2023-03-23T05:10:22Z) - Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot
Image Captioning [153.98100182439165]
本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。
外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。
Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2023-02-09T18:57:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。