論文の概要: EVCap: Retrieval-Augmented Image Captioning with External Visual-Name
Memory for Open-World Comprehension
- arxiv url: http://arxiv.org/abs/2311.15879v1
- Date: Mon, 27 Nov 2023 14:51:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 14:54:20.002479
- Title: EVCap: Retrieval-Augmented Image Captioning with External Visual-Name
Memory for Open-World Comprehension
- Title(参考訳): EVCap: オープンワールド理解のための外部ビジュアルネームメモリを備えた検索拡張イメージキャプション
- Authors: Jiaxuan Li, Duc Minh Vo, Akihiro Sugimoto, Hideki Nakayama
- Abstract要約: 大言語モデル(LLM)に基づく画像キャプションは、トレーニングデータで明示的に観察されていないオブジェクトを記述する能力を持つ。
外部視覚名メモリ(EVCap)から取得したオブジェクト名でLLMを誘導する高効率な画像キャプション手法を提案する。
我々のモデルはCOCOデータセットでのみトレーニングされており、追加の微調整や再トレーニングをすることなく、ドメイン外のデータに適応することができる。
- 参考スコア(独自算出の注目度): 26.58462034394907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs)-based image captioning has the capability of
describing objects not explicitly observed in training data; yet novel objects
occur frequently, necessitating the requirement of sustaining up-to-date object
knowledge for open-world comprehension. Instead of relying on large amounts of
data and scaling up network parameters, we introduce a highly effective
retrieval-augmented image captioning method that prompts LLMs with object names
retrieved from External Visual--name memory (EVCap). We build ever-changing
object knowledge memory using objects' visuals and names, enabling us to (i)
update the memory at a minimal cost and (ii) effortlessly augment LLMs with
retrieved object names utilizing a lightweight and fast-to-train model. Our
model, which was trained only on the COCO dataset, can be adapted to out-domain
data without additional fine-tuning or retraining. Our comprehensive
experiments conducted on various benchmarks and synthetic commonsense-violating
data demonstrate that EVCap, comprising solely 3.97M trainable parameters,
exhibits superior performance compared to other methods of equivalent model
size scale. Notably, it achieves competitive performance against specialist
SOTAs with an enormous number of parameters. Our code is available at
https://jiaxuan-li.github.io/EVCap.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく画像キャプションは、トレーニングデータで明示的に観察されていないオブジェクトを記述する能力を持つが、新しいオブジェクトは頻繁に発生し、オープンワールドの理解のために最新のオブジェクト知識を維持する必要がある。
大量のデータに頼らず、ネットワークパラメータをスケールアップする代わりに、外部視覚名メモリ(EVCap)から取得したオブジェクト名でLLMを高速に検索する画像キャプション手法を導入する。
オブジェクトのビジュアルと名前を使って、絶えず変化するオブジェクト知識メモリを構築します。
(i)最小限のコストでメモリを更新し、
(II)軽量かつ高速な列車モデルを用いたオブジェクト名検索によるLCMの強化。
我々のモデルはCOCOデータセットでのみトレーニングされており、追加の微調整や再トレーニングをすることなく、ドメイン外のデータに適応することができる。
各種ベンチマークおよび合成コモンセンス違反データを用いて実施した総合実験により,3.97Mのトレーニング可能なパラメータのみからなるEVCapは,同等のモデルサイズスケールの他の手法に比べて優れた性能を示した。
特に、非常に多くのパラメータを持つ専門のSOTAに対して、競争性能を達成する。
私たちのコードはhttps://jiaxuan-li.github.io/EVCapで公開されています。
関連論文リスト
- Open-Vocabulary Camouflaged Object Segmentation [71.82644727907146]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入し,大規模複合シーンデータセット(textbfOVCamo)を構築した。
パラメータ固定CLIPに付加された強力な単一段開語彙下線下線下線下線下線下線下線下線下線を構築。
クラス意味知識の指導とエッジと奥行きからの視覚構造的手がかりの補足を統合する
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - In-context Autoencoder for Context Compression in a Large Language Model [74.9807417009054]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - Learning to Name Classes for Vision and Language Models [57.0059455405424]
大規模な視覚と言語モデルは、クラス固有のテキストクエリを画像コンテンツにマッピングすることで、印象的なゼロショット認識性能を達成することができる。
視覚的コンテンツの機能として,各クラスに対して最適な単語埋め込みを学習するために,利用可能なデータを活用することを提案する。
凍結したモデルに新しい単語の埋め込みを学習することで、新しいクラスに対してゼロショットの能力を保ち、新しいデータセットにモデルを適応しやすくし、潜在的に誤った、非記述的、曖昧なクラス名を調整することができる。
論文 参考訳(メタデータ) (2023-04-04T14:34:44Z) - Open-Vocabulary Object Detection using Pseudo Caption Labels [3.260777306556596]
よりきめ細かいラベルは、新しいオブジェクトに関するより豊かな知識を引き出すために必要である、と我々は主張する。
分離されたVisualGenomeデータセットでトレーニングされた最良のモデルは、APが34.5、APrが30.6で、最先端のパフォーマンスに匹敵する。
論文 参考訳(メタデータ) (2023-03-23T05:10:22Z) - Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot
Image Captioning [153.98100182439165]
本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。
外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。
Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2023-02-09T18:57:56Z) - Meta-Learning with Variational Semantic Memory for Word Sense
Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。
我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。
極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文 参考訳(メタデータ) (2021-06-05T20:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。