論文の概要: Exploring Diverse In-Context Configurations for Image Captioning
- arxiv url: http://arxiv.org/abs/2305.14800v5
- Date: Tue, 31 Oct 2023 07:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 10:09:14.309091
- Title: Exploring Diverse In-Context Configurations for Image Captioning
- Title(参考訳): 画像キャプションのための様々なコンテキスト内構成の探索
- Authors: Xu Yang, Yongliang Wu, Mingzhuo Yang, Haokun Chen, Xin Geng
- Abstract要約: 本稿では,様々な構成がコンテキスト学習における視覚言語(VL)に与える影響について検討する。
画像選択のための4つの戦略と、キャプション代入のための4つの戦略を考案し、画像キャプションのためのインテキスト画像-テキストペアを設定した。
我々の総合的な実験は2つの反直感的だが価値ある洞察をもたらし、VLの文脈内学習の特徴を浮き彫りにした。
- 参考スコア(独自算出の注目度): 39.54017777410428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: After discovering that Language Models (LMs) can be good in-context few-shot
learners, numerous strategies have been proposed to optimize in-context
sequence configurations. Recently, researchers in Vision-Language (VL) domains
also develop their few-shot learners, while they only use the simplest way,
ie., randomly sampling, to configure in-context image-text pairs. In order to
explore the effects of varying configurations on VL in-context learning, we
devised four strategies for image selection and four for caption assignment to
configure in-context image-text pairs for image captioning. Here Image
Captioning is used as the case study since it can be seen as the
visually-conditioned LM. Our comprehensive experiments yield two
counter-intuitive but valuable insights, highlighting the distinct
characteristics of VL in-context learning due to multi-modal synergy, as
compared to the NLP case. Furthermore, in our exploration of optimal
combination strategies, we observed an average performance enhancement of 20.9
of CIDEr scores compared to the baseline. The code is given in
https://github.com/yongliang-wu/ExploreCfg.
- Abstract(参考訳): 言語モデル(LM)が文脈内数ショット学習者にとって良いことを発見した後、コンテキスト内シーケンス設定を最適化するための多くの戦略が提案されている。
近年、Vision-Language(VL)ドメインの研究者たちは、最も単純な方法であるieしか使用せずに、数発の学習者も開発している。
テキスト内のイメージとテキストのペアを設定する。
様々な構成がVLインコンテキスト学習に与える影響を検討するために,画像選択のための4つの戦略と,画像キャプションのためのインコンテキスト画像-テキストペアを構成するキャプション代入のための4つの戦略を考案した。
ここでは、視覚条件のLMとして見ることができるため、ケーススタディとして画像キャプションが使用される。
我々の総合的な実験は2つの反直感的だが有意義な洞察を与え、マルチモーダル・シナジーによるVLインコンテキスト学習の特徴をNLPの場合と比較した。
さらに,最適組み合わせ戦略の探索では,ベースラインと比較してCIDErスコアの平均20.9の性能向上が観察された。
コードはhttps://github.com/yongliang-wu/explorecfgで与えられる。
関連論文リスト
- Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - Selective Vision-Language Subspace Projection for Few-shot CLIP [55.361337202198925]
SSP (Selective Vision-Language Subspace Projection) という手法を導入する。
SSPはローカルな画像特徴を取り入れ、それらをブリッジとして利用し、画像とテキストのペア間のアライメントを強化する。
提案手法では,学習不要な行列計算しか必要とせず,高度なCLIPベースの数ショット学習フレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-07-24T03:45:35Z) - ContextBLIP: Doubly Contextual Alignment for Contrastive Image Retrieval from Linguistically Complex Descriptions [17.934227561793474]
文脈記述(IRCD)からの画像検索は、言語学的に複雑なテキストに基づいて、最小限に対照的な候補のセット内で画像を特定することを目的としている。
本稿では,IRCDに挑戦する2つのコンテキストアライメント手法であるContextBLIPを提案する。
約7,500倍のパラメータを含むにもかかわらず、ContextBLIPはGPT-4Vと同等の結果が得られることが観察された。
論文 参考訳(メタデータ) (2024-05-29T16:06:21Z) - How to Configure Good In-Context Sequence for Visual Question Answering [19.84012680826303]
本研究では,VQA(Visual Question Answering)をケーススタディとして,多様なコンテキスト内構成を探索する。
具体的には、コンテキスト内構成を探索するために、多様な検索手法を設計し、検索したデモを操作するために異なる戦略を採用する。
適用されたLVLMの3つの重要な内部特性を明らかにし、どの戦略がICL VQA性能を継続的に改善できるかを示す。
論文 参考訳(メタデータ) (2023-12-04T02:03:23Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - VL-LTR: Learning Class-wise Visual-Linguistic Representation for
Long-Tailed Visual Recognition [61.75391989107558]
本稿では,VL-LTRと呼ばれる視覚言語的長尾認識フレームワークを提案する。
本手法は,画像から視覚表現とそれに対応する言語表現を,雑音のあるクラスレベルのテキスト記述から学習することができる。
特に,ImageNet-LTでは77.2%の精度を達成し,従来のベストメソッドよりも17ポイント以上優れていた。
論文 参考訳(メタデータ) (2021-11-26T16:24:03Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。