論文の概要: Exploring Diverse In-Context Configurations for Image Captioning
- arxiv url: http://arxiv.org/abs/2305.14800v4
- Date: Fri, 27 Oct 2023 12:54:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 18:07:23.891254
- Title: Exploring Diverse In-Context Configurations for Image Captioning
- Title(参考訳): 画像キャプションのための様々なコンテキスト内構成の探索
- Authors: Xu Yang, Yongliang Wu, Mingzhuo Yang, Haokun Chen, Xin Geng
- Abstract要約: 本稿では,様々な構成がコンテキスト学習における視覚言語(VL)に与える影響について検討する。
画像選択のための4つの戦略と、キャプション代入のための4つの戦略を考案し、画像キャプションのためのインテキスト画像-テキストペアを設定した。
我々の総合的な実験は2つの反直感的だが価値ある洞察をもたらし、VLの文脈内学習の特徴を浮き彫りにした。
- 参考スコア(独自算出の注目度): 39.54017777410428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: After discovering that Language Models (LMs) can be good in-context few-shot
learners, numerous strategies have been proposed to optimize in-context
sequence configurations. Recently, researchers in Vision-Language (VL) domains
also develop their few-shot learners, while they only use the simplest way,
ie., randomly sampling, to configure in-context image-text pairs. In order to
explore the effects of varying configurations on VL in-context learning, we
devised four strategies for image selection and four for caption assignment to
configure in-context image-text pairs for image captioning. Here Image
Captioning is used as the case study since it can be seen as the
visually-conditioned LM. Our comprehensive experiments yield two
counter-intuitive but valuable insights, highlighting the distinct
characteristics of VL in-context learning due to multi-modal synergy, as
compared to the NLP case. Furthermore, in our exploration of optimal
combination strategies, we observed an average performance enhancement of 20.7
of CIDEr scores compared to the baseline. The code is given in
https://github.com/yongliang-wu/ExploreCfg.
- Abstract(参考訳): 言語モデル(LM)が文脈内数ショット学習者にとって良いことを発見した後、コンテキスト内シーケンス設定を最適化するための多くの戦略が提案されている。
近年、Vision-Language(VL)ドメインの研究者たちは、最も単純な方法であるieしか使用せずに、数発の学習者も開発している。
テキスト内のイメージとテキストのペアを設定する。
様々な構成がVLインコンテキスト学習に与える影響を検討するために,画像選択のための4つの戦略と,画像キャプションのためのインコンテキスト画像-テキストペアを構成するキャプション代入のための4つの戦略を考案した。
ここでは、視覚条件のLMとして見ることができるため、ケーススタディとして画像キャプションが使用される。
我々の総合的な実験は2つの反直感的だが有意義な洞察を与え、マルチモーダル・シナジーによるVLインコンテキスト学習の特徴をNLPの場合と比較した。
さらに, 最適組み合わせ戦略の探索において, ベースラインと比較して20.7のciderスコアを平均的に向上させた。
コードはhttps://github.com/yongliang-wu/explorecfgで与えられる。
関連論文リスト
- How to Configure Good In-Context Sequence for Visual Question Answering [19.84012680826303]
本研究では,VQA(Visual Question Answering)をケーススタディとして,多様なコンテキスト内構成を探索する。
具体的には、コンテキスト内構成を探索するために、多様な検索手法を設計し、検索したデモを操作するために異なる戦略を採用する。
適用されたLVLMの3つの重要な内部特性を明らかにし、どの戦略がICL VQA性能を継続的に改善できるかを示す。
論文 参考訳(メタデータ) (2023-12-04T02:03:23Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - VL-LTR: Learning Class-wise Visual-Linguistic Representation for
Long-Tailed Visual Recognition [61.75391989107558]
本稿では,VL-LTRと呼ばれる視覚言語的長尾認識フレームワークを提案する。
本手法は,画像から視覚表現とそれに対応する言語表現を,雑音のあるクラスレベルのテキスト記述から学習することができる。
特に,ImageNet-LTでは77.2%の精度を達成し,従来のベストメソッドよりも17ポイント以上優れていた。
論文 参考訳(メタデータ) (2021-11-26T16:24:03Z) - Dual Graph Convolutional Networks with Transformer and Curriculum
Learning for Image Captioning [26.496357517937614]
既存の画像キャプション手法は、単一のイメージ内のオブジェクトやインスタンスの関係を理解することだけに焦点を当てている。
画像キャプションのための変換器とカリキュラム学習を備えたデュアルグラフ畳み込みネットワーク(Dual-GCN)を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:57:06Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。