論文の概要: A Chain-of-Thought Subspace Meta-Learning for Few-shot Image Captioning with Large Vision and Language Models
- arxiv url: http://arxiv.org/abs/2502.13942v1
- Date: Wed, 19 Feb 2025 18:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:59:43.679560
- Title: A Chain-of-Thought Subspace Meta-Learning for Few-shot Image Captioning with Large Vision and Language Models
- Title(参考訳): 大規模視覚と言語モデルを用いた画像キャプションのための階層型サブスペースメタラーニング
- Authors: Hao Huang, Shuaihang Yuan, Yu Hao, Congcong Wen, Yi Fang,
- Abstract要約: 大規模データに事前訓練された大規模ビジョンと言語モデルは、視覚的および言語的先行性を符号化する。
画像記述の仕方を改善するための多段階画像キャプション手法として,チェーン・オブ・シント(CoT)メタラーニング手法を提案する。
- 参考スコア(独自算出の注目度): 17.144311122664508
- License:
- Abstract: A large-scale vision and language model that has been pretrained on massive data encodes visual and linguistic prior, which makes it easier to generate images and language that are more natural and realistic. Despite this, there is still a significant domain gap between the modalities of vision and language, especially when training data is scarce in few-shot settings, where only very limited data are available for training. In order to mitigate this issue, a multi-modal meta-learning framework has been proposed to bridge the gap between two frozen pretrained large vision and language models by introducing a tunable prompt connecting these two large models. For few-shot image captioning, the existing multi-model meta-learning framework utilizes a one-step prompting scheme to accumulate the visual features of input images to guide the language model, which struggles to generate accurate image descriptions with only a few training samples. Instead, we propose a chain-of-thought (CoT) meta-learning scheme as a multi-step image captioning procedure to better imitate how humans describe images. In addition, we further propose to learn different meta-parameters of the model corresponding to each CoT step in distinct subspaces to avoid interference. We evaluated our method on three commonly used image captioning datasets, i.e., MSCOCO, Flickr8k, and Flickr30k, under few-shot settings. The results of our experiments indicate that our chain-of-thought subspace meta-learning strategy is superior to the baselines in terms of performance across different datasets measured by different metrics.
- Abstract(参考訳): 大規模データに事前訓練された大規模ビジョンと言語モデルは、視覚的および言語的先行情報を符号化しているため、より自然でリアルな画像や言語を簡単に生成することができる。
にもかかわらず、ビジョンと言語のモダリティの間には依然として大きな領域ギャップがある。特にトレーニングデータが少ない場合、トレーニング用に利用できるのは極めて限られたデータのみである。
この問題を緩和するために、この2つの大きなモデルを接続する調整可能なプロンプトを導入することにより、凍結した2つの大きな視覚と言語モデルのギャップを埋めるマルチモーダルなメタラーニングフレームワークが提案されている。
既存のマルチモデルメタラーニングフレームワークでは、入力画像の視覚的特徴を蓄積して言語モデルをガイドするワンステップのプロンプトスキームを用いて、トレーニングサンプル数枚だけで正確な画像記述を生成するのに苦労している。
そこで我々は,人間による画像記述の仕方を改善するための多段階画像キャプション手法として,チェーン・オブ・シント(CoT)メタラーニング手法を提案する。
さらに、干渉を避けるために、各CoTステップに対応するモデルの異なるメタパラメータを異なる部分空間で学習することを提案する。
本手法は,MSCOCO,Flickr8k,Flickr30kの3つの画像キャプションデータセットを用いて,数ショット設定で評価した。
実験の結果,我々の鎖型サブスペースメタ学習戦略は,異なるメトリクスによって測定された異なるデータセットのパフォーマンスにおいて,ベースラインよりも優れていることが示唆された。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Meta Learning to Bridge Vision and Language Models for Multimodal
Few-Shot Learning [38.37682598345653]
視覚モデルと言語モデルとのギャップを埋めるために,マルチモーダルなメタ学習手法を導入する。
我々は,凍結した大規模視覚と言語モデルを効率的にブリッジするためにメタラーナーとして機能するメタマッパーネットワークを定義する。
我々は,最近提案されたマルチモーダル・スショット・ベンチマークに対するアプローチを評価し,新しい視覚概念を単語に結合する速度を計測した。
論文 参考訳(メタデータ) (2023-02-28T17:46:18Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - CaMEL: Mean Teacher Learning for Image Captioning [47.9708610052655]
画像キャプションのためのトランスフォーマーベースの新しいアーキテクチャであるCaMELを提案する。
提案手法は,訓練期間中に相互に学習する2つの相互接続型言語モデルの相互作用を利用する。
実験により,COCOデータセットと異なる視覚的特徴抽出器との併用により,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-02-21T19:04:46Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。