論文の概要: I-Tuning: Tuning Language Models with Image for Caption Generation
- arxiv url: http://arxiv.org/abs/2202.06574v1
- Date: Mon, 14 Feb 2022 09:36:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 14:13:03.684614
- Title: I-Tuning: Tuning Language Models with Image for Caption Generation
- Title(参考訳): I-Tuning: キャプション生成のためのイメージ付き言語モデルチューニング
- Authors: Ziyang Luo, Yadong Xi, Rongsheng Zhang, Jing Ma
- Abstract要約: 本研究では,凍結したPLMをキャプション生成のための画像で調整する新たな視点を提案する。
我々は,この手法をI-Tuningと表現し,画像から視覚情報を自動フィルタリングし,PLMの出力隠れ状態を調整する。
- 参考スコア(独自算出の注目度): 9.511101155155957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, tuning the pre-trained language model (PLM) in a
parameter-efficient manner becomes a popular topic in the natural language
processing area. However, most of them focus on tuning the PLM with the
text-only information. In this work, we propose a new perspective to tune the
frozen PLM with images for caption generation. We denote our method as
I-Tuning, which can automatically filter the vision information from images to
adjust the output hidden states of PLM. Evaluating on the image captioning
tasks (MSCOCO and Flickr30k Captioning), our method achieves comparable or even
better performance than the previous models which have 2-4 times more trainable
parameters and/or consume a large amount of cross-modal pre-training data.
- Abstract(参考訳): 近年,自然言語処理分野では,事前学習型言語モデル(plm)をパラメータ効率良くチューニングすることが話題となっている。
しかし、そのほとんどはテキストのみの情報でPLMをチューニングすることに集中している。
本研究では,凍ったplmをキャプション生成のための画像にチューニングする新しい視点を提案する。
我々は,PLMの出力隠れ状態を調整するために,画像から視覚情報を自動フィルタリングするI-Tuningと表現する。
画像キャプションタスク (MSCOCO, Flickr30k Captioning) を評価した結果, 従来の2~4倍のトレーニング可能なパラメータを持ち, あるいは多量のクロスモーダル事前学習データを消費するモデルに比べて, 同等あるいはそれ以上の性能が得られた。
関連論文リスト
- User-Aware Prefix-Tuning is a Good Learner for Personalized Image
Captioning [35.211749514733846]
従来の画像キャプション方式は、ユーザの好みや特徴を無視することが多い。
既存のほとんどの手法は、メモリネットワークやトランスフォーマーによるユーザコンテキストの融合プロセスを強調している。
本稿では,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-08T02:08:00Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。
我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-12T04:03:41Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Towards Robust Low-Resource Fine-Tuning with Multi-View Compressed
Representations [51.75960511842552]
事前訓練された言語モデル(PLM)の微調整は、低リソースのシナリオで過度に適合する傾向がある。
オーバーフィッティングを減らすために,PLMの隠れ表現を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T09:39:29Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Data Efficient Masked Language Modeling for Vision and Language [16.95631509102115]
Masked Language Modeling (MLM) は視覚言語訓練における重要なサブタスクの1つである。
クロスモーダル設定では、文中のトークンはランダムにマスキングされ、モデルは画像とテキストが与えられたマスキングトークンを予測する。
これらの欠点に対処するクロスモーダル設定に特有な代替マスキング戦略について検討する。
論文 参考訳(メタデータ) (2021-09-05T11:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。