論文の概要: BLIP-Adapter: Parameter-Efficient Transfer Learning for Mobile
Screenshot Captioning
- arxiv url: http://arxiv.org/abs/2309.14774v1
- Date: Tue, 26 Sep 2023 09:16:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 14:23:52.911182
- Title: BLIP-Adapter: Parameter-Efficient Transfer Learning for Mobile
Screenshot Captioning
- Title(参考訳): BLIP-Adapter:モバイルスクリーンショットキャプションのためのパラメータ効率の良い転送学習
- Authors: Ching-Yu Chiang, I-Hua Chang, Shih-Wei Liao
- Abstract要約: 本研究では,モデル上の追加モジュールのみをチューニングするアダプタ手法の組み合わせを提案する。
画像キャプションモデルのパラメータを凍結し、メソッドに関連する重みのみをトレーニングすることにより、モデル全体の微調整に匹敵するパフォーマンスを実現することができる。
- 参考スコア(独自算出の注目度): 0.5893124686141781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study aims to explore efficient tuning methods for the screenshot
captioning task. Recently, image captioning has seen significant advancements,
but research in captioning tasks for mobile screens remains relatively scarce.
Current datasets and use cases describing user behaviors within product
screenshots are notably limited. Consequently, we sought to fine-tune
pre-existing models for the screenshot captioning task. However, fine-tuning
large pre-trained models can be resource-intensive, requiring considerable
time, computational power, and storage due to the vast number of parameters in
image captioning models. To tackle this challenge, this study proposes a
combination of adapter methods, which necessitates tuning only the additional
modules on the model. These methods are originally designed for vision or
language tasks, and our intention is to apply them to address similar
challenges in screenshot captioning. By freezing the parameters of the image
caption models and training only the weights associated with the methods,
performance comparable to fine-tuning the entire model can be achieved, while
significantly reducing the number of parameters. This study represents the
first comprehensive investigation into the effectiveness of combining adapters
within the context of the screenshot captioning task. Through our experiments
and analyses, this study aims to provide valuable insights into the application
of adapters in vision-language models and contribute to the development of
efficient tuning techniques for the screenshot captioning task. Our study is
available at https://github.com/RainYuGG/BLIP-Adapter
- Abstract(参考訳): 本研究の目的は、スクリーンショットキャプションタスクの効率的なチューニング方法を検討することである。
近年,画像キャプションの進歩は著しいが,モバイル画面のキャプションタスクに関する研究は比較的少ない。
現在のデータセットと製品スクリーンショット内のユーザの振る舞いを記述するユースケースは、特に限られている。
その結果,スクリーンショットキャプションタスクの既存モデルの微調整を試みた。
しかし、画像キャプションモデルのパラメータが多すぎるため、事前学習された大規模モデルの微調整はリソース集約的で、かなりの時間、計算能力、ストレージを必要とする。
この課題に取り組むために、本研究では、モデル上の追加モジュールのみのチューニングを必要とするアダプタメソッドの組み合わせを提案する。
これらの手法はもともと視覚や言語タスク用に設計されており、スクリーンショットキャプションでも同様の課題に対処することを目的としています。
画像キャプションモデルのパラメータを凍結し、メソッドに関連する重みのみをトレーニングすることにより、モデル全体の微調整に匹敵する性能を達成でき、パラメータの数を著しく削減できる。
本研究は,スクリーンショットキャプションタスクのコンテキスト内でアダプタを組み合わせることの有効性について,最初の包括的な調査である。
本研究は,視覚言語モデルにおけるアダプタの適用に関する貴重な知見を提供し,スクリーンショットキャプションタスクの効率的なチューニング手法の開発に寄与することを目的としている。
私たちの研究はhttps://github.com/RainYuGG/BLIP-Adapterで公開されています。
関連論文リスト
- ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。
ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。
これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文 参考訳(メタデータ) (2023-08-16T15:00:50Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Better Captioning with Sequence-Level Exploration [60.57850194028581]
課題の字幕化における現在のシーケンスレベルの学習目標の限界を示す。
理論的には、現在の目的はキャプションセットの精度側だけを最適化することである。
実証的な結果は、この目的によって訓練されたモデルは、リコール側で低いスコアを得る傾向があることを示している。
論文 参考訳(メタデータ) (2020-03-08T09:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。