論文の概要: Towards Adaptable and Interactive Image Captioning with Data
Augmentation and Episodic Memory
- arxiv url: http://arxiv.org/abs/2306.03500v1
- Date: Tue, 6 Jun 2023 08:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 16:33:26.507467
- Title: Towards Adaptable and Interactive Image Captioning with Data
Augmentation and Episodic Memory
- Title(参考訳): データ増補とエピソディクスメモリを用いた適応型対話型画像キャプション
- Authors: Aliki Anagnostopoulou and Mareike Hartmann and Daniel Sonntag
- Abstract要約: 本稿では,画像キャプションのためのIMLパイプラインを提案する。これにより,事前学習したモデルをユーザ入力に基づく新しいデータ分布に漸進的に適応させることができる。
データの増大は結果が悪化するが、たとえ比較的少量のデータが利用可能であったとしても、エピソードメモリは、これまで見られたクラスタからの知識を維持するための効果的な戦略である。
- 参考スコア(独自算出の注目度): 8.584932159968002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive machine learning (IML) is a beneficial learning paradigm in cases
of limited data availability, as human feedback is incrementally integrated
into the training process. In this paper, we present an IML pipeline for image
captioning which allows us to incrementally adapt a pre-trained image
captioning model to a new data distribution based on user input. In order to
incorporate user input into the model, we explore the use of a combination of
simple data augmentation methods to obtain larger data batches for each newly
annotated data instance and implement continual learning methods to prevent
catastrophic forgetting from repeated updates. For our experiments, we split a
domain-specific image captioning dataset, namely VizWiz, into non-overlapping
parts to simulate an incremental input flow for continually adapting the model
to new data. We find that, while data augmentation worsens results, even when
relatively small amounts of data are available, episodic memory is an effective
strategy to retain knowledge from previously seen clusters.
- Abstract(参考訳): インタラクティブ機械学習(iml)は、人間のフィードバックがトレーニングプロセスにインクリメンタルに統合されるため、データ可用性が制限された場合に有用な学習パラダイムである。
本稿では,予め学習した画像キャプションモデルを,ユーザの入力に基づいて新たなデータ分布に漸進的に適応させる,画像キャプションのためのimlパイプラインを提案する。
ユーザ入力をモデルに組み込むために,新たに付加されたデータインスタンス毎により大きなデータバッチを取得するための単純なデータ拡張手法の組み合わせを探索し,繰り返し更新から壊滅的な忘れることを防止するための連続学習手法を実装した。
実験では、ドメイン固有の画像キャプションデータセット、すなわちVizWizを非重複部分に分割し、インクリメンタルな入力フローをシミュレートし、モデルを新しいデータに継続的に適応させる。
比較的少ないデータ量でも、データ拡張は結果を悪化させるが、エピソディックメモリは、これまで見られたクラスタからの知識を保持する効果的な戦略である。
関連論文リスト
- Data-efficient Event Camera Pre-training via Disentangled Masked
Modeling [20.987277885575963]
イベントカメラのための新しいデータ教師付きボクセルベースの自己教師付き学習手法を提案する。
提案手法は,時間的情報を犠牲にしたり,ペア画像データを直接利用したりする従来の手法の限界を克服する。
優れた一般化性能を示し、パラメータが少なく、計算コストも低い様々なタスクで大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T10:02:25Z) - Imitation Learning Inputting Image Feature to Each Layer of Neural
Network [1.6574413179773757]
模倣学習は、トレーニングデータから人間の行動を学習し、再現することを可能にする。
機械学習の最近の進歩は、画像などの高次元観測データを直接処理するエンドツーエンドの学習アプローチを可能にする。
本稿では,データの影響を比較的低い相関で増幅する,この課題に対処する有用な手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T02:44:18Z) - Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt
Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。
MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。
本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2024-01-09T10:15:59Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - Data Augmentation for Meta-Learning [58.47185740820304]
メタ学習アルゴリズムは、各トレーニングステップでデータ、クエリデータ、タスクをサンプリングする。
データ拡張は、クラス毎に利用可能な画像の数を増やすだけでなく、全く新しいクラス/タスクを生成するためにも使用できる。
提案したメタ固有データ拡張は,数ショットの分類ベンチマークにおいて,メタラーナーの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-10-14T13:48:22Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。