論文の概要: CAPEEN: Image Captioning with Early Exits and Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2410.04433v1
- Date: Sun, 6 Oct 2024 10:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 07:51:01.023652
- Title: CAPEEN: Image Captioning with Early Exits and Knowledge Distillation
- Title(参考訳): CAPEEN:早期退院と知識蒸留による画像キャプション
- Authors: Divya Jyoti Bajpai, Manjesh Kumar Hanawal,
- Abstract要約: ディープニューラルネットワーク(DNN)は、視覚要素を認識し、画像キャプションタスクで記述的なテキストを生成することで大きな進歩を遂げている。
EE戦略は効率を高めるために使用できるが、その適応は正確な予測のために様々なレベルの意味情報を必要とするため、画像キャプションにおける課題を示す。
我々は,知識蒸留を用いたEE戦略の性能向上のためにCAPEENを導入した。
- 参考スコア(独自算出の注目度): 5.402030962296633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks (DNNs) have made significant progress in recognizing visual elements and generating descriptive text in image-captioning tasks. However, their improved performance comes from increased computational burden and inference latency. Early Exit (EE) strategies can be used to enhance their efficiency, but their adaptation presents challenges in image captioning as it requires varying levels of semantic information for accurate predictions. To overcome this, we introduce CAPEEN to improve the performance of EE strategies using knowledge distillation. Inference in CAPEEN is completed at intermediary layers if prediction confidence exceeds a predefined value learned from the training data. To account for real-world deployments, where target distributions could drift from that of training samples, we introduce a variant A-CAPEEN to adapt the thresholds on the fly using Multiarmed bandits framework. Experiments on the MS COCO and Flickr30k datasets show that CAPEEN gains speedup of 1.77x while maintaining competitive performance compared to the final layer, and A-CAPEEN additionally offers robustness against distortions. The source code is available at https://github.com/Div290/CapEEN
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、視覚要素を認識し、画像キャプションタスクで記述的なテキストを生成することで大きな進歩を遂げている。
しかし、その性能改善は計算負荷の増加と推論遅延によるものである。
Early Exit(EE)戦略は効率を高めるために使用できるが、その適応は正確な予測のために様々なレベルの意味情報を必要とするため、画像キャプションにおける課題を示す。
そこで我々は,知識蒸留を用いたEE戦略の性能向上のためにCAPEENを導入する。
予測信頼度がトレーニングデータから得られた予め定義された値を超えると、CAPEENの推論は中間層で完了する。
トレーニングサンプルから目標分布をドリフトできる実世界の展開を考慮し,Multiarmed banditsフレームワークを用いて,フライ時のしきい値に適応する改良型A-CAPEENを提案する。
MS COCOとFlickr30kデータセットの実験では、CAPEENは最終層と比較して競争性能を維持しながら1.77倍のスピードアップを示し、A-CAPEENは歪みに対して堅牢性を提供する。
ソースコードはhttps://github.com/Div290/CapEENで入手できる。
関連論文リスト
- Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt
Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。
MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。
本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2024-01-09T10:15:59Z) - Value Explicit Pretraining for Learning Transferable Representations [11.069853883599102]
本稿では,伝達強化学習のための一般化可能な表現を学習する手法を提案する。
我々は、目的条件付き表現のためのエンコーダを学習することで、前回学習したタスクと同様の目的を共有する新しいタスクを学ぶ。
現実的なナビゲーションシミュレータとAtariベンチマークを用いて実験したところ,本手法により生成された事前学習エンコーダは,現在のSoTA事前学習法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:12:35Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Simple Token-Level Confidence Improves Caption Correctness [117.33497608933169]
Token-Level Confidence(TLC)は、字幕の正確さを評価するシンプルな方法であるが、驚くほど効果的である。
画像キャプションに関する視覚言語モデルを微調整し、画像と提案されたキャプションをモデルに入力し、単語やシーケンスに対するトークンの信頼度を集計し、画像キャプションの一貫性を推定する。
論文 参考訳(メタデータ) (2023-05-11T17:58:17Z) - Understanding and Mitigating Overfitting in Prompt Tuning for
Vision-Language Models [108.13378788663196]
本稿では, トレーニング過程全体において, 低ランク部分空間にバックプロパゲーションの勾配を投影するSubspace Prompt Tuning(SubPT)を提案する。
我々はCoOpにノベル・ラーナー・フィーチャー(NFL)を装備し、学習したプロンプトをトレーニングセット以外の新しいカテゴリに一般化する能力を高める。
論文 参考訳(メタデータ) (2022-11-04T02:06:22Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Consensual Collaborative Training And Knowledge Distillation Based
Facial Expression Recognition Under Noisy Annotations [2.538209532048867]
本研究は,CCT(Consensual Collaborative Training)フレームワークと呼ばれる,ノイズラベルの存在下での効果的なトレーニング戦略を提案する。
CCTは3つのネットワークを共同で管理損失と一貫性損失の凸の組み合わせで訓練する。
FERDB (90.84%)、FERPlus (89.99%)、AffectNet (66%)のベンチマークで最先端のパフォーマンスが報告されている。
論文 参考訳(メタデータ) (2021-07-10T03:37:06Z) - Affect Expression Behaviour Analysis in the Wild using Consensual
Collaborative Training [2.538209532048867]
本報告では,ABAW(Affective Behaviour Analysis in-the-wild)2021コンペティションに使用したConsensual Collaborative Training(CCT)フレームワークについて述べる。
CCTは3つのネットワークを共同で管理損失と一貫性損失の凸の組み合わせで訓練する。
協調トレーニングは全体的なエラーを低減し、一貫性の低下はノイズの多いサンプルへの過度な適合を防ぐ。
論文 参考訳(メタデータ) (2021-07-08T04:28:21Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。