論文の概要: ACORT: A Compact Object Relation Transformer for Parameter Efficient
Image Captioning
- arxiv url: http://arxiv.org/abs/2202.05451v1
- Date: Fri, 11 Feb 2022 05:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 13:59:45.193308
- Title: ACORT: A Compact Object Relation Transformer for Parameter Efficient
Image Captioning
- Title(参考訳): ACORT:パラメータ効率的な画像キャプションのためのコンパクトオブジェクト関係変換器
- Authors: Jia Huei Tan, Ying Hua Tan, Chee Seng Chan, Joon Huang Chuah
- Abstract要約: 画像キャプションモデル削減のための3つの方法を提案する。
提案したACORTモデルはベースラインモデルよりも3.7倍から21.6倍少ないパラメータを持つ。
その結果、ACORTモデルはベースラインやSOTAアプローチと競合することを示した。
- 参考スコア(独自算出の注目度): 13.659124860884912
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent research that applies Transformer-based architectures to image
captioning has resulted in state-of-the-art image captioning performance,
capitalising on the success of Transformers on natural language tasks.
Unfortunately, though these models work well, one major flaw is their large
model sizes. To this end, we present three parameter reduction methods for
image captioning Transformers: Radix Encoding, cross-layer parameter sharing,
and attention parameter sharing. By combining these methods, our proposed ACORT
models have 3.7x to 21.6x fewer parameters than the baseline model without
compromising test performance. Results on the MS-COCO dataset demonstrate that
our ACORT models are competitive against baselines and SOTA approaches, with
CIDEr score >=126. Finally, we present qualitative results and ablation studies
to demonstrate the efficacy of the proposed changes further. Code and
pre-trained models are publicly available at
https://github.com/jiahuei/sparse-image-captioning.
- Abstract(参考訳): 画像キャプションにトランスフォーマーベースのアーキテクチャを適用する最近の研究は、自然言語タスクにおけるトランスフォーマーの成功を活かして、最先端の画像キャプション性能を生み出している。
残念ながら、これらのモデルはうまく機能するが、大きなモデルサイズに重大な欠陥がある。
そこで本研究では,画像キャプション変換器のパラメータ削減手法としてradix encoding,cross-layer parameter sharing, attention parameter sharingを提案する。
これらの手法を組み合わせることで,提案したACORTモデルは,試験性能を損なうことなく,ベースラインモデルよりも3.7倍から21.6倍少ないパラメータを持つ。
MS-COCOデータセットの結果,我々のACORTモデルはベースラインやSOTAアプローチと競合し,CIDErスコアは126。
最後に,提案手法の有効性を示す定性的な結果とアブレーション研究について述べる。
コードと事前トレーニングされたモデルはhttps://github.com/jiahuei/sparse-image-captioningで公開されている。
関連論文リスト
- DiffiT: Diffusion Vision Transformers for Image Generation [94.50195596375316]
Diffusion Vision Transformers (DiffiT) はU字型エンコーダとデコーダを備えたハイブリッド階層アーキテクチャである。
DiffiTは、高忠実度画像を生成するのに驚くほど効果的です。
潜在領域では、DiffiTはImageNet-256データセットで1.73の新しいSOTA FIDスコアを達成している。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - BLIP-Adapter: Parameter-Efficient Transfer Learning for Mobile
Screenshot Captioning [0.5893124686141781]
本研究では,モデル上の追加モジュールのみをチューニングするアダプタ手法の組み合わせを提案する。
画像キャプションモデルのパラメータを凍結し、メソッドに関連する重みのみをトレーニングすることにより、モデル全体の微調整に匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-09-26T09:16:44Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Bridging Vision and Language Encoders: Parameter-Efficient Tuning for
Referring Image Segmentation [72.27914940012423]
画像セグメンテーションの参照における効率的なチューニング問題について検討する。
クロスモーダル情報交換を容易にするBridgerと呼ばれる新しいアダプタを提案する。
画像分割のための軽量デコーダも設計する。
論文 参考訳(メタデータ) (2023-07-21T12:46:15Z) - Learned Image Compression with Mixed Transformer-CNN Architectures [21.53261818914534]
本稿では, 並列トランスフォーマー-CNN混合ブロック(TCM)を提案する。
近年のエントロピー推定モデルとアテンションモジュールの進歩に触発されて,パラメータ効率の高いスウィントランスフォーマーに基づくアテンションを持つチャネルワイドエントロピーモデルを提案する。
実験により,提案手法が最先端の速度歪み性能を実現することを示す。
論文 参考訳(メタデータ) (2023-03-27T08:19:01Z) - IRGen: Generative Modeling for Image Retrieval [49.73420524424285]
我々はシーケンス・ツー・シーケンス・モデルを用いて画像検索を生成モデルの一形態として再キャストする。
我々のフレームワークIRGenは、エンドツーエンドの微分検索を可能にする統一モデルである。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Parameter-efficient Model Adaptation for Vision Transformers [45.3460867776953]
画像分類タスクにおける視覚変換器のパラメータ効率モデル適応戦略について検討する。
本稿では,局所固有次元を測定することで,まずサブモジュールを選択するパラメータ効率のよいモデル適応フレームワークを提案する。
提案手法は,20画像分類データセット間の精度とパラメータ効率のトレードオフを最良とする。
論文 参考訳(メタデータ) (2022-03-29T05:30:09Z) - Generating Images with Sparse Representations [21.27273495926409]
画像の高次元化は、確率に基づく生成モデルのアーキテクチャとサンプリング効率の課題を示す。
JPEGのような一般的な画像圧縮法に触発された代替手法を提示し、画像を量子化された離散コサイン変換(DCT)ブロックに変換する。
本稿では,次の要素の条件分布を逐次的に予測するトランスフォーマに基づく自己回帰型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-05T17:56:03Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。