論文の概要: ACORT: A Compact Object Relation Transformer for Parameter Efficient
Image Captioning
- arxiv url: http://arxiv.org/abs/2202.05451v1
- Date: Fri, 11 Feb 2022 05:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 13:59:45.193308
- Title: ACORT: A Compact Object Relation Transformer for Parameter Efficient
Image Captioning
- Title(参考訳): ACORT:パラメータ効率的な画像キャプションのためのコンパクトオブジェクト関係変換器
- Authors: Jia Huei Tan, Ying Hua Tan, Chee Seng Chan, Joon Huang Chuah
- Abstract要約: 画像キャプションモデル削減のための3つの方法を提案する。
提案したACORTモデルはベースラインモデルよりも3.7倍から21.6倍少ないパラメータを持つ。
その結果、ACORTモデルはベースラインやSOTAアプローチと競合することを示した。
- 参考スコア(独自算出の注目度): 13.659124860884912
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent research that applies Transformer-based architectures to image
captioning has resulted in state-of-the-art image captioning performance,
capitalising on the success of Transformers on natural language tasks.
Unfortunately, though these models work well, one major flaw is their large
model sizes. To this end, we present three parameter reduction methods for
image captioning Transformers: Radix Encoding, cross-layer parameter sharing,
and attention parameter sharing. By combining these methods, our proposed ACORT
models have 3.7x to 21.6x fewer parameters than the baseline model without
compromising test performance. Results on the MS-COCO dataset demonstrate that
our ACORT models are competitive against baselines and SOTA approaches, with
CIDEr score >=126. Finally, we present qualitative results and ablation studies
to demonstrate the efficacy of the proposed changes further. Code and
pre-trained models are publicly available at
https://github.com/jiahuei/sparse-image-captioning.
- Abstract(参考訳): 画像キャプションにトランスフォーマーベースのアーキテクチャを適用する最近の研究は、自然言語タスクにおけるトランスフォーマーの成功を活かして、最先端の画像キャプション性能を生み出している。
残念ながら、これらのモデルはうまく機能するが、大きなモデルサイズに重大な欠陥がある。
そこで本研究では,画像キャプション変換器のパラメータ削減手法としてradix encoding,cross-layer parameter sharing, attention parameter sharingを提案する。
これらの手法を組み合わせることで,提案したACORTモデルは,試験性能を損なうことなく,ベースラインモデルよりも3.7倍から21.6倍少ないパラメータを持つ。
MS-COCOデータセットの結果,我々のACORTモデルはベースラインやSOTAアプローチと競合し,CIDErスコアは126。
最後に,提案手法の有効性を示す定性的な結果とアブレーション研究について述べる。
コードと事前トレーニングされたモデルはhttps://github.com/jiahuei/sparse-image-captioningで公開されている。
関連論文リスト
- Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - TexIm FAST: Text-to-Image Representation for Semantic Similarity Evaluation using Transformers [2.7651063843287718]
TexIm FASTは、トランスフォーマー(TexIm FAST)を用いた意味評価のための自己教師付き変分自動エンコーダ(VAE)による固定長表現を生成する新しい手法である。
画像表現は、言語的な複雑さを維持しながら、暗黙の推論を可能にし、クロスモーダルな応用において強力である。
TexIm FASTの有効性は、MSRPC、CNN/Daily Mail、XSumデータセット上でのセマンティックテキスト類似性(STS)のタスクに対して広く分析されている。
論文 参考訳(メタデータ) (2024-06-06T18:28:50Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Bridging Vision and Language Encoders: Parameter-Efficient Tuning for
Referring Image Segmentation [72.27914940012423]
画像セグメンテーションの参照における効率的なチューニング問題について検討する。
クロスモーダル情報交換を容易にするBridgerと呼ばれる新しいアダプタを提案する。
画像分割のための軽量デコーダも設計する。
論文 参考訳(メタデータ) (2023-07-21T12:46:15Z) - Learned Image Compression with Mixed Transformer-CNN Architectures [21.53261818914534]
本稿では, 並列トランスフォーマー-CNN混合ブロック(TCM)を提案する。
近年のエントロピー推定モデルとアテンションモジュールの進歩に触発されて,パラメータ効率の高いスウィントランスフォーマーに基づくアテンションを持つチャネルワイドエントロピーモデルを提案する。
実験により,提案手法が最先端の速度歪み性能を実現することを示す。
論文 参考訳(メタデータ) (2023-03-27T08:19:01Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Parameter-efficient Model Adaptation for Vision Transformers [45.3460867776953]
画像分類タスクにおける視覚変換器のパラメータ効率モデル適応戦略について検討する。
本稿では,局所固有次元を測定することで,まずサブモジュールを選択するパラメータ効率のよいモデル適応フレームワークを提案する。
提案手法は,20画像分類データセット間の精度とパラメータ効率のトレードオフを最良とする。
論文 参考訳(メタデータ) (2022-03-29T05:30:09Z) - Generating Images with Sparse Representations [21.27273495926409]
画像の高次元化は、確率に基づく生成モデルのアーキテクチャとサンプリング効率の課題を示す。
JPEGのような一般的な画像圧縮法に触発された代替手法を提示し、画像を量子化された離散コサイン変換(DCT)ブロックに変換する。
本稿では,次の要素の条件分布を逐次的に予測するトランスフォーマに基づく自己回帰型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-05T17:56:03Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。