論文の概要: Shifted Window Fourier Transform And Retention For Image Captioning
- arxiv url: http://arxiv.org/abs/2408.13963v1
- Date: Sun, 25 Aug 2024 23:57:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 15:22:15.482823
- Title: Shifted Window Fourier Transform And Retention For Image Captioning
- Title(参考訳): シフトしたウィンドウフーリエ変換と画像キャプションの保持
- Authors: Jia Cheng Hu, Roberto Cavicchioli, Alessandro Capotondi,
- Abstract要約: SwiFTeRは、ほぼ完全にフーリエ変換と保持に基づくアーキテクチャである。
現行の光画像キャプションモデルの主な効率ボトルネックに対処する。
SwiFTeRは20Mパラメータのみで構成され、単一の前方通過に3.1 GFLOPを必要とする。
- 参考スコア(独自算出の注目度): 47.82947878753809
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image Captioning is an important Language and Vision task that finds application in a variety of contexts, ranging from healthcare to autonomous vehicles. As many real-world applications rely on devices with limited resources, much effort in the field was put into the development of lighter and faster models. However, much of the current optimizations focus on the Transformer architecture in contrast to the existence of more efficient methods. In this work, we introduce SwiFTeR, an architecture almost entirely based on Fourier Transform and Retention, to tackle the main efficiency bottlenecks of current light image captioning models, being the visual backbone's onerosity, and the decoder's quadratic cost. SwiFTeR is made of only 20M parameters, and requires 3.1 GFLOPs for a single forward pass. Additionally, it showcases superior scalability to the caption length and its small memory requirements enable more images to be processed in parallel, compared to the traditional transformer-based architectures. For instance, it can generate 400 captions in one second. Although, for the time being, the caption quality is lower (110.2 CIDEr-D), most of the decrease is not attributed to the architecture but rather an incomplete training practice which currently leaves much room for improvements. Overall, SwiFTeR points toward a promising direction to new efficient architectural design. The implementation code will be released in the future.
- Abstract(参考訳): Image Captioningは、医療から自動運転車まで、さまざまな状況において応用を見出す重要な言語とビジョンタスクである。
多くの現実世界のアプリケーションは限られたリソースを持つデバイスに依存しているため、この分野ではより軽量で高速なモデルの開発に多くの努力が注がれた。
しかしながら、現在の最適化の多くは、より効率的な方法の存在とは対照的に、Transformerアーキテクチャに焦点を当てている。
本研究では,Fourier TransformとRetentionをほぼ完全にベースとしたアーキテクチャであるSwiFTeRを導入し,現在の光画像キャプションモデルの主な効率ボトルネックに対処する。
SwiFTeRは20Mパラメータのみで構成され、単一の前方通過に3.1 GFLOPを必要とする。
さらに、キャプション長に優れたスケーラビリティを示し、その小さなメモリ要件により、従来のトランスフォーマーベースのアーキテクチャと比較して、より多くの画像を並列に処理することができる。
例えば、1秒で400のキャプションを生成することができる。
今のところ、キャプションの品質は低い(110.2 CIDEr-D)が、その減少の大部分はアーキテクチャによるものではなく、現在改善の余地がたくさんある不完全な訓練の実践によるものである。
全体として、SwiFTeRは、新しい効率的なアーキテクチャ設計への有望な方向に向かっている。
実装コードは将来的にリリースされる予定だ。
関連論文リスト
- In-Context LoRA for Diffusion Transformers [49.288489286276146]
テキスト・ツー・イメージのDiTは、チューニングなしでテキスト内生成を効果的に行うことができることを示す。
我々は、我々のモデル In-Context LoRA (IC-LoRA) を命名する。
我々のパイプラインは、プロンプトにより忠実な高忠実度画像セットを生成する。
論文 参考訳(メタデータ) (2024-10-31T09:45:00Z) - Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:39:21Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - ImageSig: A signature transform for ultra-lightweight image recognition [0.0]
ImageSigは計算シグネチャに基づいており、畳み込み構造やアテンションベースのエンコーダを必要としない。
ImageSigはRaspberry PiやJetson-nanoのようなハードウェアで前例のないパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-05-13T23:48:32Z) - SideRT: A Real-time Pure Transformer Architecture for Single Image Depth
Estimation [11.513054537848227]
そこで我々は,SideRTと呼ばれる純粋なトランスフォーマーアーキテクチャを提案する。
これは、トランスフォーマーベースのネットワークが、単一画像深度推定フィールドにおいて、リアルタイムに最先端の性能が得られることを示す最初の研究である。
論文 参考訳(メタデータ) (2022-04-29T05:46:20Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。