論文の概要: Ray-Patch: An Efficient Querying for Light Field Transformers
- arxiv url: http://arxiv.org/abs/2305.09566v2
- Date: Thu, 17 Aug 2023 09:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 23:45:02.286139
- Title: Ray-Patch: An Efficient Querying for Light Field Transformers
- Title(参考訳): Ray-Patch:光電変換器の効率的なクエリ
- Authors: T. Berriel Martins and Javier Civera
- Abstract要約: ターゲットビューに暗黙の表現をデコードするトランスフォーマーを効率的にクエリする新しいモデルであるRay-Patchクエリを提案する。
我々のRay-Patchデコーディングは計算フットプリントを減らし、従来のモデルに比べて1桁の推論速度を増大させる。
- 参考スコア(独自算出の注目度): 10.859910783551937
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper we propose the Ray-Patch querying, a novel model to efficiently
query transformers to decode implicit representations into target views. Our
Ray-Patch decoding reduces the computational footprint and increases inference
speed up to one order of magnitude compared to previous models, without losing
global attention, and hence maintaining specific task metrics. The key idea of
our novel querying is to split the target image into a set of patches, then
querying the transformer for each patch to extract a set of feature vectors,
which are finally decoded into the target image using convolutional layers. Our
experimental results, implementing Ray-Patch in 3 different architectures and
evaluating it in 2 different tasks and datasets, demonstrate and quantify the
effectiveness of our method, specifically a notable boost in rendering speed
for the same task metrics.
- Abstract(参考訳): 本稿では,暗黙の表現をターゲットビューにデコードするトランスフォーマーを効率的にクエリする新しいモデルであるRay-Patchクエリを提案する。
私たちのray-patchデコードでは、計算フットプリントを削減し、前のモデルと比較して推論速度を最大1桁向上させ、世界的な注目を集めることなく、特定のタスクメトリクスを維持できます。
我々の新しいクエリーの重要なアイデアは、ターゲットイメージをパッチのセットに分割し、各パッチのトランスフォーマーをクエリして特徴ベクトルのセットを抽出し、最終的に畳み込み層を使用してターゲットイメージに復号化することです。
実験の結果,Ray-Patchを3つの異なるアーキテクチャで実装し,2つの異なるタスクとデータセットで評価し,提案手法の有効性を実証し,定量化した。
関連論文リスト
- Bridging Vision and Language Encoders: Parameter-Efficient Tuning for
Referring Image Segmentation [72.27914940012423]
画像セグメンテーションの参照における効率的なチューニング問題について検討する。
クロスモーダル情報交換を容易にするBridgerと呼ばれる新しいアダプタを提案する。
画像分割のための軽量デコーダも設計する。
論文 参考訳(メタデータ) (2023-07-21T12:46:15Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Patch Slimming for Efficient Vision Transformers [107.21146699082819]
与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。
我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。
ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-05T09:46:00Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。