論文の概要: Ray-Patch: An Efficient Decoder for Light Field Transformers
- arxiv url: http://arxiv.org/abs/2305.09566v1
- Date: Tue, 16 May 2023 16:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 14:11:36.105294
- Title: Ray-Patch: An Efficient Decoder for Light Field Transformers
- Title(参考訳): Ray-Patch:光電変換器の効率的なデコーダ
- Authors: T. B. Martins and J. Civera
- Abstract要約: レイパッチ復号法は計算フットプリントを以前のモデルに比べて最大2桁まで削減する。
実験により,本手法の有効性,特にレンダリング速度の顕著な向上について定量的に検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper we propose the Ray-Patch decoder, a novel model to efficiently
query transformers to decode implicit representations into target views. Our
Ray-Patch decoding reduces the computational footprint up to two orders of
magnitude compared to previous models, without losing global attention, and
hence maintaining specific task metrics. The key idea of our novel decoder is
to split the target image into a set of patches, then querying the transformer
for each patch to extract a set of feature vectors, which are finally decoded
into the target image using convolutional layers. Our experimental results
quantify the effectiveness of our method, specifically the notable boost in
rendering speed and equal specific task metrics for different baselines and
datasets.
- Abstract(参考訳): 本稿では,暗黙の表現をターゲットビューにデコードするトランスフォーマーを効率的にクエリする新しいモデルであるRay-Patchデコーダを提案する。
我々のRay-Patchデコーディングは、計算のフットプリントを従来のモデルに比べて最大2桁まで減らし、グローバルな注目を集めることなく、特定のタスクメトリクスを維持する。
新たなデコーダのキーとなるアイデアは、ターゲット画像をパッチのセットに分割し、各パッチに対してトランスフォーマーに問い合わせて特徴ベクトルのセットを抽出し、最終的に畳み込み層を使ってターゲットイメージにデコードすることです。
提案手法の有効性,特に,ベースラインやデータセットのレンダリング速度および等比タスクメトリクスの大幅な向上について,実験により定量化した。
関連論文リスト
- Bridging Vision and Language Encoders: Parameter-Efficient Tuning for
Referring Image Segmentation [72.27914940012423]
画像セグメンテーションの参照における効率的なチューニング問題について検討する。
クロスモーダル情報交換を容易にするBridgerと呼ばれる新しいアダプタを提案する。
画像分割のための軽量デコーダも設計する。
論文 参考訳(メタデータ) (2023-07-21T12:46:15Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Patch Slimming for Efficient Vision Transformers [107.21146699082819]
与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。
我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。
ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-05T09:46:00Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。