論文の概要: Beyond Subspace Isolation: Many-to-Many Transformer for Light Field
Image Super-resolution
- arxiv url: http://arxiv.org/abs/2401.00740v1
- Date: Mon, 1 Jan 2024 12:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 16:12:04.583398
- Title: Beyond Subspace Isolation: Many-to-Many Transformer for Light Field
Image Super-resolution
- Title(参考訳): サブスペース分離を超えて:光フィールド画像超解像のための多対多変換器
- Authors: Zeke Zexi Hu, Xiaoming Chen, Vera Yuk Ying Chung, Yiran Shen
- Abstract要約: 本稿では,光フィールド画像超解像処理のための新しいM2MTを提案する。
M2MTは、自己認識機構を実行する前に、空間部分空間内の角情報を集約する。
光フィールド画像内の全てのサブアパーチャ画像全体への完全なアクセスを可能にする。
- 参考スコア(独自算出の注目度): 5.277207972856879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The effective extraction of spatial-angular features plays a crucial role in
light field image super-resolution (LFSR) tasks, and the introduction of
convolution and Transformers leads to significant improvement in this area.
Nevertheless, due to the large 4D data volume of light field images, many
existing methods opted to decompose the data into a number of lower-dimensional
subspaces and perform Transformers in each sub-space individually. As a side
effect, these methods inadvertently restrict the self-attention mechanisms to a
One-to-One scheme accessing only a limited subset of LF data, explicitly
preventing comprehensive optimization on all spatial and angular cues. In this
paper, we identify this limitation as subspace isolation and introduce a novel
Many-to-Many Transformer (M2MT) to address it. M2MT aggregates angular
information in the spatial subspace before performing the self-attention
mechanism. It enables complete access to all information across all
sub-aperture images (SAIs) in a light field image. Consequently, M2MT is
enabled to comprehensively capture long-range correlation dependencies. With
M2MT as the pivotal component, we develop a simple yet effective M2MT network
for LFSR. Our experimental results demonstrate that M2MT achieves
state-of-the-art performance across various public datasets. We further conduct
in-depth analysis using local attribution maps (LAM) to obtain visual
interpretability, and the results validate that M2MT is empowered with a truly
non-local context in both spatial and angular subspaces to mitigate subspace
isolation and acquire effective spatial-angular representation.
- Abstract(参考訳): 光場画像超解像(LFSR)タスクにおいて,空間角の特徴を効果的に抽出することが重要な役割を担い,畳み込みと変圧器の導入によりこの分野の大幅な改善につながった。
それでも、光田画像の4Dデータ量が大きいため、多くの既存手法はデータを複数の低次元部分空間に分解し、各サブ空間でトランスフォーマーを個別に実行する。
副作用として、これらの手法は必然的にLFデータの限られたサブセットのみにアクセスする1対1のスキームに自己認識機構を制限し、すべての空間的および角的キューに対する包括的な最適化を明示的に防止する。
本稿では,この制限を部分空間分離として認識し,それに対応する新しいM2MTを提案する。
m2mtは自己アテンション機構を実行する前に空間部分空間に角情報を集約する。
これにより、光フィールド画像内の全てのサブアパーチャ画像(SAI)全体への完全なアクセスが可能になる。
その結果、M2MTは長距離相関関係を包括的に捉えることができる。
M2MTを主成分とし、LFSRのための単純で効果的なM2MTネットワークを開発する。
実験の結果,M2MTは様々な公開データセットで最先端の性能を達成できた。
さらに,局所帰属マップ (LAM) を用いて深度解析を行い,M2MT が空間的・角的部分空間において真の非局所的文脈で有効であり,部分空間の分離を緩和し,空間的・角的表現を効果的に獲得できることを示す。
関連論文リスト
- Empowering Snapshot Compressive Imaging: Spatial-Spectral State Space Model with Across-Scanning and Local Enhancement [51.557804095896174]
AsLE-SSMという,グローバルな局所的バランスの取れたコンテキストエンコーディングとチャネル間相互作用の促進に空間スペクトルSSMを用いる状態空間モデルを導入する。
実験の結果,ASLE-SSMは既存の最先端手法よりも優れており,推定速度はTransformerベースのMSTより2.4倍速く,パラメータの0.12(M)を節約できることがわかった。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - Mamba-based Light Field Super-Resolution with Efficient Subspace Scanning [48.99361249764921]
4次元光場(LF)超解像において,トランスフォーマー法は優れた性能を示した。
しかし、その二次的な複雑さは、高解像度の4D入力の効率的な処理を妨げる。
我々は,効率的な部分空間走査戦略を設計し,マンバをベースとした光場超解法 MLFSR を提案する。
論文 参考訳(メタデータ) (2024-06-23T11:28:08Z) - AlignMiF: Geometry-Aligned Multimodal Implicit Field for LiDAR-Camera
Joint Synthesis [98.3959800235485]
近年,複数のモダリティを単一のフィールド内で探索する手法がいくつか存在しており,異なるモダリティから暗黙的な特徴を共有して再現性能を向上させることを目的としている。
本研究では,LiDAR-カメラ共同合成の多モード暗黙的場に関する包括的解析を行い,その根底にある問題はセンサの誤配にあることを示した。
幾何学的に整合した多モード暗黙の場であるAlignMiFを導入し,2つのモジュール,Geometry-Aware Alignment (GAA) とShared Geometry Initialization (SGI)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:08:47Z) - SS-MAE: Spatial-Spectral Masked Auto-Encoder for Multi-Source Remote
Sensing Image Classification [35.52272615695294]
本研究では,HSIとLiDAR/SARデータ共同分類のための空間スペクトルマスク付きオートエンコーダ(SS-MAE)を提案する。
我々のSS-MAEは入力データの空間的およびスペクトル的表現を完全に活用する。
訓練段階における局所的な特徴を補完するため、特徴抽出のために2つの軽量CNNを追加します。
論文 参考訳(メタデータ) (2023-11-08T03:54:44Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - OAFuser: Towards Omni-Aperture Fusion for Light Field Semantic Segmentation [48.828453331724965]
我々は,Omni-Aperture Fusion Model (OAFuser) を提案する。
提案したOAFuserは,すべての評価指標から4つのUrbanLFデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-28T14:43:27Z) - Learning Non-Local Spatial-Angular Correlation for Light Field Image
Super-Resolution [36.69391399634076]
光場(LF)画像超解像(SR)には空間-角相関の爆発が不可欠である
LF画像SRの非局所的空間角相関を学習するための簡易かつ効果的な手法を提案する。
提案手法は,全角視からの情報を完全に取り入れつつ,極上線に沿った大域的受容場を達成できる。
論文 参考訳(メタデータ) (2023-02-16T03:40:40Z) - Stereo Superpixel Segmentation Via Decoupled Dynamic Spatial-Embedding
Fusion Network [17.05076034398913]
本研究では,空間情報のデカップリング機構を備えたステレオスーパーピクセルセグメンテーション法を提案する。
立体差分情報と空間情報を分離するために、ステレオ画像対の特徴を融合する前に空間情報を一時的に除去する。
提案手法は,KITTI2015およびCityscapesデータセットの最先端性能を実現するとともに,NJU2Kデータセットの有能なオブジェクト検出に適用した場合の効率性を検証する。
論文 参考訳(メタデータ) (2022-08-17T08:22:50Z) - Efficient Light Field Reconstruction via Spatio-Angular Dense Network [14.568586050271357]
光電場再構成のためのエンドツーエンドのSPDense Network(SADenseNet)を提案する。
提案したSADenseNetの最先端性能は,メモリと計算のコストを大幅に削減できることを示す。
その結果, 再構成された光場画像は, 精密で精密であり, 測定関連アプリケーションの精度を向上させるために, プリプロセッシングとして機能することがわかった。
論文 参考訳(メタデータ) (2021-08-08T13:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。