論文の概要: Less is More: Skim Transformer for Light Field Image Super-resolution
- arxiv url: http://arxiv.org/abs/2407.15329v2
- Date: Sun, 10 Aug 2025 03:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.060866
- Title: Less is More: Skim Transformer for Light Field Image Super-resolution
- Title(参考訳): 光電界画像の超高解像度化のためのSim Transformer
- Authors: Zeke Zexi Hu, Haodong Chen, Hui Ye, Xiaoming Chen, Vera Yuk Ying Chung, Yiran Shen, Weidong Cai,
- Abstract要約: 我々は、光場超解像(LFSR)のための効率的かつ強力なネットワークであるSkimLFSRを提案する。
SkimLFSR は 2x と 4x のタスクでそれぞれ PSNR において 0.59 dB と 0.35 dB を平均で上回り、最先端の手法を上回る結果が得られる。
これらの知見は、光場画像処理における将来的なパラダイムとしての有効性と適応性を強調した。
- 参考スコア(独自算出の注目度): 13.565016383731697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A light field image captures scenes through an array of micro-lenses, providing a rich representation that encompasses spatial and angular information. While this richness comes at the cost of significant data redundancy, most existing light field methods still tend to indiscriminately utilize all the information from sub-aperture images (SAIs) in an attempt to harness every visual cue regardless of their disparity significance. However, this paradigm inevitably leads to disparity entanglement, a fundamental cause of inefficiency in light field image processing. To address this limitation, we introduce the Skim Transformer, a novel architecture inspired by the ``less is more" philosophy. Unlike conventional light field Transformers, our Skim Transformer features a multi-branch structure where each branch is dedicated to a specific disparity range by constructing its attention score matrix over a skimmed subset of SAIs, rather than all of them. Building upon this core component, we present SkimLFSR, an efficient yet powerful network for light field super-resolution (LFSR). Requiring only 67\% of parameters, SkimLFSR achieves state-of-the-art results surpassing the best existing method by an average of 0.59 dB and 0.35 dB in PSNR at the 2x and 4x tasks, respectively. Through in-depth analyses, we reveal that SkimLFSR, guided by the predefined skimmed SAI sets as prior knowledge, demonstrates distinct disparity-aware behaviors in attending to visual cues. These findings highlight its effectiveness and adaptability as a promising paradigm for light field image processing.
- Abstract(参考訳): 光場画像は、マイクロレンズの配列を通してシーンをキャプチャし、空間情報と角情報を含むリッチな表現を提供する。
この豊かさは重要なデータ冗長性の犠牲となるが、既存の光場法の多くは、その相違にかかわらず、すべての視覚的キューを活用するために、サブアパーチャ画像(SAI)からの情報をすべて無差別に利用する傾向にある。
しかし、このパラダイムは必然的に光場画像処理における非効率性の根本的な原因である不均一な絡み合いにつながる。
この制限に対処するために、我々は『less is more』哲学に触発された新しいアーキテクチャであるSkim Transformerを紹介します。
従来の光電変換器とは異なり、我々のSkim Transformerは多分岐構造を特徴とし、各分岐は、それらすべてではなく、SAIのスキミングされたサブセットの上にアテンションスコア行列を構築することで、特定の不均一範囲に向けられている。
このコアコンポーネント上に構築されたSkimLFSRは、光場超解像(LFSR)のための効率的かつ強力なネットワークである。
パラメータの67 %しか必要とせず、SkimLFSR は 2x と 4x のタスクでそれぞれ PSNR の 0.59 dB と 0.35 dB の値で、最先端の手法を上回る結果が得られる。
In-deepth analysis, we revealed that SkimLFSR, guideed by the predefined Skmmed SAI set as prior knowledge, shows different disparity-aware behaviors in attend to visual cues。
これらの知見は、光場画像処理における将来的なパラダイムとしての有効性と適応性を強調した。
関連論文リスト
- Compressive Imaging Reconstruction via Tensor Decomposed Multi-Resolution Grid Encoding [50.54887630778593]
圧縮画像再構成(CI)は, 圧縮された低次元画像から高次元画像を復元することを目的としている。
既存の教師なし表現は、表現能力と効率の間の望ましいバランスを達成するのに苦労する。
本稿では,CI再構成のための非教師なし連続表現フレームワークである分割多重解像度グリッド符号化(GridTD)を提案する。
論文 参考訳(メタデータ) (2025-07-10T12:36:20Z) - QDM: Quadtree-Based Region-Adaptive Sparse Diffusion Models for Efficient Image Super-Resolution [54.67891514843853]
領域適応拡散フレームワークであるQuadtree Diffusion Model (QDM)を提案する。
低品質入力から派生したクワッドツリーで拡散を誘導することにより、QDMは葉ノードで表現されるキー領域を特定する。
実験は、QDMが様々な画像タイプ、特に医用画像における高分解能SRタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2025-03-15T06:50:30Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Dual-Domain Deep D-bar Method for Solving Electrical Impedance Tomography [5.112764609048122]
正則化Dバー法は電気インピーダンストモグラフィー(EIT)問題を解く最も顕著な方法の1つである。
Dバー画像は、しばしば正確な高周波情報がないため、コントラストが低く、解像度が低い。
低コントラストDバー画像から高コントラストDバー画像列を検索するためのデュアルドメインニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-05-12T21:55:02Z) - Efficient Multi-scale Network with Learnable Discrete Wavelet Transform for Blind Motion Deblurring [25.36888929483233]
そこで本研究では,シングルインプットとマルチアウトプット(SIMO)に基づくマルチスケールネットワークを提案する。
実世界の軌道特性を学習可能なウェーブレット変換モジュールと組み合わせて、ぼやけた画像から鋭い画像へのステップバイステップ遷移の方向連続性と周波数特性に着目した。
論文 参考訳(メタデータ) (2023-12-29T02:59:40Z) - Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network [52.77569396659629]
本稿では,低光環境下で撮像した光場(LF)画像の復元に,DCUNet(Deep compensation network openfolding)を提案する。
このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。
本稿では,LF画像の特徴を適切に活用するために,擬似明示的特徴相互作用モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-10T07:53:06Z) - Gated Multi-Resolution Transfer Network for Burst Restoration and
Enhancement [75.25451566988565]
低画質の原画像のバーストから空間的精度の高い高画質画像を再構成する新しいGated Multi-Resolution Transfer Network (GMTNet)を提案する。
5つのデータセットに関する詳細な実験分析は、我々のアプローチを検証し、バースト超解像、バーストデノイング、低照度バーストエンハンスメントのための最先端技術を設定する。
論文 参考訳(メタデータ) (2023-04-13T17:54:00Z) - DDT: Dual-branch Deformable Transformer for Image Denoising [6.596462333804802]
Transformerは、帰納的畳み込みバイアスによって引き起こされる制限を克服するために、長距離依存をモデル化できるため、画像記述タスクに有用である。
本稿では,DDT(Dual-branch Deformable Transformer)とDDT(Dual-branch Deformable Transformer)を並列に処理するネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-13T08:54:44Z) - DCS-RISR: Dynamic Channel Splitting for Efficient Real-world Image
Super-Resolution [15.694407977871341]
実世界の画像超解像(RISR)は、未知の複雑な劣化下でのSR画像の品質向上に重点を置いている。
既存の手法は、分解レベルが異なる低解像度(LR)画像を強化するために重いSRモデルに依存している。
本稿では,DCS-RISRと呼ばれる高効率リアルタイム画像超解法のための動的チャネル分割方式を提案する。
論文 参考訳(メタデータ) (2022-12-15T04:34:57Z) - FCL-GAN: A Lightweight and Real-Time Baseline for Unsupervised Blind
Image Deblurring [72.43250555622254]
本稿では,周波数領域の競合損失制約型軽量サイクルGANと呼ばれる,軽量でリアルタイムな非教師付きBIDベースラインを提案する。
FCL-GANは、画像領域制限がなく、画像解像度制限がなく、SOTAより25倍軽く、SOTAより5倍高速である。
いくつかの画像データセットの実験では、性能、モデルサイズ、参照時間の観点からFCL-GANの有効性が示されている。
論文 参考訳(メタデータ) (2022-04-16T15:08:03Z) - Efficient and Degradation-Adaptive Network for Real-World Image
Super-Resolution [28.00231586840797]
実世界の画像超解像(Real-ISR)は、実世界の画像の未知の複雑な劣化のために難しい課題である。
近年のReal-ISRの研究は、画像劣化空間をモデル化することによって大きな進歩を遂げている。
本稿では,各入力画像の劣化を推定してパラメータを適応的に指定する,効率的な劣化適応型超解像ネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-27T05:59:13Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Boosting Image Super-Resolution Via Fusion of Complementary Information
Captured by Multi-Modal Sensors [21.264746234523678]
イメージスーパーレゾリューション(sr)は、低解像度光センサの画質を向上させる有望な技術である。
本稿では,安価なチャネル(可視・深度)からの補完情報を活用して,少ないパラメータを用いて高価なチャネル(熱)の画像品質を向上させる。
論文 参考訳(メタデータ) (2020-12-07T02:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。