論文の概要: SufrinNet: Toward Sufficient Cross-View Interaction for Stereo Image
Enhancement in The Dark
- arxiv url: http://arxiv.org/abs/2211.00859v2
- Date: Fri, 4 Nov 2022 09:02:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 13:31:08.378368
- Title: SufrinNet: Toward Sufficient Cross-View Interaction for Stereo Image
Enhancement in The Dark
- Title(参考訳): SufrinNet: 暗闇の中でのステレオ画像強調のための十分なクロスビューインタラクションを目指して
- Authors: Huan Zheng, Zhao Zhang, Jicong Fan, Richang Hong, Yi Yang, Shuicheng
Yan
- Abstract要約: 低照度ステレオ画像強調(LLSIE)は、暗黒環境で撮影された視覚的に不快なステレオ画像の品質を高めるための比較的新しいタスクである。
1)クロスビューの相互作用が不十分なこと,2)ビュー内学習に長距離依存が欠如していること,である。
SufrinNet(SufrinNet)を用いた新しいLLSIEモデルを提案する。
- 参考スコア(独自算出の注目度): 119.01585302856103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-light stereo image enhancement (LLSIE) is a relatively new task to
enhance the quality of visually unpleasant stereo images captured in dark
conditions. So far, very few studies on deep LLSIE have been explored due to
certain challenging issues, i.e., the task has not been well addressed, and
current methods clearly suffer from two shortages: 1) insufficient cross-view
interaction; 2) lacking long-range dependency for intra-view learning. In this
paper, we therefore propose a novel LLSIE model, termed \underline{Suf}ficient
C\underline{r}oss-View \underline{In}teraction Network (SufrinNet). To be
specific, we present sufficient inter-view interaction module (SIIM) to enhance
the information exchange across views. SIIM not only discovers the cross-view
correlations at different scales, but also explores the cross-scale information
interaction. Besides, we present a spatial-channel information mining block
(SIMB) for intra-view feature extraction, and the benefits are twofold. One is
the long-range dependency capture to build spatial long-range relationship, and
the other is expanded channel information refinement that enhances information
flow in channel dimension. Extensive experiments on Flickr1024, KITTI 2012,
KITTI 2015 and Middlebury datasets show that our method obtains better
illumination adjustment and detail recovery, and achieves SOTA performance
compared to other related methods. Our codes, datasets and models will be
publicly available.
- Abstract(参考訳): 低照度ステレオ画像強調(LLSIE)は、暗黒環境で撮影された視覚的に不快なステレオ画像の品質を高めるための比較的新しいタスクである。
これまでのところ、ディープ・ルシーに関する研究は、特定の困難な問題、すなわち、その課題は十分に解決されておらず、現在の方法は明らかに2つの不足に苦しめられている。
1) 相互観の相互作用が不十分である。
2) 視点内学習における長距離依存の欠如。
そこで,本稿では,新しいLLSIEモデルであるC\underline{r}oss-View \underline{In}teraction Network (SufrinNet)を提案する。
具体的には、ビュー間の情報交換を強化するのに十分なビュー間相互作用モジュール(SIIM)を提案する。
SIIMは、異なるスケールでの相互参照相関を発見できるだけでなく、横断的な情報相互作用も探索する。
さらに、ビュー内特徴抽出のための空間チャネル情報マイニングブロック(SIMB)を提案し、その利点は2つある。
1つは空間的長距離関係を構築するための長距離依存性キャプチャであり、もう1つはチャネル次元における情報フローを強化する拡張チャネル情報改善である。
Flickr1024, KITTI 2012, KITTI 2015およびミドルベリーデータセットの大規模な実験により, 本手法は照明調整やディテールリカバリの精度が向上し, 他の手法と比較してSOTA性能が向上することが示された。
私たちのコード、データセット、モデルは公開されます。
関連論文リスト
- SDI-Net: Toward Sufficient Dual-View Interaction for Low-light Stereo Image Enhancement [38.66838623890922]
たいていの低照度画像強調法は、単一の視点からの情報しか考慮しない。
低照度ステレオ画像強調のための2次元2次元対話モデルを提案する。
我々は、注意機構を介して両眼の視線間の相関を完全に活用することを目的とした、CSIM(Cross-View Sufficient Interaction Module)と呼ばれるモジュールを設計する。
論文 参考訳(メタデータ) (2024-08-20T15:17:11Z) - ML-CrAIST: Multi-scale Low-high Frequency Information-based Cross black Attention with Image Super-resolving Transformer [3.686808512438363]
この研究は、ML-CrAISTと呼ばれるトランスフォーマーベースの超解像アーキテクチャを提案する。
我々は空間的およびチャネル的自己アテンションを運用し、空間的およびチャネル的両方の次元から画素間相互作用を同時にモデル化する。
超解像のためのクロスアテンションブロックを考案し、低周波情報と高周波情報との相関について検討する。
論文 参考訳(メタデータ) (2024-08-19T12:23:15Z) - Learning Accurate and Enriched Features for Stereo Image Super-Resolution [0.0]
ステレオ画像超解像(ステレオSR)は、代替的な視点から補完情報を組み込むことで、超解像の質を高めることを目的としている。
我々は,空間的詳細を正確に保存し,豊富なコンテキスト情報を組み込むため,MSSFNet(Mixed-scale selective fusion Network)を提案する。
MSSFNetは、定量評価と定性評価の両方において最先端のアプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-23T03:34:17Z) - ECAFormer: Low-light Image Enhancement using Cross Attention [11.554554006307836]
低照度画像強調(LLIE)はコンピュータビジョンにおいて重要である。
我々はクロスアテンショントランス(ECAFormer)による階層的相互強化を設計する。
我々は,ECAFormerが複数のベンチマークで競合性能に到達し,PSNRを最適化法よりも3%近く改善したことを示す。
論文 参考訳(メタデータ) (2024-06-19T07:21:31Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。