論文の概要: Towards Top-Down Stereo Image Quality Assessment via Stereo Attention
- arxiv url: http://arxiv.org/abs/2308.04156v3
- Date: Tue, 14 Nov 2023 09:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 18:23:11.315019
- Title: Towards Top-Down Stereo Image Quality Assessment via Stereo Attention
- Title(参考訳): ステレオ注意によるトップダウンステレオ画像品質評価に向けて
- Authors: Huilin Zhang, Sumei Li, Haoxiang Chang, Peiming Lin
- Abstract要約: ステレオ画像品質評価(SIQA)は、3Dコンテンツの視覚的体験を評価し改善する上で重要な役割を担っている。
本稿では,品質評価プロセスの指針として,トップダウンの視点を用いた新しいStereo AttenTion Network(SATNet)を提案する。
実験結果から,SIQA分野における最先端技術推進におけるトップダウン手法の優位性を強調した。
- 参考スコア(独自算出の注目度): 3.113304966059062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stereo image quality assessment (SIQA) plays a crucial role in evaluating and
improving the visual experience of 3D content. Existing visual properties-based
methods for SIQA have achieved promising performance. However, these approaches
ignore the top-down philosophy, leading to a lack of a comprehensive grasp of
the human visual system (HVS) and SIQA. This paper presents a novel Stereo
AttenTion Network (SATNet), which employs a top-down perspective to guide the
quality assessment process. Specifically, our generalized Stereo AttenTion
(SAT) structure adapts components and input/output for stereo scenarios. It
leverages the fusion-generated attention map as a higher-level binocular
modulator to influence two lower-level monocular features, allowing progressive
recalibration of both throughout the pipeline. Additionally, we introduce an
Energy Coefficient (EC) to flexibly tune the magnitude of binocular response,
accounting for the fact that binocular responses in the primate primary visual
cortex are less than the sum of monocular responses. To extract the most
discriminative quality information from the summation and subtraction of the
two branches of monocular features, we utilize a dual-pooling strategy that
applies min-pooling and max-pooling operations to the respective branches.
Experimental results highlight the superiority of our top-down method in
advancing the state-of-the-art in the SIQA field. The code is available at
https://github.com/Fanning-Zhang/SATNet.
- Abstract(参考訳): ステレオ画像品質評価(siqa)は、3dコンテンツの視覚体験の評価と改善に重要な役割を果たしている。
SIQAの既存の視覚特性に基づく手法は有望な性能を達成した。
しかし、これらのアプローチはトップダウンの哲学を無視しており、人間の視覚システム(HVS)とSIQAの包括的把握が欠如している。
本稿では,品質評価プロセスの指針としてトップダウンの視点を用いた新しいStereo AttenTion Network(SATNet)を提案する。
具体的には,汎用ステレオアテンション(sat)構造がステレオシナリオにコンポーネントと入出力を適応させる。
融合生成アテンションマップを高レベルの双眼鏡変調器として活用し、2つの低レベルの単眼機能に影響を与える。
さらに,一次視覚野における両眼反応が単眼応答の総和よりも少ないという事実を考慮し,両眼応答の大きさを柔軟に調整するエネルギー係数(ec)を導入する。
単眼的特徴の2つの枝の総和と減算から最も識別的品質情報を抽出するために,ミンプールとマックスプール操作を各枝に適用する二重プール戦略を用いる。
実験結果から,SIQA分野における最先端技術推進におけるトップダウン手法の優位性を強調した。
コードはhttps://github.com/fanning-zhang/satnetで入手できる。
関連論文リスト
- Perceptual Depth Quality Assessment of Stereoscopic Omnidirectional Images [10.382801621282228]
立体視全方位画像の高能率非参照(NR)深度品質評価のための目標品質評価モデルDQIを開発した。
人間の視覚システム(HVS)の知覚特性に触発されたDQIは,多色チャネル,適応型ビューポート選択,眼間不一致の特徴を基盤として構築されている。
論文 参考訳(メタデータ) (2024-08-19T16:28:05Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Self-Supervised Monocular Depth Estimation by Direction-aware Cumulative
Convolution Network [80.19054069988559]
自己教師付き単眼深度推定は, 方向感度と環境依存性を示す。
本稿では2つの側面において深度表現を改善する方向対応累積畳み込みネットワーク(DaCCN)を提案する。
実験の結果,提案手法は広く使用されている3つのベンチマークにおいて大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-08-10T14:32:18Z) - Assessor360: Multi-sequence Network for Blind Omnidirectional Image
Quality Assessment [50.82681686110528]
Blind Omnidirectional Image Quality Assessment (BOIQA)は、全方位画像(ODI)の人間の知覚品質を客観的に評価することを目的としている。
ODIの品質評価は、既存のBOIQAパイプラインがオブザーバのブラウジングプロセスのモデリングを欠いているという事実によって著しく妨げられている。
Assessor360と呼ばれるBOIQAのための新しいマルチシーケンスネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T13:55:28Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - End-to-end deep multi-score model for No-reference stereoscopic image
quality assessment [6.254148286968409]
我々は、深層多スコア畳み込みニューラルネットワーク(CNN)を用いて、参照なしで立体画像の品質を推定する。
まず、左の視点の質を予測し、次に、左の視点の質を予測し、第3と第4に、ステレオ視点の質とグローバルな品質をそれぞれ予測し、グローバルスコアを究極の品質とする。
論文 参考訳(メタデータ) (2022-11-02T16:45:35Z) - Perception-Oriented Stereo Image Super-Resolution [19.226330884091645]
本稿では,StereoSR結果の知覚品質の評価から得られたフィードバックを利用して,最初の知覚指向ステレオ画像超解像手法を提案する。
実験により,ステレオ画像の知覚品質が著しく向上し,立体画像の信頼性が向上することが確認された。
論文 参考訳(メタデータ) (2022-07-14T02:13:42Z) - ChiTransformer:Towards Reliable Stereo from Cues [10.756828396434033]
現在のステレオマッチング技術は、制限された探索空間、隠蔽領域、およびせん断サイズによって挑戦される。
本稿では,光学機構にインスパイアされた自己監督型両眼深度推定法を提案する。
ChiTransformerアーキテクチャは、最先端の自己教師型ステレオアプローチよりも11%大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-09T07:19:58Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。