Fugu-MT 論文翻訳(概要): A New Dataset and Transformer for Stereoscopic Video Super-Resolution

論文の概要: A New Dataset and Transformer for Stereoscopic Video Super-Resolution

arxiv url: http://arxiv.org/abs/2204.10039v1
Date: Thu, 21 Apr 2022 11:49:29 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-22 13:51:08.685109
Title: A New Dataset and Transformer for Stereoscopic Video Super-Resolution
Title（参考訳）: ステレオビデオ超解像のための新しいデータセットと変換器
Authors: Hassan Imani, Md Baharul Islam, Lai-Kuan Wong
Abstract要約: ステレオビデオ超解像は高解像度映像を再構成することで低解像度の分解能を高めることを目的としている。 SVSRの主な課題は、立体的一貫性と時間的一貫性を維持することである。本稿では,SVSR のトランスフォーマーモデル,すなわち Trans-SVSR を提案する。
参考スコア（独自算出の注目度）: 4.332879001008757
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stereo video super-resolution (SVSR) aims to enhance the spatial resolution of the low-resolution video by reconstructing the high-resolution video. The key challenges in SVSR are preserving the stereo-consistency and temporal-consistency, without which viewers may experience 3D fatigue. There are several notable works on stereoscopic image super-resolution, but there is little research on stereo video super-resolution. In this paper, we propose a novel Transformer-based model for SVSR, namely Trans-SVSR. Trans-SVSR comprises two key novel components: a spatio-temporal convolutional self-attention layer and an optical flow-based feed-forward layer that discovers the correlation across different video frames and aligns the features. The parallax attention mechanism (PAM) that uses the cross-view information to consider the significant disparities is used to fuse the stereo views. Due to the lack of a benchmark dataset suitable for the SVSR task, we collected a new stereoscopic video dataset, SVSR-Set, containing 71 full high-definition (HD) stereo videos captured using a professional stereo camera. Extensive experiments on the collected dataset, along with two other datasets, demonstrate that the Trans-SVSR can achieve competitive performance compared to the state-of-the-art methods. Project code and additional results are available at https://github.com/H-deep/Trans-SVSR/
Abstract（参考訳）: ステレオビデオ超解像(SVSR)は,高解像度映像を再構成することで低解像度映像の空間分解能を高めることを目的としている。 SVSRの鍵となる課題は、立体的一貫性と時間的一貫性を維持することである。立体像超解像の研究はいくつかあるが、ステレオビデオ超解像の研究はほとんどない。本稿では,SVSR のトランスフォーマーモデル,すなわち Trans-SVSR を提案する。 Trans-SVSRは、時空間の畳み込み自己保持層と、異なるビデオフレーム間の相関を発見し、特徴を整列する光フローベースのフィードフォワード層である。立体視を融合させるために、横断視情報を用いて重要な相違を考慮するパララックスアテンション機構(PAM)を用いる。 SVSRタスクに適したベンチマークデータセットがないため、プロのステレオカメラで撮影した71個のフルHDステレオビデオを含む新しいステレオビデオデータセットSVSR-Setを収集した。収集されたデータセットに関する広範な実験と、他の2つのデータセットは、trans-svsrが最先端の方法に比べて競争力のある性能を達成できることを示しています。プロジェクトコードと追加結果はhttps://github.com/h-deep/trans-svsr/で入手できる。

関連論文リスト

StereoINR: Cross-View Geometry Consistent Stereo Super Resolution with Implicit Neural Representation [15.167871410210353]
ステレオ・イメージ・スーパーレゾリューション(SSR)はステレオ・イメージ・ペアからの情報を活用することで高解像度の細部を強化することを目的としている。従来のアップサンプリング手法では、コンボリューションを使用して異なるビューの深い特徴を独立に処理し、クロスビューや非ローカルな情報知覚を欠いている。本稿ではステレオ画像対を連続的な暗黙的表現として革新的にモデル化するステレオインプリシットニューラル表現(StereoINR)を提案する。この連続表現はスケールの制限を突破し、任意のスケールのステレオ超解像再構成のための統一的なソリューションを提供する。
論文参考訳（メタデータ） (2025-05-07T08:30:45Z)
DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-04-28T09:20:50Z)
VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。 QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文参考訳（メタデータ） (2024-12-02T14:45:53Z)
Video Set Distillation: Information Diversification and Temporal Densification [68.85010825225528]
Video textbfsetsは2次元の冗長性を持つ: サンプル内およびサンプル間冗長性。我々は,まず,サンプル内およびサンプル間冗長性に対処して,最適化された映像データを合成するビデオセット蒸留について検討する。
論文参考訳（メタデータ） (2024-11-28T05:37:54Z)
Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-09-02T20:00:49Z)
Arbitrary-Scale Video Super-Resolution with Structural and Textural Priors [80.92195378575671]
Arbitraスケール超解像(AVSR)の強いベースラインについて述べる。次に、事前学習したVGGネットワークから計算したマルチスケールの構造とテクスチャをベースラインに組み込むことにより、ST-AVSRを導入する。総合的な実験により、ST-AVSRは最先端技術よりも超解像品質、一般化能力、推論速度を大幅に改善することが示された。
論文参考訳（メタデータ） (2024-07-13T15:27:39Z)
Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。 SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。 REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-03-25T17:59:26Z)
Video Frame Interpolation with Stereo Event and Intensity Camera [40.07341828127157]
高品質な中間フレームを生成するための新しいステレオイベントベースVFIネットワーク(SE-VFI-Net)を提案する。我々は,正確な光学的流れと不均一性推定を実現するために,融合した特徴を利用する。提案するSEVFI-Netは最先端の手法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2023-07-17T04:02:00Z)
DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文参考訳（メタデータ） (2023-05-03T17:40:49Z)
Cross-View Hierarchy Network for Stereo Image Super-Resolution [14.574538513341277]
ステレオ画像スーパーレゾリューションは、ビュー間の相補的な情報を活用することにより、高解像度ステレオ画像ペアの品質を向上させることを目的としている。ステレオ画像超解法(CVHSSR)のためのクロスビュー階層ネットワーク(Cross-View-Hierarchy Network)という新しい手法を提案する。 CVHSSRは、パラメータを減らしながら、他の最先端手法よりも最高のステレオ画像超解像性能を達成する。
論文参考訳（メタデータ） (2023-04-13T03:11:30Z)
H2-Stereo: High-Speed, High-Resolution Stereoscopic Video System [39.95458608416292]
高分解能立体視(H2-Stereo)ビデオは、動的3Dコンテンツを微妙に知覚することができる。既存の手法は、時間的または空間的な詳細を欠いた妥協された解決策を提供する。本稿では,高解像度低フレームレート(HSR-LFR)映像を空間的詳細で撮影するデュアルカメラシステムを提案する。そこで我々は,H2-Stereo ビデオの効率的な再構成にクロスカメラ冗長性を利用する学習情報融合ネットワーク (LIFnet) を考案した。
論文参考訳（メタデータ） (2022-08-04T04:06:01Z)
Towards Interpretable Video Super-Resolution via Alternating Optimization [115.85296325037565]
低フレームのぼかしビデオから高フレームの高解像度のシャープビデオを生成することを目的とした実時間ビデオ超解法(STVSR)問題について検討する。本稿では,モデルベースと学習ベースの両方の手法を用いて,解釈可能なSTVSRフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-21T21:34:05Z)
Multi-View Stereo with Transformer [31.83069394719813]
本稿では,MVSTR(Multi-View Stereo)のためのネットワークを提案する。 Transformer上に構築されており、グローバルコンテキストと3D一貫性で高密度な特徴を抽出することができる。実験結果から,提案したMVSTRは,DTUデータセット上で最高の総合性能を達成し,Turps & Templesベンチマークデータセット上での強力な一般化を実現していることがわかった。
論文参考訳（メタデータ） (2021-12-01T08:06:59Z)
Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。時間合成と空間超解像はこの課題に関係している。 LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文参考訳（メタデータ） (2020-02-26T16:59:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。