論文の概要: TransiT: Transient Transformer for Non-line-of-sight Videography
- arxiv url: http://arxiv.org/abs/2503.11328v1
- Date: Fri, 14 Mar 2025 11:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:10.614132
- Title: TransiT: Transient Transformer for Non-line-of-sight Videography
- Title(参考訳): TransiT: 非線形ビデオ撮影のための過渡トランスフォーマー
- Authors: Ruiqian Li, Siyuan Shen, Suan Xia, Ziheng Wang, Xingyue Peng, Chengxuan Song, Yingsheng Zhu, Tao Wu, Shiying Li, Jingyi Yu,
- Abstract要約: 高速スキャンによるリアルタイムNLOS回復を実現するために,TransiTと呼ばれる新しいトランスフォーマーアーキテクチャを提案する。
TransiTは入力トランジェントの時間次元を直接圧縮して特徴を抽出し、計算コストを削減し、高いフレームレート要求を満たす。
実際の実験では、TransiTは1点当たり0.4msの露光時間で測定された16倍16$の粗いトランジェントからNLOSビデオの6.4倍64$の解像度で毎秒10フレームの解像度で再構成する。
- 参考スコア(独自算出の注目度): 28.571430723113117
- License:
- Abstract: High quality and high speed videography using Non-Line-of-Sight (NLOS) imaging benefit autonomous navigation, collision prevention, and post-disaster search and rescue tasks. Current solutions have to balance between the frame rate and image quality. High frame rates, for example, can be achieved by reducing either per-point scanning time or scanning density, but at the cost of lowering the information density at individual frames. Fast scanning process further reduces the signal-to-noise ratio and different scanning systems exhibit different distortion characteristics. In this work, we design and employ a new Transient Transformer architecture called TransiT to achieve real-time NLOS recovery under fast scans. TransiT directly compresses the temporal dimension of input transients to extract features, reducing computation costs and meeting high frame rate requirements. It further adopts a feature fusion mechanism as well as employs a spatial-temporal Transformer to help capture features of NLOS transient videos. Moreover, TransiT applies transfer learning to bridge the gap between synthetic and real-measured data. In real experiments, TransiT manages to reconstruct from sparse transients of $16 \times 16$ measured at an exposure time of 0.4 ms per point to NLOS videos at a $64 \times 64$ resolution at 10 frames per second. We will make our code and dataset available to the community.
- Abstract(参考訳): Non-Line-of-Sight (NLOS) 画像を用いた高品質で高速なビデオ撮影は、自律走行、衝突防止、災害後の捜索救助作業に有用である。
現在のソリューションは、フレームレートと画質のバランスをとる必要があります。
例えば、高いフレームレートは、点当たりの走査時間または走査密度を減少させることで達成できるが、個々のフレームにおける情報密度を低下させるコストがかかる。
高速走査は信号対雑音比をさらに小さくし、異なる走査系は異なる歪み特性を示す。
本研究では,高速スキャン下でのリアルタイムNLOS回復を実現するために,TransiTと呼ばれる新しいトランスフォーマーアーキテクチャの設計と利用を行う。
TransiTは入力トランジェントの時間次元を直接圧縮して特徴を抽出し、計算コストを削減し、高いフレームレート要求を満たす。
さらに、NLOSトランジェントビデオの特徴をキャプチャするのに役立つ空間時間変換器も採用している。
さらに、TransiTは、合成データと実測データのギャップを埋めるために転送学習を適用する。
実際の実験では、TransiTは1点当たり0.4msの露光時間で測定された16ドル/秒のスパーストランジェントからNLOSビデオに64ドル/秒で64ドル/秒で64ドル/秒の解像度で再構成した。
コードとデータセットをコミュニティに提供します。
関連論文リスト
- Blur-aware Spatio-temporal Sparse Transformer for Video Deblurring [14.839956958725883]
本稿では、browbfBSSTNet, textbfBlur-aware textbfStext-temporal textbfTransformer Networkを提案する。
提案したBSSTNetは、GoProやDVDのデータセットで最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - Streaming quanta sensors for online, high-performance imaging and vision [34.098174669870126]
量子画像センサ(QIS)は多くの困難なシナリオにおいて顕著な撮像能力を示した。
その可能性にもかかわらず、これらのセンサーの採用は、(a)高いデータレートと(b)非伝統的な生データを扱うための新しい計算パイプラインの必要性により、著しく妨げられている。
これらの課題に対処するために、単純で低帯域幅の計算パイプラインを導入する。
提案手法は,100倍の帯域幅削減とリアルタイム画像再構成とコンピュータビジョンを実現する。
論文 参考訳(メタデータ) (2024-06-02T20:30:49Z) - LIPT: Latency-aware Image Processing Transformer [17.802838753201385]
LIPTと呼ばれる遅延対応画像処理変換器を提案する。
我々は、メモリ集約演算子の代わりに自己注意と畳み込みを組み合わせた低レイテンシ比LIPTブロックを考案し、実用的な高速化を実現する。
論文 参考訳(メタデータ) (2024-04-09T07:25:30Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - ITSRN++: Stronger and Better Implicit Transformer Network for Continuous
Screen Content Image Super-Resolution [32.441761727608856]
提案手法は,SCI SR(x3 SRでは0.74dBのSwinIR性能)の最先端性能を実現し,自然画像SRにも有効である。
大規模なSCI2Kデータセットを構築し,SCI SRの研究を容易にする。
論文 参考訳(メタデータ) (2022-10-17T07:47:34Z) - Rolling Shutter Inversion: Bring Rolling Shutter Images to High
Framerate Global Shutter Video [111.08121952640766]
本稿では,RS時相超解問題に対する新しいディープラーニングに基づく解法を提案する。
RSイメージングプロセスの多視点幾何関係を利用して,高フレームレートGS生成を実現する。
提案手法は,高精細で高品質なGS画像系列を生成でき,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-10-06T16:47:12Z) - Projected GANs Converge Faster [50.23237734403834]
GAN(Generative Adversarial Networks)は高品質な画像を生成するが、訓練は難しい。
生成したサンプルと実際のサンプルを固定された事前訓練された特徴空間に投影することで、これらの問題に大きく取り組みます。
我々の投影GANは画像品質、サンプル効率、収束速度を改善する。
論文 参考訳(メタデータ) (2021-11-01T15:11:01Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z) - Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable
End-to-End Speech Recognition [8.046120977786702]
Transformerは自動音声認識(ASR)における最先端のエンドツーエンドモデルと競合する性能を達成した
エンコーダ-デコーダアーキテクチャを備えたオリジナルのTransformerは、オフラインのASRにのみ適合する。
Conv-Transformer Transducerという名前のこのアーキテクチャは、外部言語モデルなしでLibriSpeechデータセット(3.6% WER on test-clean)の競合性能を実現する。
論文 参考訳(メタデータ) (2020-08-13T08:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。