論文の概要: Event-based Monocular Dense Depth Estimation with Recurrent Transformers
- arxiv url: http://arxiv.org/abs/2212.02791v1
- Date: Tue, 6 Dec 2022 07:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 16:49:23.416755
- Title: Event-based Monocular Dense Depth Estimation with Recurrent Transformers
- Title(参考訳): リカレントトランスを用いたイベントベース単眼深度推定
- Authors: Xu Liu, Jianing Li, Xiaopeng Fan, Yonghong Tian
- Abstract要約: イベントカメラは高時間分解能と高ダイナミックレンジを提供する。
本稿では,再帰変換器,すなわちEReFormerを用いたイベントベース単分子深度推定器を提案する。
私たちの研究は、イベントベースのビジョンコミュニティで素晴らしいトランスフォーマーを開発するために、さらなる研究を引き付けます。
- 参考スコア(独自算出の注目度): 40.82085590645538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras, offering high temporal resolutions and high dynamic ranges,
have brought a new perspective to address common challenges (e.g., motion blur
and low light) in monocular depth estimation. However, how to effectively
exploit the sparse spatial information and rich temporal cues from asynchronous
events remains a challenging endeavor. To this end, we propose a novel
event-based monocular depth estimator with recurrent transformers, namely
EReFormer, which is the first pure transformer with a recursive mechanism to
process continuous event streams. Technically, for spatial modeling, a novel
transformer-based encoder-decoder with a spatial transformer fusion module is
presented, having better global context information modeling capabilities than
CNN-based methods. For temporal modeling, we design a gate recurrent vision
transformer unit that introduces a recursive mechanism into transformers,
improving temporal modeling capabilities while alleviating the expensive GPU
memory cost. The experimental results show that our EReFormer outperforms
state-of-the-art methods by a margin on both synthetic and real-world datasets.
We hope that our work will attract further research to develop stunning
transformers in the event-based vision community. Our open-source code can be
found in the supplemental material.
- Abstract(参考訳): 高時間分解能と高ダイナミックレンジを提供するイベントカメラは、単眼深度推定における共通の課題(動きのぼかしや低光度など)に対処する新しい視点をもたらした。
しかし,非同期イベントからの疎空間情報や豊富な時間的手がかりを効果的に活用する方法は,いまだに困難な課題である。
そこで本研究では,連続イベントストリームを処理するための再帰的機構を備えた最初の純粋変圧器であるEReFormerを用いたイベントベース単分子深度推定器を提案する。
技術的には、空間モデリングにおいて、CNN法よりもグローバルな文脈情報モデリング機能を有する、空間トランスフォーマー融合モジュールを備えた新しいトランスフォーマーベースのエンコーダデコーダが提示される。
時間的モデリングのために、トランスフォーマーに再帰的メカニズムを導入するゲートリカレントビジョントランスフォーマーユニットを設計し、高価なgpuメモリコストを軽減しながら時間的モデリング能力を改善した。
実験の結果,ereformerは,合成データと実世界のデータセットの両方において最先端の手法よりも優れていることがわかった。
私たちの研究は、イベントベースのビジョンコミュニティで素晴らしいトランスフォーマーを開発するためのさらなる研究を惹きつけることを願っています。
当社のオープンソースコードは補足資料で確認できます。
関連論文リスト
- DRCT: Saving Image Super-resolution away from Information Bottleneck [7.765333471208582]
低レベルのビジョンタスクに対するビジョントランスフォーマーベースのアプローチは、広く成功している。
空間情報の損失を軽減するため,Dense-Residual-Connected Transformer (DRCT)を提案する。
提案手法は,ベンチマークデータセットの最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-31T15:34:45Z) - Multi-Context Dual Hyper-Prior Neural Image Compression [10.349258638494137]
入力画像から局所的情報と大域的情報の両方を効率的にキャプチャするトランスフォーマーに基づく非線形変換を提案する。
また、2つの異なるハイパープライヤを組み込んだ新しいエントロピーモデルを導入し、潜在表現のチャネル間および空間的依存関係をモデル化する。
実験の結果,提案するフレームワークは,速度歪み性能の観点から,最先端の手法よりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-09-19T17:44:44Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Continuous Spatiotemporal Transformers [2.485182034310304]
連続時間変換器(Continuous Stemporal Transformer, CST)は, 連続系をモデル化するためのトランスフォーマアーキテクチャである。
この新しいフレームワークは、ソボレフ空間における最適化による連続的な表現と出力を保証する。
我々は従来の変圧器や他のスムーズな時相力学モデリング手法に対してCSTをベンチマークし、合成および実システムにおける多くのタスクにおいて優れた性能を達成する。
論文 参考訳(メタデータ) (2023-01-31T00:06:56Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - TransVG: End-to-End Visual Grounding with Transformers [102.11922622103613]
本稿では,画像に対して言語クエリを接地するタスクに対処するためのトランスフォーマティブベースのフレームワークであるtransvgを提案する。
複雑な核融合モジュールは、高い性能でトランスフォーマーエンコーダ層を単純なスタックで置き換えることができることを示す。
論文 参考訳(メタデータ) (2021-04-17T13:35:24Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。