論文の概要: Deep Laparoscopic Stereo Matching with Transformers
- arxiv url: http://arxiv.org/abs/2207.12152v1
- Date: Mon, 25 Jul 2022 12:54:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 15:00:59.934219
- Title: Deep Laparoscopic Stereo Matching with Transformers
- Title(参考訳): トランスフォーマーを用いた深部腹腔鏡ステレオマッチング
- Authors: Xuelian Cheng, Yiran Zhong, Mehrtash Harandi, Tom Drummond, Zhiyong
Wang, and Zongyuan Ge
- Abstract要約: トランス構造をうまく利用した自己保持機構は、多くのコンピュータビジョンタスクにおいて有望であることが示されている。
本稿では,CNNの長所と変圧器を統一設計で組み合わせたハイブリッドなディープステレオマッチングフレームワーク(HybridStereoNet)を提案する。
- 参考スコア(独自算出の注目度): 46.18206008056612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The self-attention mechanism, successfully employed with the transformer
structure is shown promise in many computer vision tasks including image
recognition, and object detection. Despite the surge, the use of the
transformer for the problem of stereo matching remains relatively unexplored.
In this paper, we comprehensively investigate the use of the transformer for
the problem of stereo matching, especially for laparoscopic videos, and propose
a new hybrid deep stereo matching framework (HybridStereoNet) that combines the
best of the CNN and the transformer in a unified design. To be specific, we
investigate several ways to introduce transformers to volumetric stereo
matching pipelines by analyzing the loss landscape of the designs and
in-domain/cross-domain accuracy. Our analysis suggests that employing
transformers for feature representation learning, while using CNNs for cost
aggregation will lead to faster convergence, higher accuracy and better
generalization than other options. Our extensive experiments on Sceneflow,
SCARED2019 and dVPN datasets demonstrate the superior performance of our
HybridStereoNet.
- Abstract(参考訳): 画像認識や物体検出を含む多くのコンピュータビジョンタスクにおいて、トランスフォーマー構造をうまく活用する自己認識機構が約束されている。
急上昇にもかかわらず、ステレオマッチングの問題に対するトランスフォーマーの使用は比較的未検討のままである。
本稿では,特に腹腔鏡映像におけるステレオマッチング問題に対するトランスフォーマーの使用を包括的に検討し,cnnとトランスフォーマーのベストを統一した新しいハイブリッド型ディープステレオマッチングフレームワーク(hybridstereonet)を提案する。
具体的には,設計のロスランドスケープとドメイン内/ドメイン間精度を解析し,ボリューム的ステレオマッチングパイプラインにトランスフォーマーを導入する方法について検討する。
分析の結果,特徴表現学習にトランスフォーマーを用いる場合,コスト集約にCNNを用いる場合,コンバージェンスが早くなり,精度が向上し,他の選択肢よりも一般化性が向上することが示唆された。
Sceneflow、SCARED2019、dVPNデータセットに関する広範な実験は、HybridStereoNetの優れたパフォーマンスを示しています。
関連論文リスト
- CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - On the Surprising Effectiveness of Transformers in Low-Labeled Video
Recognition [18.557920268145818]
ビデオビジョントランスフォーマーは、複数の視覚タスクにまたがる畳み込みベースの手法(CNN)と競合することが示されている。
我々の研究は、ビデオ分類の低データ体制を実証的に探求し、驚くべきことに、低ラベルの動画設定においてトランスフォーマーが極めてよく機能することを発見した。
ラベル付きデータのみを用いて、トランスフォーマーは大規模未ラベルデータも活用する複雑な半教師付きCNN法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-09-15T17:12:30Z) - Deep Hyperspectral Unmixing using Transformer Network [7.3050653207383025]
トランスを用いた新しい深層混合モデルを提案する。
提案モデルは畳み込みオートエンコーダと変圧器の組み合わせである。
データは畳み込みデコーダを用いて再構成される。
論文 参考訳(メタデータ) (2022-03-31T14:47:36Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z) - The Nuts and Bolts of Adopting Transformer in GANs [124.30856952272913]
高忠実度画像合成のためのGAN(Generative Adversarial Network)フレームワークにおけるTransformerの特性について検討する。
我々の研究は、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANにおけるトランスフォーマーの新しい代替設計につながる。
論文 参考訳(メタデータ) (2021-10-25T17:01:29Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。