論文の概要: SOFI: Multi-Scale Deformable Transformer for Camera Calibration with Enhanced Line Queries
- arxiv url: http://arxiv.org/abs/2409.15553v1
- Date: Mon, 23 Sep 2024 21:17:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 12:23:41.944737
- Title: SOFI: Multi-Scale Deformable Transformer for Camera Calibration with Enhanced Line Queries
- Title(参考訳): SOFI:ラインクエリ強化カメラキャリブレーション用マルチスケール変形可能な変圧器
- Authors: Sebastian Janampa, Marios Pattichis,
- Abstract要約: 我々は、カメラキャリブレットIon用のtextitmulti-Scale defOrmable transFormerを導入し、拡張された行クエリ、SOFIを提案する。
SOFIは、ライン内容とライン幾何学的特徴の両方を用いて、MSC-CとMSCCで使用される行クエリを改善している。
テキストGoogleストリートビュー、WildのテキストHorizon Line、テキストHollicityデータセットの既存のメソッドよりも優れており、競合する推論速度を維持している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera calibration consists of estimating camera parameters such as the zenith vanishing point and horizon line. Estimating the camera parameters allows other tasks like 3D rendering, artificial reality effects, and object insertion in an image. Transformer-based models have provided promising results; however, they lack cross-scale interaction. In this work, we introduce \textit{multi-Scale defOrmable transFormer for camera calibratIon with enhanced line queries}, SOFI. SOFI improves the line queries used in CTRL-C and MSCC by using both line content and line geometric features. Moreover, SOFI's line queries allow transformer models to adopt the multi-scale deformable attention mechanism to promote cross-scale interaction between the feature maps produced by the backbone. SOFI outperforms existing methods on the \textit {Google Street View}, \textit {Horizon Line in the Wild}, and \textit {Holicity} datasets while keeping a competitive inference speed.
- Abstract(参考訳): カメラキャリブレーションは、ゼニス消滅点や地平線などのカメラパラメータを推定する。
カメラパラメータを推定することで、3Dレンダリング、拡張現実効果、画像へのオブジェクト挿入といった他のタスクが可能になる。
トランスフォーマーベースのモデルは有望な結果をもたらしたが、それらはクロススケールな相互作用を欠いている。
本稿では,カメラキャリブレットIonにラインクエリを拡張した SOFI を用いた \textit{multi-Scale defOrmable transFormer を提案する。
SOFI は CTRL-C と MSCC で使用される行クエリをライン内容と行幾何学的特徴の両方を用いて改善する。
さらに、SOFIの行クエリにより、トランスフォーマーモデルは、バックボーンが生成する特徴マップ間のクロススケール相互作用を促進するために、マルチスケールの変形可能なアテンションメカニズムを採用することができる。
SOFIは、競合する推論速度を維持しながら、既存のメソッド、 \textit {Google Street View}、 \textit {Horizon Line in the Wild}、 \textit {Holicity}データセットを上回ります。
関連論文リスト
- TranStable: Towards Robust Pixel-level Online Video Stabilization by Jointing Transformer and CNN [3.0980248517369158]
ビデオの安定化は、しばしば歪みと過剰な収穫に苦しむ。
本稿では,これらの課題に対処する新しいエンドツーエンドフレームワークであるTranStableを提案する。
NUS、DeepStab、Selfieベンチマークの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-01-25T08:51:31Z) - LiFCal: Online Light Field Camera Calibration via Bundle Adjustment [38.2887165481751]
LiFCalは、MLAベースの光フィールドカメラのためのオンラインキャリブレーションパイプラインである。
正確な校正対象のない移動カメラシーケンスからモデルパラメータを正確に決定する。
ターゲットのないシーンに適用可能で、完全な継続的パイプラインでオンラインに実装されている。
論文 参考訳(メタデータ) (2024-08-21T15:04:49Z) - Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - Xformer: Hybrid X-Shaped Transformer for Image Denoising [114.37510775636811]
本稿では,XformerというハイブリッドX字型視覚変換器について紹介する。
Xformerは、合成および実世界の画像復調タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-11T16:32:09Z) - CTRL-C: Camera calibration TRansformer with Line-Classification [22.092637979495358]
そこで我々は,CTRL-Cを用いたカメラキャリブレーションTRansformerを提案する。
我々の実験では、ベンチマーク-CがGoogleストリートビューとSUN360データセットで過去の最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-09-06T06:30:38Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文 参考訳(メタデータ) (2021-05-28T19:08:43Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Infrastructure-based Multi-Camera Calibration using Radial Projections [117.22654577367246]
パターンベースのキャリブレーション技術は、カメラの内在を個別にキャリブレーションするために使用することができる。
Infrastucture-based calibration techniqueはSLAMやStructure-from-Motionで事前に構築した3Dマップを用いて外部情報を推定することができる。
本稿では,インフラストラクチャベースのアプローチを用いて,マルチカメラシステムをスクラッチから完全にキャリブレーションすることを提案する。
論文 参考訳(メタデータ) (2020-07-30T09:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。