論文の概要: The 8-Point Algorithm as an Inductive Bias for Relative Pose Prediction
by ViTs
- arxiv url: http://arxiv.org/abs/2208.08988v1
- Date: Thu, 18 Aug 2022 17:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-19 13:52:15.376879
- Title: The 8-Point Algorithm as an Inductive Bias for Relative Pose Prediction
by ViTs
- Title(参考訳): ViTによる相対詩予測のための誘導バイアスとしての8点アルゴリズム
- Authors: Chris Rockwell, Justin Johnson, David F. Fouhey
- Abstract要約: 視覚変換器(ViT)にいくつかの修正を加えることで,その計算を8点アルゴリズムに近づけることができることを示す。
この帰納バイアスは、単純なメソッドが複数の設定で競合することを可能にし、多くの場合、限られたデータレシエーションにおいて強力なパフォーマンス向上を持つ技術状況よりも大幅に改善される。
- 参考スコア(独自算出の注目度): 28.620021424963042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a simple baseline for directly estimating the relative pose
(rotation and translation, including scale) between two images. Deep methods
have recently shown strong progress but often require complex or multi-stage
architectures. We show that a handful of modifications can be applied to a
Vision Transformer (ViT) to bring its computations close to the Eight-Point
Algorithm. This inductive bias enables a simple method to be competitive in
multiple settings, often substantially improving over the state of the art with
strong performance gains in limited data regimes.
- Abstract(参考訳): 2つの画像間の相対的なポーズ(回転と変換)を直接推定するための簡単なベースラインを提案する。
ディープメソッドは最近大きく進歩しているが、しばしば複雑なアーキテクチャやマルチステージアーキテクチャを必要とする。
視覚変換器(ViT)にいくつかの修正を加えることで,その計算を8点アルゴリズムに近づけることができることを示す。
この帰納バイアスは、単純なメソッドが複数の設定で競合することを可能にし、多くの場合、限られたデータレシエーションにおいて強力なパフォーマンス向上を持つ技術状況よりも大幅に改善される。
関連論文リスト
- Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - PViT-6D: Overclocking Vision Transformers for 6D Pose Estimation with
Confidence-Level Prediction and Pose Tokens [0.0]
分類トークンのカスタマイズによる直接6次元ポーズ推定のための視覚変換器の機能について検討する。
また、ほとんどの6次元ポーズ推定フレームワークに簡単に組み込むことができる、ポーズの信頼度を決定するための簡単な方法も導入する。
論文 参考訳(メタデータ) (2023-11-29T10:27:56Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - CroCo v2: Improved Cross-view Completion Pre-training for Stereo
Matching and Optical Flow [22.161967080759993]
自己教師付き事前学習法は、ステレオマッチングや光学フローのような密集した幾何学的視覚タスクでは、まだ提供されていない。
我々は、同じシーンから2番目のビューを利用するマスク付き画像モデリングのバリエーションである、最近のクロスビュー補完フレームワークの上に構築する。
本稿では,ステレオマッチングと光学的流れに関する最先端の成果を,従来のタスク固有の手法を使わずに到達できることを初めて示す。
論文 参考訳(メタデータ) (2022-11-18T18:18:53Z) - Scaling Multimodal Pre-Training via Cross-Modality Gradient
Harmonization [68.49738668084693]
自己教師付き事前学習は、最近、大規模マルチモーダルデータで成功している。
クロスモダリティアライメント(CMA)は、弱くノイズの多い監視である。
CMAは、モダリティ間の衝突や偏見を引き起こす可能性がある。
論文 参考訳(メタデータ) (2022-11-03T18:12:32Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Cosine meets Softmax: A tough-to-beat baseline for visual grounding [17.316608734530124]
本フレームワークは,テキスト埋め込みによる複数画像ROI特徴間のコサイン距離におけるクロスエントロピー損失を最小限に抑える。
Talk2Carデータセットで実験を行い、68.7%のAP50精度を実現した。
論文 参考訳(メタデータ) (2020-09-13T19:35:43Z) - End-to-end Interpretable Learning of Non-blind Image Deblurring [102.75982704671029]
非ブラインド画像のデブロワーリングは、通常、対応するシャープ画像の勾配に関する自然の先行によって正規化される線形最小二乗問題として定式化される。
本稿では,(既知の)ぼかしと自然像前のカーネルの逆フィルタを用いて,リチャードソン解法を事前条件として提案する。
論文 参考訳(メタデータ) (2020-07-03T15:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。