論文の概要: Bayesian Decision Making to Localize Visual Queries in 2D
- arxiv url: http://arxiv.org/abs/2305.17611v1
- Date: Sun, 28 May 2023 02:38:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 17:58:45.383291
- Title: Bayesian Decision Making to Localize Visual Queries in 2D
- Title(参考訳): ビジュアルクエリを2次元でローカライズするベイズ決定法
- Authors: Syed Asjad, Aniket Gupta, Hanumant Singh
- Abstract要約: 提案手法は, ベースラインの地域提案ネットワーク (RPN) から, 視覚的作物と提案される境界ボックスとの類似度が高いために発生する偽陽性 (FP) の数を減らすことを目的としている。
提案手法は,従来の信念として用いられる高次元の類似性を決定するためにトランスフォーマーを用いる。
結果は,シムズヘッドの低次元の類似度と組み合わせて測定を行い,提案した境界箱との視覚的作物の最終的な類似度を決定するために,後部を生成する。
- 参考スコア(独自算出の注目度): 0.3867363075280544
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This report describes our approach for the EGO4D 2023 Visual Query 2D
Localization Challenge. Our method aims to reduce the number of False Positives
(FP) that occur because of high similarity between the visual crop and the
proposed bounding boxes from the baseline's Region Proposal Network (RPN). Our
method uses a transformer to determine similarity in higher dimensions which is
used as our prior belief. The results are then combined together with the
similarity in lower dimensions from the Siamese Head, acting as our
measurement, to generate a posterior which is then used to determine the final
similarity of the visual crop with the proposed bounding box. Our code is
publicly available $\href{https://github.com/s-m-asjad/EGO4D_VQ2D}{here}$.
- Abstract(参考訳): 本稿では,EGO4D 2023 Visual Query 2D Localization Challengeに対する我々のアプローチについて述べる。
本手法は,視覚的作物と提案する境界ボックスとの類似性が高いために生じる偽陽性(FP)の数を,ベースラインの地域提案ネットワーク(RPN)から削減することを目的としている。
提案手法は,より高次元の類似性を決定するためにトランスフォーマを用いている。
結果は,シムズヘッドの低次元の類似度と組み合わせて測定を行い,提案した境界箱との視覚的作物の最終的な類似度を決定するために,後部を生成する。
私たちのコードは$\href{https://github.com/s-m-asjad/ego4d_vq2d}{here}$です。
関連論文リスト
- Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - As-Plausible-As-Possible: Plausibility-Aware Mesh Deformation Using 2D Diffusion Priors [25.06460752634955]
本稿では2次元拡散を利用したAs-Plausible-as-Possible(APAP)メッシュ変形手法を提案する。
我々のフレームワークは、メッシュの変形を表現するために、顔ごとのジャコビアンを用いており、メッシュ座標は微分可能なPoisson Solveによって計算される。
変形メッシュを描画し、得られた2D画像をスコア蒸留サンプリング(SDS)プロセスで使用することにより、事前訓練された2D拡散モデルから有意義な可視性を抽出することができる。
論文 参考訳(メタデータ) (2023-11-28T12:35:13Z) - RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - Explicit Correspondence Matching for Generalizable Neural Radiance
Fields [49.49773108695526]
本稿では,新たな未知のシナリオに一般化し,2つのソースビューで新規なビュー合成を行う新しいNeRF手法を提案する。
明瞭な対応マッチングは、異なるビュー上の3Dポイントの2次元投影でサンプリングされた画像特徴間のコサイン類似度と定量化される。
実験では,実験結果から得られたコサイン特徴の類似性と体積密度との間に強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-04-24T17:46:01Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - Deep Active Contours Using Locally Controlled Distance Vector Flow [0.0]
ACM(Active Contours Model)はコンピュータビジョンや画像処理に広く使われている。
CNNは、輪郭の進化と画像のセグメンテーションの過程でユーザーを置き換えるアクティブな輪郭と組み合わせています。
論文 参考訳(メタデータ) (2021-05-18T11:38:01Z) - DeepI2P: Image-to-Point Cloud Registration via Deep Classification [71.3121124994105]
DeepI2Pは、イメージとポイントクラウドの間のクロスモダリティ登録のための新しいアプローチです。
本手法は,カメラとライダーの座標フレーム間の相対的剛性変換を推定する。
登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。
論文 参考訳(メタデータ) (2021-04-08T04:27:32Z) - Predicting Visual Overlap of Images Through Interpretable Non-Metric Box
Embeddings [29.412748394892105]
本稿では,大規模空間における探索を本質的に検索に削減する,解釈可能な画像埋め込みを提案する。
この埋め込みによって、よりシンプルで、高速で、人間によって解釈可能な画像マッチング結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-13T10:01:07Z) - Weakly Supervised Generative Network for Multiple 3D Human Pose
Hypotheses [74.48263583706712]
単一画像からの3次元ポーズ推定は、欠落した深さのあいまいさに起因する逆問題である。
逆問題に対処するために,弱い教師付き深層生成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:26:01Z) - Pixel-Pair Occlusion Relationship Map(P2ORM): Formulation, Inference &
Application [20.63938300312815]
2次元画像における幾何学的閉塞に関する概念(意味論を無視する)を定式化する。
本稿では, 画素対閉塞関係を用いて, 閉塞境界と閉塞方向の両方を統一的に定式化することを提案する。
各種データセットの実験により,本手法が既存の手法よりも優れていることが示された。
また,最新のモノクル深度推定法の性能を一貫して向上する新しい深度マップの改良手法を提案する。
論文 参考訳(メタデータ) (2020-07-23T15:52:09Z) - Indoor Layout Estimation by 2D LiDAR and Camera Fusion [3.2387553628943535]
本稿では,画像列とLiDARデータセットの融合による屋内レイアウト推定と再構築のためのアルゴリズムを提案する。
提案システムでは,2次元LiDAR情報とインテンシティ画像の両方を移動プラットフォームで収集する。
論文 参考訳(メタデータ) (2020-01-15T16:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。