論文の概要: Partially Does It: Towards Scene-Level FG-SBIR with Partial Input
- arxiv url: http://arxiv.org/abs/2203.14804v1
- Date: Mon, 28 Mar 2022 14:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 22:30:42.664146
- Title: Partially Does It: Towards Scene-Level FG-SBIR with Partial Input
- Title(参考訳): 部分的に行う:部分入力によるシーンレベルFG-SBIRに向けて
- Authors: Pinaki Nath Chowdhury and Ayan Kumar Bhunia and Viswanatha Reddy
Gajjala and Aneeshan Sain and Tao Xiang and Yi-Zhe Song
- Abstract要約: シーンスケッチのかなりの部分は「部分的」である
そこで我々は,部分認識方式でクロスモーダル領域アソシエーションをモデル化するためのセットベースアプローチを提案する。
提案手法はシーンスケッチ部分に対して頑健なだけでなく,既存のデータセット上での最先端の性能も向上する。
- 参考スコア(独自算出の注目度): 106.59164595640704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We scrutinise an important observation plaguing scene-level sketch research
-- that a significant portion of scene sketches are "partial". A quick pilot
study reveals: (i) a scene sketch does not necessarily contain all objects in
the corresponding photo, due to the subjective holistic interpretation of
scenes, (ii) there exists significant empty (white) regions as a result of
object-level abstraction, and as a result, (iii) existing scene-level
fine-grained sketch-based image retrieval methods collapse as scene sketches
become more partial. To solve this "partial" problem, we advocate for a simple
set-based approach using optimal transport (OT) to model cross-modal region
associativity in a partially-aware fashion. Importantly, we improve upon OT to
further account for holistic partialness by comparing intra-modal adjacency
matrices. Our proposed method is not only robust to partial scene-sketches but
also yields state-of-the-art performance on existing datasets.
- Abstract(参考訳): 我々は、シーンレベルのスケッチ研究を行う重要な観察を精査し、シーンスケッチのかなりの部分が「部分的」であることを示した。
簡単なパイロット研究で
(i)シーンスケッチは、シーンの主観的包括的解釈により、対応する写真に必ずしもすべての対象を含むとは限らない。
(ii)オブジェクトレベルの抽象化の結果、そして結果として、重要な空(白)領域が存在する。
(3)既存のシーンレベルのきめ細かいスケッチに基づく画像検索手法は、シーンスケッチがより部分的になるにつれて崩壊する。
この「部分的」問題を解決するため,我々は,最適輸送(ot)を用いた簡易な集合ベースアプローチを提唱する。
重要なことに, ot を改良し, モーダル内隣接行列との比較により, 全体的部分性をさらに考慮する。
提案手法はシーンスケッチ部分に対して頑健なだけでなく,既存のデータセット上での最先端の性能も向上する。
関連論文リスト
- Multi-Round Region-Based Optimization for Scene Sketching [7.281215486388827]
シーンのスケッチには、シーンのセマンティックな理解と、シーン内の異なる領域の考慮が必要である。
複数のラウンドで入力シーンの異なる領域を最適化する。
新たなCLIPに基づくセマンティック損失とVGGに基づく特徴損失を多ラウンド最適化のガイドに利用した。
論文 参考訳(メタデータ) (2024-10-05T08:04:26Z) - Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - Occ$^2$Net: Robust Image Matching Based on 3D Occupancy Estimation for
Occluded Regions [14.217367037250296]
Occ$2$Netは、3D占有率を用いて閉塞関係をモデル化し、閉塞領域の一致点を推測する画像マッチング手法である。
本手法は実世界とシミュレーションデータセットの両方で評価し,いくつかの指標における最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-14T13:09:41Z) - Learning Unified Decompositional and Compositional NeRF for Editable
Novel View Synthesis [37.98068169673019]
暗黙の神経表現は、現実世界の3Dシーンをモデル化する上で強力な能力を示し、新しいビュー合成において優れた性能を提供している。
本研究では,共同シーンの分解と合成を効果的に行うため,NeRF(Neural Radiance Field)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-05T10:42:05Z) - Deep Reinforced Attention Regression for Partial Sketch Based Image
Retrieval [6.7667046211131066]
Fine-Grained Sketch-Based Image Retrieval (FG-SBIR)は、クエリスケッチを与えられた大きなギャラリーから特定の画像を見つけることを目的としている。
既存のアプローチは、スケッチで不要なストロークのような外部ノイズに敏感でありながら、依然として低い精度で悩まされている。
本稿では,一意に設計された深部強化学習モデルを用いて,部分スケッチトレーニングと注意領域選択に対処する2段階探索を行うフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-21T23:12:51Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Domain-Smoothing Network for Zero-Shot Sketch-Based Image Retrieval [66.37346493506737]
Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR) は、新しいクロスモーダル検索タスクである。
ZS-SBIRのための新しいドメイン・スムーシング・ネットワーク(DSN)を提案する。
我々のアプローチは、SketchyとTU-Berlinの両方のデータセットで最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-06-22T14:58:08Z) - Perspective Plane Program Induction from a Single Image [85.28956922100305]
本研究では,自然画像の全体像を推定する逆グラフ問題について検討する。
我々は、この問題を、入力画像の最もよく記述されたカメラポーズとシーン構造を共同で発見するものとして定式化する。
提案するフレームワークであるP3Iは,探索に基づくアルゴリズムと勾配に基づくアルゴリズムを組み合わせて効率よく問題を解く。
論文 参考訳(メタデータ) (2020-06-25T21:18:58Z) - Self-Supervised Scene De-occlusion [186.89979151728636]
本稿では,隠蔽対象の隠蔽順序を復元し,隠蔽対象の見えない部分を完成させることを目的としたシーン非隠蔽問題について検討する。
そこで本研究では,隠されたシーン構造を監視対象として指示やアモーダルアノテーションを使わずに復元する,新規で統一的なフレームワークを用いて,この問題に対処する試みを行う。
そこで,PCNet-M と PCNet-C をベースとして,プログレッシブ・オーダリング・リカバリ,アモーダル・コンプリーメント,コンテント・コンプリートを通じてシーン・デオクルージョンを実現する新しい推論手法を考案した。
論文 参考訳(メタデータ) (2020-04-06T16:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。