論文の概要: EAGLE: Efficient Adaptive Geometry-based Learning in Cross-view Understanding
- arxiv url: http://arxiv.org/abs/2406.01429v1
- Date: Mon, 3 Jun 2024 15:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:30:12.283569
- Title: EAGLE: Efficient Adaptive Geometry-based Learning in Cross-view Understanding
- Title(参考訳): EAGLE: クロスビュー理解における適応幾何学に基づく効率的な学習
- Authors: Thanh-Dat Truong, Utsav Prabhu, Dongyi Wang, Bhiksha Raj, Susan Gauch, Jeyamkondan Subbiah, Khoa Luu,
- Abstract要約: セマンティックシーン理解におけるビュー間の幾何学的構造変化をモデル化するための,教師なしクロスビュー適応学習手法を提案する。
まず,カメラ間における画像やセグメンテーションマスクの構造変化をモデル化するための,非ペアデータに関するクロスビュー幾何学的制約を提案する。
第2に、カメラビュー間の幾何学的構造変化を効率的に測定するための、新しい測地流に基づく相関指標を提案する。
第3に、クロスビュー適応学習において、オープン語彙セグメンテーションネットワークのビュー情報モデリングを強化するために、新しいビュー条件プロンプト機構を導入する。
- 参考スコア(独自算出の注目度): 26.180056168428905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised Domain Adaptation has been an efficient approach to transferring the semantic segmentation model across data distributions. Meanwhile, the recent Open-vocabulary Semantic Scene understanding based on large-scale vision language models is effective in open-set settings because it can learn diverse concepts and categories. However, these prior methods fail to generalize across different camera views due to the lack of cross-view geometric modeling. At present, there are limited studies analyzing cross-view learning. To address this problem, we introduce a novel Unsupervised Cross-view Adaptation Learning approach to modeling the geometric structural change across views in Semantic Scene Understanding. First, we introduce a novel Cross-view Geometric Constraint on Unpaired Data to model structural changes in images and segmentation masks across cameras. Second, we present a new Geodesic Flow-based Correlation Metric to efficiently measure the geometric structural changes across camera views. Third, we introduce a novel view-condition prompting mechanism to enhance the view-information modeling of the open-vocabulary segmentation network in cross-view adaptation learning. The experiments on different cross-view adaptation benchmarks have shown the effectiveness of our approach in cross-view modeling, demonstrating that we achieve State-of-the-Art (SOTA) performance compared to prior unsupervised domain adaptation and open-vocabulary semantic segmentation methods.
- Abstract(参考訳): 教師なしドメイン適応は、データ分散間でセマンティックセグメンテーションモデルを転送する効率的なアプローチである。
一方、大規模視覚言語モデルに基づく最近のオープン語彙セマンティックシーン理解は、多様な概念やカテゴリを学習できるため、オープンセット設定に有効である。
しかし、これらの先行手法は、クロスビュー幾何モデリングが欠如しているため、異なるカメラビューをまたいだ一般化に失敗する。
現在、クロスビュー学習の分析は限られている。
この問題を解決するために,セマンティックシーン理解におけるビュー間の幾何学的構造変化をモデル化するための,教師なしクロスビュー適応学習手法を提案する。
まず,カメラ間における画像やセグメンテーションマスクの構造変化をモデル化するための,非ペアデータに関するクロスビュー幾何学的制約を提案する。
第2に、カメラビュー間の幾何学的構造変化を効率的に測定するための、新しい測地流に基づく相関指標を提案する。
第3に、クロスビュー適応学習において、オープン語彙セグメンテーションネットワークのビュー情報モデリングを強化するために、新しいビュー条件プロンプト機構を導入する。
本研究では,従来の教師なし領域適応やオープンボキャブラリセマンティックセマンティックセグメンテーション手法と比較して,SOTA(State-of-the-Art)の性能を達成できることを実証した。
関連論文リスト
- Robust Scene Change Detection Using Visual Foundation Models and Cross-Attention Mechanisms [27.882122236282054]
本稿では,視覚基礎モデルDINOv2の頑健な特徴抽出機能を活用したシーン変化検出手法を提案する。
我々は,VL-CMU-CDとPSCDの2つのベンチマークデータセットに対するアプローチと,その視点評価バージョンについて検討した。
実験では,F1スコアにおいて,特に画像ペア間の幾何学的変化を伴うシナリオにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2024-09-25T11:55:27Z) - Deep ContourFlow: Advancing Active Contours with Deep Learning [3.9948520633731026]
画像分割のための教師なしとワンショットの両方のアプローチのためのフレームワークを提案する。
広範なラベル付きトレーニングデータを必要とせずに、複雑なオブジェクト境界をキャプチャできる。
これは特に、注釈の不足に直面している分野である歴史学において必要である。
論文 参考訳(メタデータ) (2024-07-15T13:12:34Z) - Masked Modeling for Self-supervised Representation Learning on Vision
and Beyond [69.64364187449773]
仮面モデリングは、トレーニング中に比例的にマスキングされる元のデータの一部を予測する、独特なアプローチとして現れてきた。
マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。
我々は、現在の手法の限界について議論し、マスクモデリング研究を進めるためのいくつかの道のりを指摘した。
論文 参考訳(メタデータ) (2023-12-31T12:03:21Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Learning Transformations To Reduce the Geometric Shift in Object
Detection [60.20931827772482]
画像キャプチャプロセスの変動から生じる幾何シフトに対処する。
我々は、これらのシフトを最小限に抑えるために幾何変換の集合を学習する自己学習アプローチを導入する。
我々は,カメラの視野変化(FoV)と視点変化(視点変化)の2つの異なるシフトについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-13T11:55:30Z) - Internal Representations of Vision Models Through the Lens of Frames on
Data Manifolds [8.67467876089153]
多様体の接束上のフレームの概念から着想を得た、そのような表現を研究するための新しいアプローチを提案する。
私たちの構成は、ニューラルネットワークフレームと呼ばれ、データポイントの特定の種類の摂動を表すベクトルの集合を組み立てることによって形成されます。
ニューラルフレームを用いて、データポイントの小さな近傍でモデル、層間、特定の変動モードの処理方法について観察する。
論文 参考訳(メタデータ) (2022-11-19T01:48:19Z) - Cross-view Geo-localization with Evolving Transformer [7.5800316275498645]
クロスビューなジオローカライゼーションは、視界の劇的な外観と幾何学的差異のために困難である。
本研究では,Transformerにおける自己アテンションの特性を利用してグローバルな依存関係をモデル化する新しいジオローカライゼーショントランスフォーマー(EgoTR)を提案する。
我々のEgoTRは、標準的な、きめ細かな、そして、クロスデータセットなジオローカライゼーションタスクにおいて、最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2021-07-02T05:33:14Z) - Context Decoupling Augmentation for Weakly Supervised Semantic
Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。
本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。
提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文 参考訳(メタデータ) (2021-03-02T15:05:09Z) - Transformer Guided Geometry Model for Flow-Based Unsupervised Visual
Odometry [38.20137500372927]
対画像からの情報を扱う2つのカメラポーズ推定器からなる手法を提案する。
画像シーケンスでは、Transformerライクな構造を採用して、局所的な時間ウィンドウ上にジオメトリモデルを構築する。
対向画像間の関係を利用するために,f2fpe(flow-to-flow pose estimator)を提案する。
論文 参考訳(メタデータ) (2020-12-08T19:39:26Z) - Weakly supervised cross-domain alignment with optimal transport [102.8572398001639]
画像オブジェクトとテキストシーケンス間のクロスドメインアライメントは多くの視覚言語タスクの鍵となる。
本稿では,画像とテキスト間の微粒な意味的類似点の同定と最適化のための新しいアプローチについて検討する。
論文 参考訳(メタデータ) (2020-08-14T22:48:36Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。