Fugu-MT 論文翻訳(概要): EAGLE: Efficient Adaptive Geometry-based Learning in Cross-view Understanding

論文の概要: EAGLE: Efficient Adaptive Geometry-based Learning in Cross-view Understanding

arxiv url: http://arxiv.org/abs/2406.01429v2
Date: Fri, 11 Oct 2024 14:49:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:51:16.699238
Title: EAGLE: Efficient Adaptive Geometry-based Learning in Cross-view Understanding
Title（参考訳）: EAGLE: クロスビュー理解における適応幾何学に基づく効率的な学習
Authors: Thanh-Dat Truong, Utsav Prabhu, Dongyi Wang, Bhiksha Raj, Susan Gauch, Jeyamkondan Subbiah, Khoa Luu,
Abstract要約: セマンティックシーン理解におけるビュー間の幾何学的構造変化をモデル化するための,教師なしクロスビュー適応学習手法を提案する。まず,カメラ間における画像やセグメンテーションマスクの構造変化をモデル化するための,非ペアデータに関するクロスビュー幾何学的制約を提案する。第2に、カメラビュー間の幾何学的構造変化を効率的に測定するための、新しい測地流に基づく相関指標を提案する。第3に、クロスビュー適応学習において、オープン語彙セグメンテーションネットワークのビュー情報モデリングを強化するために、新しいビュー条件プロンプト機構を導入する。
参考スコア（独自算出の注目度）: 26.180056168428905
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unsupervised Domain Adaptation has been an efficient approach to transferring the semantic segmentation model across data distributions. Meanwhile, the recent Open-vocabulary Semantic Scene understanding based on large-scale vision language models is effective in open-set settings because it can learn diverse concepts and categories. However, these prior methods fail to generalize across different camera views due to the lack of cross-view geometric modeling. At present, there are limited studies analyzing cross-view learning. To address this problem, we introduce a novel Unsupervised Cross-view Adaptation Learning approach to modeling the geometric structural change across views in Semantic Scene Understanding. First, we introduce a novel Cross-view Geometric Constraint on Unpaired Data to model structural changes in images and segmentation masks across cameras. Second, we present a new Geodesic Flow-based Correlation Metric to efficiently measure the geometric structural changes across camera views. Third, we introduce a novel view-condition prompting mechanism to enhance the view-information modeling of the open-vocabulary segmentation network in cross-view adaptation learning. The experiments on different cross-view adaptation benchmarks have shown the effectiveness of our approach in cross-view modeling, demonstrating that we achieve State-of-the-Art (SOTA) performance compared to prior unsupervised domain adaptation and open-vocabulary semantic segmentation methods.
Abstract（参考訳）: 教師なしドメイン適応は、データ分散間でセマンティックセグメンテーションモデルを転送する効率的なアプローチである。一方、大規模視覚言語モデルに基づく最近のオープン語彙セマンティックシーン理解は、多様な概念やカテゴリを学習できるため、オープンセット設定に有効である。しかし、これらの先行手法は、クロスビュー幾何モデリングが欠如しているため、異なるカメラビューをまたいだ一般化に失敗する。現在、クロスビュー学習の分析は限られている。この問題を解決するために,セマンティックシーン理解におけるビュー間の幾何学的構造変化をモデル化するための,教師なしクロスビュー適応学習手法を提案する。まず,カメラ間における画像やセグメンテーションマスクの構造変化をモデル化するための,非ペアデータに関するクロスビュー幾何学的制約を提案する。第2に、カメラビュー間の幾何学的構造変化を効率的に測定するための、新しい測地流に基づく相関指標を提案する。第3に、クロスビュー適応学習において、オープン語彙セグメンテーションネットワークのビュー情報モデリングを強化するために、新しいビュー条件プロンプト機構を導入する。本研究では,従来の教師なし領域適応やオープンボキャブラリセマンティックセマンティックセグメンテーション手法と比較して,SOTA(State-of-the-Art)の性能を達成できることを実証した。

関連論文リスト

CAMEO: Correspondence-Attention Alignment for Multi-View Diffusion Models [40.39688162159242]
マルチビュー拡散モデルは、近年、新しいビュー合成の強力なパラダイムとして出現している。本稿では,幾何学的対応を用いた注意図を直接監督する学習手法であるCAMEOを紹介する。 CAMEOはモデルに依存しず,任意の多視点拡散モデルに適用可能であることを実証する。
論文参考訳（メタデータ） (2025-12-02T18:59:57Z)
Cross-View Open-Vocabulary Object Detection in Aerial Imagery [48.851422992413184]
本研究では,地上画像からオープン語彙表現を適応させる新しい枠組みを提案し,空中画像における物体検出の課題を解決した。コントラスト画像と画像のアライメントを導入し、空中と地上の埋め込みの類似性を高める。我々のオープン語彙モデルは、DOTAv2上の+6.32 mAP、VisDrone上の+4.16 mAP、ゼロショット設定時のHRRSD上の+3.46 mAPの改善を実現する。
論文参考訳（メタデータ） (2025-10-04T16:12:03Z)
Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation [62.87088388345378]
ワーピング・アンド・インペインティング手法を用いて,新しいビューイメージと幾何学生成の整合性を実現する拡散型フレームワークを提案する。手法は、既製の幾何学予測器を利用して、参照画像から見る部分的な幾何学を予測する。生成した画像と幾何の正確なアライメントを確保するために, クロスモーダルアテンション蒸留法を提案する。
論文参考訳（メタデータ） (2025-06-13T16:19:00Z)
Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。残る技術的課題や倫理的考察も分析する。
論文参考訳（メタデータ） (2025-06-05T05:42:27Z)
DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion [53.70278210626701]
マルチビュー画像から3次元シーン形状とカメラポーズを直接推定するデータ駆動型マルチビュー推論手法を提案する。我々のフレームワークであるDiffusionSfMは、シーン幾何学とカメラを、グローバルフレーム内のピクセルワイズ線源とエンドポイントとしてパラメータ化します。我々は、DiffusionSfMを合成データセットと実データセットの両方で実証的に検証し、古典的および学習ベースのアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-05-08T17:59:47Z)
Robust Scene Change Detection Using Visual Foundation Models and Cross-Attention Mechanisms [27.882122236282054]
本稿では,視覚基礎モデルDINOv2の頑健な特徴抽出機能を活用したシーン変化検出手法を提案する。我々は,VL-CMU-CDとPSCDの2つのベンチマークデータセットに対するアプローチと,その視点評価バージョンについて検討した。実験では,F1スコアにおいて,特に画像ペア間の幾何学的変化を伴うシナリオにおいて,顕著な改善が示された。
論文参考訳（メタデータ） (2024-09-25T11:55:27Z)
Deep ContourFlow: Advancing Active Contours with Deep Learning [3.9948520633731026]
画像分割のための教師なしとワンショットの両方のアプローチのためのフレームワークを提案する。広範なラベル付きトレーニングデータを必要とせずに、複雑なオブジェクト境界をキャプチャできる。これは特に、注釈の不足に直面している分野である歴史学において必要である。
論文参考訳（メタデータ） (2024-07-15T13:12:34Z)
Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
インコンテキストセグメンテーションは、与えられた参照画像を使ってオブジェクトをセグメンテーションすることを目的としている。既存のほとんどのアプローチでは、視覚的プロンプトと入力画像クエリの相関を構築するために、メトリックラーニングやマスク付きイメージモデリングを採用しています。この研究は、新しい視点から問題にアプローチし、コンテキスト内セグメンテーションのための潜在拡散モデルの能力を解き放つ。
論文参考訳（メタデータ） (2024-03-14T17:52:31Z)
Masked Modeling for Self-supervised Representation Learning on Vision and Beyond [69.64364187449773]
仮面モデリングは、トレーニング中に比例的にマスキングされる元のデータの一部を予測する、独特なアプローチとして現れてきた。マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。我々は、現在の手法の限界について議論し、マスクモデリング研究を進めるためのいくつかの道のりを指摘した。
論文参考訳（メタデータ） (2023-12-31T12:03:21Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
Learning Transformations To Reduce the Geometric Shift in Object Detection [60.20931827772482]
画像キャプチャプロセスの変動から生じる幾何シフトに対処する。我々は、これらのシフトを最小限に抑えるために幾何変換の集合を学習する自己学習アプローチを導入する。我々は,カメラの視野変化(FoV)と視点変化(視点変化)の2つの異なるシフトについて,本手法の評価を行った。
論文参考訳（メタデータ） (2023-01-13T11:55:30Z)
Internal Representations of Vision Models Through the Lens of Frames on Data Manifolds [8.67467876089153]
多様体の接束上のフレームの概念から着想を得た、そのような表現を研究するための新しいアプローチを提案する。私たちの構成は、ニューラルネットワークフレームと呼ばれ、データポイントの特定の種類の摂動を表すベクトルの集合を組み立てることによって形成されます。ニューラルフレームを用いて、データポイントの小さな近傍でモデル、層間、特定の変動モードの処理方法について観察する。
論文参考訳（メタデータ） (2022-11-19T01:48:19Z)
Cross-view Geo-localization with Evolving Transformer [7.5800316275498645]
クロスビューなジオローカライゼーションは、視界の劇的な外観と幾何学的差異のために困難である。本研究では,Transformerにおける自己アテンションの特性を利用してグローバルな依存関係をモデル化する新しいジオローカライゼーショントランスフォーマー(EgoTR)を提案する。我々のEgoTRは、標準的な、きめ細かな、そして、クロスデータセットなジオローカライゼーションタスクにおいて、最先端の手法に対して好意的に機能する。
論文参考訳（メタデータ） (2021-07-02T05:33:14Z)
Context Decoupling Augmentation for Weakly Supervised Semantic Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文参考訳（メタデータ） (2021-03-02T15:05:09Z)
Transformer Guided Geometry Model for Flow-Based Unsupervised Visual Odometry [38.20137500372927]
対画像からの情報を扱う2つのカメラポーズ推定器からなる手法を提案する。画像シーケンスでは、Transformerライクな構造を採用して、局所的な時間ウィンドウ上にジオメトリモデルを構築する。対向画像間の関係を利用するために,f2fpe(flow-to-flow pose estimator)を提案する。
論文参考訳（メタデータ） (2020-12-08T19:39:26Z)
Weakly supervised cross-domain alignment with optimal transport [102.8572398001639]
画像オブジェクトとテキストシーケンス間のクロスドメインアライメントは多くの視覚言語タスクの鍵となる。本稿では,画像とテキスト間の微粒な意味的類似点の同定と最適化のための新しいアプローチについて検討する。
論文参考訳（メタデータ） (2020-08-14T22:48:36Z)
Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-07-31T03:48:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。