論文の概要: Instruct2See: Learning to Remove Any Obstructions Across Distributions
- arxiv url: http://arxiv.org/abs/2505.17649v1
- Date: Fri, 23 May 2025 09:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.94861
- Title: Instruct2See: Learning to Remove Any Obstructions Across Distributions
- Title(参考訳): Instruct2See: ディストリビューション全体の障害を取り除くことを学ぶ
- Authors: Junhang Li, Yu Guo, Chuhua Xian, Shengfeng He,
- Abstract要約: Instruct2Seeは、目に見えない障害と見えない障害の両方を扱うことができる新しいフレームワークである。
本手法の中核となる考え方は,軟弱マスク修復問題として扱うことにより,閉塞除去を統一することである。
調整可能なマスクアダプタは、ダイナミックなソフトマスクが可能で、不正確なマスクをリアルタイムに調整することができる。
- 参考スコア(独自算出の注目度): 28.298081534934756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Images are often obstructed by various obstacles due to capture limitations, hindering the observation of objects of interest. Most existing methods address occlusions from specific elements like fences or raindrops, but are constrained by the wide range of real-world obstructions, making comprehensive data collection impractical. To overcome these challenges, we propose Instruct2See, a novel zero-shot framework capable of handling both seen and unseen obstacles. The core idea of our approach is to unify obstruction removal by treating it as a soft-hard mask restoration problem, where any obstruction can be represented using multi-modal prompts, such as visual semantics and textual instructions, processed through a cross-attention unit to enhance contextual understanding and improve mode control. Additionally, a tunable mask adapter allows for dynamic soft masking, enabling real-time adjustment of inaccurate masks. Extensive experiments on both in-distribution and out-of-distribution obstacles show that Instruct2See consistently achieves strong performance and generalization in obstruction removal, regardless of whether the obstacles were present during the training phase. Code and dataset are available at https://jhscut.github.io/Instruct2See.
- Abstract(参考訳): 画像はしばしば、キャプチャの制限によって様々な障害物によって妨害され、興味のある物体の観察を妨げる。
既存のほとんどの方法はフェンスや雨滴のような特定の要素からの隠蔽に対処するが、現実世界の幅広い障害に制約され、包括的なデータ収集は実行不可能である。
これらの課題を克服するために、目に見えない障害物と見えない障害物の両方を扱える新しいゼロショットフレームワークであるInstruct2Seeを提案する。
本手法の中核となる考え方は,視覚的意味論やテキストによる指示といったマルチモーダルなプロンプトを用いて障害を表現できるソフトハードマスク復元問題として扱うことにより,障害除去を統一し,コンテキスト理解とモード制御を改善することである。
さらに、調整可能なマスクアダプタは、ダイナミックなソフトマスキングを可能にし、不正確なマスクのリアルタイム調整を可能にする。
Instruct2Seeは, トレーニング期間中に障害物が存在するかどうかに関わらず, 閉塞除去における強い性能と一般化を連続的に達成することを示す。
コードとデータセットはhttps://jhscut.github.io/Instruct2Seeで入手できる。
関連論文リスト
- ControlFill: Spatially Adjustable Image Inpainting from Prompt Learning [0.9790236766474201]
textitControlFillという,2つの異なるプロンプトをトレーニングするインペイントフレームワークを紹介します。
推論段階において、これらの学習された埋め込みは、重いテキストエンコーダを必要とせずに動作する拡散ネットワークを誘導する。
論文 参考訳(メタデータ) (2025-03-06T09:57:26Z) - FIRM: Flexible Interactive Reflection reMoval [75.38207315080624]
本稿では,フレキシブル・インタラクティブ・イメージ・リフレクション・リモーバルのための新しいフレームワークFIRMを提案する。
提案するフレームワークは,従来の対話的手法で必要とされるガイダンス時間の10%しか必要としない。
実世界のリフレクション除去データセットの結果から,提案手法が最先端のリフレクション除去性能を示すことが確認された。
論文 参考訳(メタデータ) (2024-06-03T17:34:37Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Attention Disturbance and Dual-Path Constraint Network for Occluded
Person Re-identification [36.86516784815214]
本稿では,アテンションネットワークの一般化を促進するために,トランスフォーマーに基づくアテンション障害とデュアルパス制約ネットワーク(ADP)を提案する。
実世界の障害物を模倣するため,攻撃音を発生させるアテンション外乱マスク(ADM)モジュールを導入する。
我々はまた、全体像から望ましい監視情報を得ることができるデュアルパス制約モジュール(DPC)を開発した。
論文 参考訳(メタデータ) (2023-03-20T09:56:35Z) - Gait Recognition with Mask-based Regularization [31.901166591272464]
本稿では,ReverseMaskというマスクを用いた新しい正規化手法を提案する。
特徴マップをインジェクトすることにより,提案手法は,畳み込みアーキテクチャが識別表現を学習するのに役立つ。
プラグアンドプレイ インセプションのようなReverseMaskブロックは、ネットワークを一般化するのにシンプルで効果的である。
論文 参考訳(メタデータ) (2022-03-08T12:13:29Z) - Image Inpainting by End-to-End Cascaded Refinement with Mask Awareness [66.55719330810547]
任意の欠落領域を塗りつぶすことは、様々なマスクされた領域で有効な特徴を学ぶことは非自明だから難しい。
符号化フェーズにおける欠落領域のマルチスケール特徴を学習する新しいマスク対応インペイントソリューションを提案する。
私たちのフレームワークは、3つの公開データセットに関する広範な実験を通じて定量的および定性的に検証されます。
論文 参考訳(メタデータ) (2021-04-28T13:17:47Z) - Self-Supervised Scene De-occlusion [186.89979151728636]
本稿では,隠蔽対象の隠蔽順序を復元し,隠蔽対象の見えない部分を完成させることを目的としたシーン非隠蔽問題について検討する。
そこで本研究では,隠されたシーン構造を監視対象として指示やアモーダルアノテーションを使わずに復元する,新規で統一的なフレームワークを用いて,この問題に対処する試みを行う。
そこで,PCNet-M と PCNet-C をベースとして,プログレッシブ・オーダリング・リカバリ,アモーダル・コンプリーメント,コンテント・コンプリートを通じてシーン・デオクルージョンを実現する新しい推論手法を考案した。
論文 参考訳(メタデータ) (2020-04-06T16:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。