論文の概要: LV-OSD: Language-Vision-Complementary Open-Set Object Detection
- arxiv url: http://arxiv.org/abs/2605.28271v1
- Date: Wed, 27 May 2026 10:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.963778
- Title: LV-OSD: Language-Vision-Complementary Open-Set Object Detection
- Title(参考訳): LV-OSD:LV-Vision-Complementary Open-Set Object Detection
- Authors: Yupeng Zhang, Ruize Han, Wei Feng, Song Wang, Liang Wan,
- Abstract要約: 我々はLV-OSD(Language-visual-complementary Open-set Object Detection)の新たな問題を提案する。
フレキシブルテキストベースおよび/または画像ベースプロンプトを使用して、所望のオブジェクトカテゴリを指定する。
この設定は現実世界のアプリケーションではより一般的で実践的です。
- 参考スコア(独自算出の注目度): 35.3832220318018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection is an important task in computer vision, which aims to detect the objects of interest. through the given category list or query images. In this work, we propose a new problem of language-visual-complementary open-set object detection (LV-OSD), i.e., using the flexible text-based and/or image-based prompts to specify the desired object categories. This setting is more common and practical in real-world applications. For this purpose, we design a dual-branch detection framework, LVDor, which can simultaneously accept both text and image prompts. Specifically, we first build the Multi-modal Prompts (MPr) containing various text descriptions and image samples for each category. Subsequently, to bridge the semantic gap among the input image, text prompts, and image prompts, we design a Target-guided Prompt Dynamic Weighting (TPDW) module. Guided by the prior information of the target image, this module dynamically produces the text and image prompts that best align with the target semantics, achieving precise alignment and effectively reducing the discrepancy between the two modalities, thereby accommodating the LV-OSD setting. We also propose a simple Prompt Random Masking (PRM) mechanism during training to simulate the arbitrary combination of text and/or image prompts in testing. Extensive experimental results verify our problem formulation's reasonability and our method's effectiveness. Prompts and code will be released publicly.
- Abstract(参考訳): 物体検出はコンピュータビジョンにおいて重要な課題であり、興味のある物体を検出することを目的としている。
カテゴリリストや クェリイメージを通じてです
本研究では,言語-視覚的オープンセットオブジェクト検出(LV-OSD)の新たな問題,すなわち,フレキシブルテキストベースおよび/または画像ベースプロンプトを用いて,所望のオブジェクトカテゴリを指定することを提案する。
この設定は現実世界のアプリケーションではより一般的で実践的です。
そこで本研究では,テキストと画像の両方を同時に受信可能なデュアルブランチ検出フレームワークLVDorを設計する。
具体的には,まず,各カテゴリのテキスト記述と画像サンプルを含むMPr(Multi-modal Prompts)を構築する。
その後、入力画像、テキストプロンプト、画像プロンプト間のセマンティックギャップを埋めるために、ターゲット誘導プロンプト動的重み付け(TPDW)モジュールを設計する。
このモジュールは、対象画像の事前情報に基づいて動的にテキストを生成し、ターゲットセマンティクスと最良に整合し、正確なアライメントを実現し、2つのモダリティ間の差を効果的に低減し、LV−OSD設定を調節する。
また,テスト時にテキストと画像の任意の組み合わせをシミュレートするために,簡単なPRM(Prompt Random Masking)機構を提案する。
大規模実験により,問題定式化の理性および方法の有効性が検証された。
プロンプトとコードは公開されます。
関連論文リスト
- MCoT-MVS: Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning for Composed Image Retrieval [23.52156477012636]
Composed Image Retrieval (CIR) は、参照画像と修正されたテキストに基づいてターゲット画像を取得することを目的としている。
CIRのためのMCoT-MVS(Multi-level Vision Selection)を提案する。
論文 参考訳(メタデータ) (2026-03-18T04:49:19Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.13782704236074]
視覚的および言語的表現を完全に活用するために,新しい参照リモートセンシング画像分割法を提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - Test-time Contrastive Concepts for Open-world Semantic Segmentation with Vision-Language Models [14.899741072838994]
最近のCLIP-like Vision-Language Models (VLM)は、大量の画像テキストペアで事前訓練され、オープン語彙セマンティックセマンティックセグメンテーションへの道を開いた。
本稿では,クエリ固有のテキストコントラストの概念を自動生成する2つのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-06T12:18:43Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding [40.24656027709833]
生のテキストクエリで条件付き画像中のオブジェクトを検出するエンドツーエンド変調検出器 MDETR を提案する。
モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。
GQAおよびCLEVR上での競合性能を達成することで,視覚的質問応答を容易に拡張することができる。
論文 参考訳(メタデータ) (2021-04-26T17:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。