論文の概要: T-Rex-Omni: Integrating Negative Visual Prompt in Generic Object Detection
- arxiv url: http://arxiv.org/abs/2511.08997v1
- Date: Thu, 13 Nov 2025 01:24:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.349025
- Title: T-Rex-Omni: Integrating Negative Visual Prompt in Generic Object Detection
- Title(参考訳): T-Rex-Omni:ジェネリックオブジェクト検出における負の視覚プロンプトの統合
- Authors: Jiazhou Zhou, Qing Jiang, Kanghao Chen, Lutao Jiang, Yuanhuiyi Lyu, Ying-Cong Chen, Lei Zhang,
- Abstract要約: T-Rex-Omniは、負の視覚的プロンプトを組み込んだ新しいフレームワークである。
その結果,ゼロショット検出性能が著しく向上し,視覚的プロンプト法とテキストプロンプト法のパフォーマンスギャップが大幅に狭まることがわかった。
この研究は、オープンセットの視覚認識システムを進めるための重要な新しい次元として、ネガティブなプロンプトを確立している。
- 参考スコア(独自算出の注目度): 44.49740244062374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object detection methods have evolved from closed-set to open-set paradigms over the years. Current open-set object detectors, however, remain constrained by their exclusive reliance on positive indicators based on given prompts like text descriptions or visual exemplars. This positive-only paradigm experiences consistent vulnerability to visually similar but semantically different distractors. We propose T-Rex-Omni, a novel framework that addresses this limitation by incorporating negative visual prompts to negate hard negative distractors. Specifically, we first introduce a unified visual prompt encoder that jointly processes positive and negative visual prompts. Next, a training-free Negating Negative Computing (NNC) module is proposed to dynamically suppress negative responses during the probability computing stage. To further boost performance through fine-tuning, our Negating Negative Hinge (NNH) loss enforces discriminative margins between positive and negative embeddings. T-Rex-Omni supports flexible deployment in both positive-only and joint positive-negative inference modes, accommodating either user-specified or automatically generated negative examples. Extensive experiments demonstrate remarkable zero-shot detection performance, significantly narrowing the performance gap between visual-prompted and text-prompted methods while showing particular strength in long-tailed scenarios (51.2 AP_r on LVIS-minival). This work establishes negative prompts as a crucial new dimension for advancing open-set visual recognition systems.
- Abstract(参考訳): オブジェクト検出手法は、何年もの間、クローズドセットからオープンセットパラダイムへと進化してきた。
しかし、現在のオープンセットオブジェクト検出器は、テキスト記述や視覚的例のような与えられたプロンプトに基づいた正の指標への排他的依存によって制約され続けている。
この肯定的なパラダイムは、視覚的に類似しているが意味的に異なる障害に対して一貫した脆弱性を経験する。
本稿では、この制限に対処する新しいフレームワークであるT-Rex-Omniを提案する。
具体的には、まず、正と負の視覚プロンプトを共同処理する統合視覚プロンプトエンコーダを導入する。
次に、確率計算段階における負の応答を動的に抑制するために、トレーニングフリーな負の負の負の計算(NNC)モジュールを提案する。
微調整によりさらなる性能向上を図るため、Negating Negative Hinge(NNH)損失は、正と負の埋め込みの間の差別的マージンを強制する。
T-Rex-Omniは、ポジティブオンリーとジョイント正負の推論モードの両方で柔軟なデプロイをサポートし、ユーザ指定または自動生成のネガティブな例を収容する。
広汎な実験により、ゼロショット検出性能が顕著に向上し、視覚的プロンプト法とテキストプロンプト法のパフォーマンスギャップを著しく狭めつつ、長い尾のシナリオ(LVIS-minivalでは51.2 AP_r)で特定の強度を示した。
この研究は、オープンセットの視覚認識システムを進めるための重要な新しい次元として、ネガティブなプロンプトを確立している。
関連論文リスト
- Contrastive Self-Supervised Network Intrusion Detection using Augmented Negative Pairs [0.8749675983608171]
本研究は,拡張負対 (Augmented Negative pairs, CLAN) を用いたコントラスト学習を導入する。
CLANはネットワーク侵入検知のための新しいパラダイムであり、拡張されたサンプルを負のビューとして扱う。
このアプローチは、良性交通に対する事前訓練後の分類精度と推論効率を両立させる。
論文 参考訳(メタデータ) (2025-09-08T11:04:10Z) - Diffusion Models with Adaptive Negative Sampling Without External Resources [54.84368884047812]
ANSWERは、CFGをサポートするあらゆるモデルに適用可能な、トレーニング不要の技法であり、負のプロンプトを明示することなく、イメージ概念の負のグラウンド化を可能にする。
実験により、既存のDMにANSWERを追加することは、複数のベンチマークでベースラインよりも優れており、他の方法よりも人間の方が2倍多いことが示されている。
論文 参考訳(メタデータ) (2025-08-05T00:45:54Z) - Understanding the Impact of Negative Prompts: When and How Do They Take Effect? [92.53724347718173]
本稿では, 負のプロンプトがどのように作用するか, どのように作用するかを明らかにするための, 初めての総合的研究について述べる。
我々の経験的分析は、負のプロンプトの2つの主要な挙動を識別する。
負のプロンプトは、単純な適応アルゴリズムによって、背景に最小限の変更を加えて、オブジェクトの塗り絵をしやすくする。
論文 参考訳(メタデータ) (2024-06-05T05:42:46Z) - Clustering-Aware Negative Sampling for Unsupervised Sentence
Representation [24.15096466098421]
ClusterNSは、教師なし文表現学習のためのコントラスト学習にクラスタ情報を組み込む新しい手法である。
修正K平均クラスタリングアルゴリズムを用いて、ハードネガティブを供給し、トレーニング中にバッチ内偽陰性を認識する。
論文 参考訳(メタデータ) (2023-05-17T02:06:47Z) - Positive-Negative Equal Contrastive Loss for Semantic Segmentation [8.664491798389662]
従来の作業では、グローバルコンテキストを効果的に抽出し集約するために、プラグアンドプレイモジュールと構造的損失を設計するのが一般的だった。
そこで我々は, 正負の負の正の負の負の正の負の正の負の正の負の負の負の正の負の負の正の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の
総合的な実験を行い、2つのベンチマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-04T13:51:29Z) - Can contrastive learning avoid shortcut solutions? [88.249082564465]
暗黙的特徴修正(IFM)は、より広い種類の予測的特徴を捉えるために、対照的なモデルを導くために、正と負のサンプルを変更する方法である。
IFMは特徴抑制を低減し、その結果、視覚および医用画像タスクのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-06-21T16:22:43Z) - Investigating the Role of Negatives in Contrastive Representation
Learning [59.30700308648194]
ノイズコントラスト学習は教師なし表現学習の一般的な手法である。
我々は、これらのパラメータの1つの役割の曖昧さ、すなわち負の例の数に焦点をあてる。
結果が我々の理論と広く一致しているのに対して、我々の視覚実験はより悪質であり、性能は時々負の数に敏感である。
論文 参考訳(メタデータ) (2021-06-18T06:44:16Z) - Incremental False Negative Detection for Contrastive Learning [95.68120675114878]
本稿では,自己指導型コントラスト学習のための新たな偽陰性検出手法を提案する。
対照的な学習では、検出された偽陰性を明示的に除去する2つの戦略について議論する。
提案手法は,制限された計算内での複数のベンチマークにおいて,他の自己教師付きコントラスト学習フレームワークよりも優れる。
論文 参考訳(メタデータ) (2021-06-07T15:29:14Z) - Relation-aware Graph Attention Model With Adaptive Self-adversarial
Training [29.240686573485718]
本稿では,不均一なマルチリレーショナルグラフにおける関係予測タスクのエンドツーエンドソリューションについて述べる。
特にパイプライン内の2つのビルディングブロック、すなわちヘテロジニアスグラフ表現学習と負のサンプリングに対処する。
パラメータフリーな負のサンプリング手法であるadaptive self-adversarial (asa) 負のサンプリングを導入する。
論文 参考訳(メタデータ) (2021-02-14T16:11:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。