論文の概要: Interpretable Open-Vocabulary Referring Object Detection with Reverse Contrast Attention
- arxiv url: http://arxiv.org/abs/2507.19891v2
- Date: Wed, 30 Jul 2025 04:47:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 11:57:45.829292
- Title: Interpretable Open-Vocabulary Referring Object Detection with Reverse Contrast Attention
- Title(参考訳): 逆コントラストアテンションによるオブジェクト検出の解釈可能なオープン語彙参照
- Authors: Drandreb Earl O. Juanico, Rowel O. Atienza, Jeffrey Kenneth Go,
- Abstract要約: RCAは、極端を抑え、中間レベルのアクティベーションを増幅することで最終層の注意を重み付け、意味論的に関連があるが抑制されたトークンが予測を導く。
We evaluate it on Open Vocabulary Referring Object Detection (OV-RefOD), introduced FitAP, a confidence-free average precision metric based on IoU and box area。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose Reverse Contrast Attention (RCA), a plug-in method that enhances object localization in vision-language transformers without retraining. RCA reweights final-layer attention by suppressing extremes and amplifying mid-level activations to let semantically relevant but subdued tokens guide predictions. We evaluate it on Open Vocabulary Referring Object Detection (OV-RefOD), introducing FitAP, a confidence-free average precision metric based on IoU and box area. RCA improves FitAP in 11 out of 15 open-source VLMs, with gains up to $+26.6\%$. Effectiveness aligns with attention sharpness and fusion timing; while late-fusion models benefit consistently, models like $\texttt{DeepSeek-VL2}$ also improve, pointing to capacity and disentanglement as key factors. RCA offers both interpretability and performance gains for multimodal transformers. Codes and dataset are available from https://github.com/earl-juanico/rca
- Abstract(参考訳): 本稿では,視覚言語変換器におけるオブジェクトの局所性を高めるプラグイン手法であるReverse Contrast Attention (RCA)を提案する。
RCAは、極端を抑え、中間レベルのアクティベーションを増幅することで最終層の注意を重み付け、意味論的に関連があるが抑制されたトークンが予測を導く。
We evaluate it on Open Vocabulary Referring Object Detection (OV-RefOD), introduced FitAP, a confidence-free average precision metric based on IoU and box area。
RCAは15のオープンソースVLMのうち11のFitAPを改善し、最大$+26.6\%まで上昇する。
遅延融合モデルは一貫して利益を得るが、$\texttt{DeepSeek-VL2}$のようなモデルも改善され、キャパシティとアンタングルメントが重要な要素となる。
RCAはマルチモーダル変圧器の解釈可能性と性能向上の両方を提供する。
コードとデータセットはhttps://github.com/earl-juanico/rcaから入手できる。
関連論文リスト
- $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。
空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。
当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-11T03:58:17Z) - OVLW-DETR: Open-Vocabulary Light-Weighted Detection Transformer [63.141027246418]
本稿では,OVLW-DETR(Open-Vocabulary Light-Weighted Detection Transformer)を提案する。
本稿では,視覚言語モデル(VLM)からオブジェクト検出器への知識伝達を簡易なアライメントで行うエンド・ツー・エンドのトレーニングレシピを提案する。
実験により,提案手法は標準ゼロショットLVISベンチマークにおいて,既存の実時間開語彙検出器よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-15T12:15:27Z) - PointOBB: Learning Oriented Object Detection via Single Point
Supervision [55.88982271340328]
本稿では,オブジェクト指向物体検出のための最初の単一点ベース OBB 生成法である PointOBB を提案する。
PointOBBは、オリジナルビュー、リサイズビュー、ローテーション/フリップ(rot/flp)ビューの3つのユニークなビューの協調利用を通じて動作する。
DIOR-RとDOTA-v1.0データセットの実験結果は、PointOBBが有望な性能を達成することを示す。
論文 参考訳(メタデータ) (2023-11-23T15:51:50Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Focus the Discrepancy: Intra- and Inter-Correlation Learning for Image
Anomaly Detection [13.801572236048601]
FOD(FOcus-the-Discrepancy)は、異常のパッチワイド、イントラ・イントラ・インター・ディレクレンシーを同時に検出することができる。
本稿では,新たなADフレームワークであるFOcus-the-Discrepancy(FOD)を提案する。
論文 参考訳(メタデータ) (2023-08-06T01:30:26Z) - Region-Aware Pretraining for Open-Vocabulary Object Detection with
Vision Transformers [44.03247177599605]
地域対応オープンボキャブラリビジョントランス(RO-ViT)
画像レベルの事前学習とオープン語彙オブジェクト検出のギャップを埋めるために、コントラスト的な画像テキスト事前学習のレシピを提案する。
論文 参考訳(メタデータ) (2023-05-11T17:53:29Z) - TSAA: A Two-Stage Anchor Assignment Method towards Anchor Drift in
Crowded Object Detection [0.0]
正のアンカーは、複数のオブジェクトが重なり合うときに最も重なるオブジェクトに対して常に回帰するとは限らない。
単純な適応型2段アンカーアサイン(TSAA)法を提案する。
論文 参考訳(メタデータ) (2022-11-02T02:05:00Z) - AAVAE: Augmentation-Augmented Variational Autoencoders [43.73699420145321]
本稿では,自動符号化に基づく自己教師型学習における第3のアプローチであるAugmentation-augmented variational autoencoders (AAVAE)を紹介する。
画像分類において提案したAAVAEを,最近のコントラスト学習アルゴリズムや非コントラスト学習アルゴリズムと同様に実証的に評価した。
論文 参考訳(メタデータ) (2021-07-26T17:04:30Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。