論文の概要: Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache
- arxiv url: http://arxiv.org/abs/2511.18811v1
- Date: Mon, 24 Nov 2025 06:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.052209
- Title: Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache
- Title(参考訳): 適応型多様性キャッシュによるHOI検出における長距離バイアスの緩和
- Authors: Yuqiu Jiang, Xiaozhen Qiao, Tianyu Mei, Haojian Huang, Yifan Chen, Ye Zheng, Zhe Sun,
- Abstract要約: ヒューマン・オブジェクト・インタラクション(Human-Object Interaction、HOI)検出は、コンピュータビジョンにおける基本的なタスクであり、マシンが様々な現実のシナリオにおいて人間とオブジェクトの関係を理解するのに有効である。
VLMの最近の進歩は、リッチなクロスモーダル表現を活用することにより、HOI検出を大幅に改善した。
既存のVLMベースのアプローチの多くは、追加のトレーニングやプロンプトチューニングに大きく依存しているため、計算オーバーヘッドが大きくなり、スケーラビリティが制限される。
本稿では,適応多様性キャッシュ(ADC)モジュールを提案する。これは,HOI検出における長期バイアスを軽減するために設計された,新しいトレーニングフリーでプラグアンドプレイ機構である。
- 参考スコア(独自算出の注目度): 16.846940736164537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-Object Interaction (HOI) detection is a fundamental task in computer vision, empowering machines to comprehend human-object relationships in diverse real-world scenarios. Recent advances in VLMs have significantly improved HOI detection by leveraging rich cross-modal representations. However, most existing VLM-based approaches rely heavily on additional training or prompt tuning, resulting in substantial computational overhead and limited scalability, particularly in long-tailed scenarios where rare interactions are severely underrepresented. In this paper, we propose the Adaptive Diversity Cache (ADC) module, a novel training-free and plug-and-play mechanism designed to mitigate long-tail bias in HOI detection. ADC constructs class-specific caches that accumulate high-confidence and diverse feature representations during inference. The method incorporates frequency-aware cache adaptation that favors rare categories and is designed to enable robust prediction calibration without requiring additional training or fine-tuning. Extensive experiments on HICO-DET and V-COCO datasets show that ADC consistently improves existing HOI detectors, achieving up to +8.57\% mAP gain on rare categories and +4.39\% on the full dataset, demonstrating its effectiveness in mitigating long-tail bias while preserving overall performance.
- Abstract(参考訳): ヒューマン・オブジェクト・インタラクション(Human-Object Interaction、HOI)は、コンピュータビジョンにおける基本的なタスクであり、マシンが様々な現実のシナリオにおいて人間とオブジェクトの関係を理解できるようにする。
VLMの最近の進歩は、リッチなクロスモーダル表現を活用することにより、HOI検出を大幅に改善した。
しかしながら、既存のVLMベースのアプローチの多くは、追加のトレーニングや即時チューニングに大きく依存しており、特に稀な相互作用が過小評価されている長いシナリオにおいて、計算オーバーヘッドとスケーラビリティが大幅に制限されている。
本稿では,適応多様性キャッシュ(ADC)モジュールを提案する。これは,HOI検出における長い尾バイアスを軽減するために設計された,新しいトレーニングフリーでプラグアンドプレイ機構である。
ADCは、推論中に高信頼と多彩な特徴表現を蓄積するクラス固有のキャッシュを構築する。
この手法には周波数対応キャッシュ適応が組み込まれており、希少なカテゴリを好んでおり、追加のトレーニングや微調整を必要とせず、堅牢な予測校正を可能にするように設計されている。
HICO-DETとV-COCOデータセットの大規模な実験により、ADCは既存のHOI検出器を一貫して改善し、レアなカテゴリでは+8.57\% mAP、フルデータセットでは+4.39\%を達成し、全体的な性能を保ちながら長い尾のバイアスを軽減する効果を示した。
関連論文リスト
- Adaptive Cache Enhancement for Test-Time Adaptation of Vision-Language Models [6.403304540670581]
視覚言語モデル (VLM) は、ゼロショット一般化が際立つが、分布シフトによる性能劣化に悩まされる。
TTA(Test-Time Adaptation)は、推論中のVLMのオンライン最適化を可能にし、アノテーション付きデータの必要性をなくすことによって、この問題に対処する。
本稿では,高信頼あるいは低エントロピー画像のクラスごとの埋め込みを選択的に記憶することで,堅牢なキャッシュを構築する適応キャッシュ拡張(ACE)フレームワークを紹介する。
論文 参考訳(メタデータ) (2025-08-11T03:03:34Z) - Real-Time Decorrelation-Based Anomaly Detection for Multivariate Time Series [1.4472678336151885]
異常検出は、様々な現実世界の領域で重要な役割を果たす。
リアルタイムADの需要は、(産業用)モノのインターネット(Internet of Things)の台頭とともに急増している。
本稿では,新しいリアルタイムデコリレーションに基づく異常検出手法であるDADを提案する。
論文 参考訳(メタデータ) (2025-07-10T08:56:40Z) - USAD: End-to-End Human Activity Recognition via Diffusion Model with Spatiotemporal Attention [8.061018589897277]
人間の活動認識は、健康モニタリング、安全保護、スポーツ分析に幅広い応用を見出すタスクである。
研究の進展にもかかわらず、ヒトの活動認識は、稀な活動のためのラベル付きサンプルの不足など、依然として重要な課題に直面している。
本稿では,マルチアテンション相互作用機構に着目した包括的な最適化手法を提案する。
論文 参考訳(メタデータ) (2025-07-03T17:38:44Z) - Towards Efficient and General-Purpose Few-Shot Misclassification Detection for Vision-Language Models [25.51735861729728]
現代のニューラルネットワークは、誤って分類された予測に対して過度に自信を示し、エラーを検出するための信頼度推定の必要性を強調している。
我々は、テキスト情報を利用した視覚言語モデル(VLM)を利用して、効率的で汎用的な誤分類検出フレームワークを確立する。
VLMのパワーを活用することで、MisDのためのFew-Shotプロンプト学習フレームワークであるFSMisDを構築し、スクラッチからトレーニングを控え、チューニング効率を向上させる。
論文 参考訳(メタデータ) (2025-03-26T12:31:04Z) - CAVE-Net: Classifying Abnormalities in Video Capsule Endoscopy [0.1937002985471497]
複雑な画像データセットを解析する際の診断精度を向上させるために,アンサンブルに基づくアプローチを提案する。
各モデルのユニークな特徴抽出機能を活用し、全体的な精度を向上させる。
これらの手法を用いることで、提案フレームワークであるCAVE-Netは、ロバストな特徴識別と、より優れた分類結果を提供する。
論文 参考訳(メタデータ) (2024-10-26T17:25:08Z) - Learning Feature Inversion for Multi-class Anomaly Detection under General-purpose COCO-AD Benchmark [101.23684938489413]
異常検出(AD)は、しばしば産業品質検査や医学的病変検査のための異常の検出に焦点が当てられている。
この研究はまず、COCOをADフィールドに拡張することにより、大規模で汎用的なCOCO-ADデータセットを構築する。
セグメンテーション分野のメトリクスにインスパイアされた我々は、より実用的なしきい値に依存したAD固有のメトリクスをいくつか提案する。
論文 参考訳(メタデータ) (2024-04-16T17:38:26Z) - Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。