論文の概要: Rethinking Human-Object Interaction Evaluation for both Vision-Language Models and HOI-Specific Methods
- arxiv url: http://arxiv.org/abs/2508.18753v1
- Date: Tue, 26 Aug 2025 07:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.727986
- Title: Rethinking Human-Object Interaction Evaluation for both Vision-Language Models and HOI-Specific Methods
- Title(参考訳): 視覚言語モデルとHOI-Specific Methodの双方に対する人間と物体の相互作用評価の再考
- Authors: Qinqian Lei, Bo Wang, Robby T. Tan,
- Abstract要約: 本稿では,HOI検出を複数問合せタスクとして再構成する新しいベンチマークを提案する。
提案した評価プロトコルは,VLM法とHOI法の両方において,最初の評価プロトコルである。
- 参考スコア(独自算出の注目度): 33.074167753966314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior human-object interaction (HOI) detection methods have integrated early vision-language models (VLMs) such as CLIP, but only as supporting components within their frameworks. In contrast, recent advances in large, generative VLMs suggest that these models may already possess strong ability to understand images involving HOI. This naturally raises an important question: can general-purpose standalone VLMs effectively solve HOI detection, and how do they compare with specialized HOI methods? Answering this requires a benchmark that can accommodate both paradigms. However, existing HOI benchmarks such as HICO-DET were developed before the emergence of modern VLMs, and their evaluation protocols require exact matches to annotated HOI classes. This is poorly aligned with the generative nature of VLMs, which often yield multiple valid interpretations in ambiguous cases. For example, a static image may capture a person mid-motion with a frisbee, which can plausibly be interpreted as either "throwing" or "catching". When only "catching" is annotated, the other, though equally plausible for the image, is marked incorrect when exact matching is used. As a result, correct predictions might be penalized, affecting both VLMs and HOI-specific methods. To avoid penalizing valid predictions, we introduce a new benchmark that reformulates HOI detection as a multiple-answer multiple-choice task, where each question includes only ground-truth positive options and a curated set of negatives that are constructed to reduce ambiguity (e.g., when "catching" is annotated, "throwing" is not selected as a negative to avoid penalizing valid predictions). The proposed evaluation protocol is the first of its kind for both VLMs and HOI methods, enabling direct comparison and offering new insight into the current state of progress in HOI understanding.
- Abstract(参考訳): 従来の人-物間相互作用(HOI)検出方法は、CLIPのような初期視覚言語モデル(VLM)を統合するが、フレームワーク内のサポートコンポーネントとしてのみ使用される。
対照的に、大規模で生成的なVLMの最近の進歩は、これらのモデルが既にHOIを含む画像を理解する強力な能力を持っていることを示唆している。
汎用的なスタンドアロンVLMは、HOI検出を効果的に解決できるのか?
これを答えるには、両方のパラダイムに対応可能なベンチマークが必要です。
しかし、HICO-DETのような既存のHOIベンチマークは、現代のVLMの出現以前に開発され、それらの評価プロトコルは、注釈付きHOIクラスと正確に一致する必要がある。
これは、しばしばあいまいな場合において複数の有効な解釈をもたらすVLMの生成的性質と不一致である。
例えば、静的な画像は、フリスビーで人の動きの途中を捉え、それは「投球」または「キャッチ」と解釈できる。
キャッチ」がアノテートされた場合、もう1つは画像に等しく当てはまるが、正確なマッチングが使われると不正確となる。
結果として、正しい予測は罰せられ、VLMとHOI固有の方法の両方に影響を与える可能性がある。
提案手法では,複数問合せタスクとしてHOI検出を再構成するベンチマークを新たに導入する。各質問には,曖昧さを軽減するために構築された基本トラスト正のオプションと負のキュレートセットのみを含む(例えば,"キャッチ"アノテーションが付与された場合,"スロー"は負に選択されず,有効な予測をペナルライズしない)。
提案した評価プロトコルは, VLMとHOIの両手法において, 直接比較が可能であり, HOI理解の進展状況に関する新たな知見を提供する。
関連論文リスト
- Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - LLM meets Vision-Language Models for Zero-Shot One-Class Classification [4.094697851983375]
ゼロショットワンクラス視覚分類の問題を考える。
本稿では、視覚的に混乱するオブジェクトに対して、まず大きな言語モデルをクエリする2段階のソリューションを提案する。
我々は,そのラベルのみを用いて,あるカテゴリと他のセマンティック関連カテゴリを識別する能力を初めて示す。
論文 参考訳(メタデータ) (2024-03-31T12:48:07Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - Non-contrastive representation learning for intervals from well logs [58.70164460091879]
石油・ガス産業における表現学習問題は、ログデータに基づく表現を一定間隔で提供するモデルを構築することを目的としている。
可能なアプローチの1つは、自己教師付き学習(SSL)である。
私たちは、よくログするデータのための非コントラストSSLを最初に導入しました。
論文 参考訳(メタデータ) (2022-09-28T13:27:10Z) - Full-Spectrum Out-of-Distribution Detection [42.98617540431124]
両シフトタイプを考慮し、フルスペクトルOOD(FS-OOD)検出を導入する。
本稿では,単純な特徴に基づくセマンティックススコア関数であるSEMを提案する。
SEMは現在の最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2022-04-11T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。