論文の概要: A Study of Failure Modes in Two-Stage Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2604.13448v1
- Date: Wed, 15 Apr 2026 04:01:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.371252
- Title: A Study of Failure Modes in Two-Stage Human-Object Interaction Detection
- Title(参考訳): 二段階人間-物体相互作用検出における故障モードの検討
- Authors: Lemeng Wang, Qinqian Lei, Vidhi Bakshi, Daniel Yi, Yifan Liu, Jiacheng Hou, Asher Seng Hao, Zheda Mai, Wei-Lun Chao, Robby T. Tan, Bo Wang,
- Abstract要約: 本稿では,2段階HOIモデルの故障モードをよりよく理解するための研究を行う。
HOI検出を複数の解釈可能な視点に分解して、さまざまなタイプの障害パターンを研究する。
- 参考スコア(独自算出の注目度): 49.37675694881915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-object interaction (HOI) detection aims to detect interactions between humans and objects in images. While recent advances have improved performance on existing benchmarks, their evaluations mainly focus on overall prediction accuracy and provide limited insight into the underlying causes of model failures. In particular, modern models often struggle in complex scenes involving multiple people and rare interaction combinations. In this work, we present a study to better understand the failure modes of two-stage HOI models, which form the basis of many current HOI detection approaches. Rather than constructing a large-scale benchmark, we instead decompose HOI detection into multiple interpretable perspectives and analyze model behavior across these dimensions to study different types of failure patterns. We curate a subset of images from an existing HOI dataset organized by human-object-interaction configurations (e.g., multi-person interactions and object sharing), and analyze model behavior under these configurations to examine different failure modes. This design allows us to analyze how these HOI models behave under different scene compositions and why their predictions fail. Importantly, high overall benchmark performance does not necessarily reflect robust visual reasoning about human-object relationships. We hope that this study can provide useful insights into the limitations of HOI models and offer observations for future research in this area.
- Abstract(参考訳): 人間オブジェクト間相互作用(Human-object Interaction,HOI)は、画像中の人間と物体間の相互作用を検出することを目的としている。
最近の進歩では、既存のベンチマークのパフォーマンスが向上しているが、その評価は主に全体的な予測精度に焦点を当て、モデル障害の根本原因に関する限られた洞察を提供する。
特に、現代のモデルは、複数の人と稀な相互作用の組み合わせを含む複雑な場面でしばしば苦労する。
本研究では,現在のHOI検出手法の基礎となる2段階HOIモデルの故障モードをよりよく理解するための研究を行う。
大規模なベンチマークを構築する代わりに、HOI検出を複数の解釈可能な視点に分解し、これらの次元にわたってモデル挙動を分析し、異なるタイプの障害パターンを研究する。
人-オブジェクト-インタラクション構成(例えば、多人数インタラクションやオブジェクト共有)によって構成された既存のHOIデータセットからの画像のサブセットをキュレートし、これらの構成下でのモデル動作を分析して、異なる障害モードを調べる。
この設計により、これらのHOIモデルが異なるシーン構成下でどのように振る舞うか、なぜ予測が失敗するのかを分析することができる。
重要なのは、高いベンチマークパフォーマンスは、必ずしも人間とオブジェクトの関係に関する堅牢な視覚的推論を反映していないことだ。
本研究は,HOIモデルの限界について有用な知見を提供し,今後の研究への展望を期待する。
関連論文リスト
- Cross-modal Associations in Vision and Language Models: Revisiting the Bouba-Kiki Effect [0.8793721044482612]
我々は,「ブバ」のような擬似語を丸い形に,「キキ」をギザギザと確実に関連付ける「ブバキキ効果」を再評価する。
これらのモデル変種はブーバキキ効果を持続的に示さないことを示す。
その結果、ビジョン・アンド・ランゲージモデルがいかにしてクロスモーダルな概念を真に理解するかという議論が続いている。
論文 参考訳(メタデータ) (2025-07-14T07:48:54Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - A Reliable Framework for Human-in-the-Loop Anomaly Detection in Time Series [17.08674819906415]
HILADは、人間とAIの動的かつ双方向なコラボレーションを促進するために設計された、新しいフレームワークである。
ビジュアルインターフェースを通じて、HILADはドメインの専門家に、大規模な予期せぬモデルの振る舞いを検出し、解釈し、修正する権限を与えます。
論文 参考訳(メタデータ) (2024-05-06T07:44:07Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。