論文の概要: RegFormer: Transferable Relational Grounding for Efficient Weakly-Supervised Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2604.00507v1
- Date: Wed, 01 Apr 2026 05:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.852167
- Title: RegFormer: Transferable Relational Grounding for Efficient Weakly-Supervised Human-Object Interaction Detection
- Title(参考訳): RegFormer: 効率のよい人間-物体間相互作用検出のための転送可能なリレーショナルグラウンド
- Authors: Jihwan Park, Chanhyeong Yang, Jinyoung Park, Taehoon Song, Hyunwoo J. Kim,
- Abstract要約: シーン理解には,弱教師付きHuman-Object Interaction (HOI) 検出が不可欠である。
RegFormerはインスタンスレベルのHOI推論のための汎用的なインタラクション認識モジュールである。
実験と分析により,RegFormerは実例レベルの相互作用推論のための空間的手がかりを効果的に学習することを示した。
- 参考スコア(独自算出の注目度): 38.362111975504696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly-supervised Human-Object Interaction (HOI) detection is essential for scalable scene understanding, as it learns interactions from only image-level annotations. Due to the lack of localization signals, prior works typically rely on an external object detector to generate candidate pairs and then infer their interactions through pairwise reasoning. However, this framework often struggles to scale due to the substantial computational cost incurred by enumerating numerous instance pairs. In addition, it suffers from false positives arising from non-interactive combinations, which hinder accurate instance-level HOI reasoning. To address these issues, we introduce Relational Grounding Transformer (RegFormer), a versatile interaction recognition module for efficient and accurate HOI reasoning. Under image-level supervision, RegFormer leverages spatially grounded signals as guidance for the reasoning process and promotes locality-aware interaction learning. By learning localized interaction cues, our module distinguishes humans, objects, and their interactions, enabling direct transfer from image-level interaction reasoning to precise and efficient instance-level reasoning without additional training. Our extensive experiments and analyses demonstrate that RegFormer effectively learns spatial cues for instance-level interaction reasoning, operates with high efficiency, and even achieves performance comparable to fully supervised models. Our code is available at https://github.com/mlvlab/RegFormer.
- Abstract(参考訳): 画像レベルのアノテーションのみからインタラクションを学習するので、拡張性のあるシーン理解には、弱い教師付きHuman-Object Interaction (HOI)検出が不可欠である。
ローカライゼーション信号が欠如しているため、以前の研究は通常、外部の物体検出器を使って候補ペアを生成し、その相互作用をペアワイズ推論によって推測する。
しかしながら、このフレームワークは、多数のインスタンスペアを列挙することによって生じる計算コストが大幅に削減されるため、スケールに苦慮することが多い。
さらに、非相互作用的な組み合わせによって生じる偽陽性に悩まされ、正確なインスタンスレベルのHOI推論を妨げます。
このような問題に対処するために,我々は,効率よく正確なHOI推論を行う汎用的な相互作用認識モジュールであるRelational Grounding Transformer (RegFormer)を紹介した。
画像レベルの監視の下では、RegFormerは推論プロセスのガイダンスとして空間的に接地された信号を活用し、局所性を考慮した対話学習を促進する。
ローカライズされたインタラクションの手がかりを学習することで、我々のモジュールは人間、オブジェクト、そしてそれらのインタラクションを区別し、画像レベルのインタラクション推論から、追加のトレーニングなしで正確で効率的なインスタンスレベルの推論へ直接移行することができる。
本稿では,RegFormerがインスタンスレベルの相互作用推論の空間的手がかりを効果的に学習し,高い効率で動作し,完全教師付きモデルに匹敵する性能を達成できることを示す。
私たちのコードはhttps://github.com/mlvlab/RegFormer.comから入手可能です。
関連論文リスト
- Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition [71.5328300638085]
Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。
2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。
本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T19:01:31Z) - Open-Vocabulary HOI Detection with Interaction-aware Prompt and Concept Calibration [42.24582981160835]
オープンヒューマンオブジェクトインタラクション(HOI)は、人間とオブジェクト間のインタラクションを検出することを目的としている。
現在の手法はビジョンと言語モデル(VLM)に頼っていることが多いが、最適な画像エンコーダによる課題に直面している。
Interaction-aware Prompting with Concept (INP-CC) を提案する。
論文 参考訳(メタデータ) (2025-08-05T08:33:58Z) - A Dual Approach to Imitation Learning from Observations with Offline Datasets [19.856363985916644]
報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。
専門家の行動を必要とせずに任意の準最適データを利用してポリシーを模倣するアルゴリズムであるDILOを導出する。
論文 参考訳(メタデータ) (2024-06-13T04:39:42Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Reformulating HOI Detection as Adaptive Set Prediction [25.44630995307787]
我々は適応セット予測問題としてHOI検出を再構成する。
本稿では,並列インスタンスとインタラクションブランチを備えた適応型セットベースワンステージフレームワーク(as-net)を提案する。
この手法は、人間のポーズや言語的特徴を必要とせず、従来の最先端の手法を上回ります。
論文 参考訳(メタデータ) (2021-03-10T10:40:33Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。