Fugu-MT 論文翻訳(概要): Prototype Embedding Optimization for Human-Object Interaction Detection in Livestreaming

論文の概要: Prototype Embedding Optimization for Human-Object Interaction Detection in Livestreaming

arxiv url: http://arxiv.org/abs/2505.22011v1
Date: Wed, 28 May 2025 06:19:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.441164
Title: Prototype Embedding Optimization for Human-Object Interaction Detection in Livestreaming
Title（参考訳）: ライブストリーミングにおける人間と物体の相互作用検出のためのプロトタイプ埋め込み最適化
Authors: Menghui Zhang, Jing Zhang, Lin Chen, Li Zhuo,
Abstract要約: 人-物体相互作用検出(PeO-HOI)のためのプロトタイプ組込み最適化を提案する。プロトタイプ埋め込み最適化は、オブジェクトバイアスがHOIに与える影響を軽減するために採用されている。その結果,提案手法の精度は37.19%@full, 51.42%@non-rare, 26.20%@rareと推定された。
参考スコア（独自算出の注目度）: 14.838579323779914
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Livestreaming often involves interactions between streamers and objects, which is critical for understanding and regulating web content. While human-object interaction (HOI) detection has made some progress in general-purpose video downstream tasks, when applied to recognize the interaction behaviors between a streamer and different objects in livestreaming, it tends to focuses too much on the objects and neglects their interactions with the streamer, which leads to object bias. To solve this issue, we propose a prototype embedding optimization for human-object interaction detection (PeO-HOI). First, the livestreaming is preprocessed using object detection and tracking techniques to extract features of the human-object (HO) pairs. Then, prototype embedding optimization is adopted to mitigate the effect of object bias on HOI. Finally, after modelling the spatio-temporal context between HO pairs, the HOI detection results are obtained by the prediction head. The experimental results show that the detection accuracy of the proposed PeO-HOI method has detection accuracies of 37.19%@full, 51.42%@non-rare, 26.20%@rare on the publicly available dataset VidHOI, 45.13%@full, 62.78%@non-rare and 30.37%@rare on the self-built dataset BJUT-HOI, which effectively improves the HOI detection performance in livestreaming.
Abstract（参考訳）: ライブストリーミングは、しばしばストリーマーとオブジェクト間のインタラクションを伴う。ヒューマン・オブジェクト・インタラクション(HOI)検出は、ライブストリーミングにおいて、ストリーマと異なるオブジェクト間のインタラクションの振る舞いを認識するために応用された、汎用的なビデオ下流タスクにおいて多少進歩した一方で、オブジェクトに過度にフォーカスし、ストリーマとのインタラクションを無視する傾向があり、オブジェクトバイアスにつながる。そこで本研究では,人間オブジェクト間相互作用検出(PeO-HOI)のためのプロトタイプ組込み最適化を提案する。まず,人間オブジェクト(HO)ペアの特徴を抽出するために,物体検出と追跡技術を用いて,ライブストリーミングを前処理する。次に, プロトタイプ埋込最適化を用いて, 物体バイアスがHOIに与える影響を緩和する。最後に、HOペア間の時空間コンテキストをモデル化した後、予測ヘッドによりHOI検出結果を得る。実験の結果,提案手法の検出精度は37.19%@full, 51.42%@non-rare, 26.20%@rare, 45.13%@full, 62.78%@non-rare, 30.37%@rare, 自作データセットBJUT-HOIの検出精度が向上し, ライブストリーミングにおけるHOI検出性能が向上した。

関連論文リスト

Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [57.942404069484134]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文参考訳（メタデータ） (2024-09-24T17:59:56Z)
UnionDet: Union-Level Detector Towards Real-Time Human-Object Interaction Detection [35.2385914946471]
本稿では,新しい結合レベル検出器を用いたHOI検出のための一段階メタアーキテクチャを提案する。ヒトと物体の相互作用の1段階検出器は、相互作用予測時間4x14xを著しく減少させる。
論文参考訳（メタデータ） (2023-12-19T23:34:43Z)
Disentangled Interaction Representation for One-Stage Human-Object Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文参考訳（メタデータ） (2023-12-04T08:02:59Z)
HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文参考訳（メタデータ） (2023-08-20T04:12:50Z)
Spatial Parsing and Dynamic Temporal Pooling networks for Human-Object Interaction detection [30.896749712316222]
本稿では,空間的パーシングと動的テンポリング(SPDTP)ネットワークについて紹介する。我々はCAD-120およびSome-Elseデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2022-06-07T07:26:06Z)
Detecting Human-Object Interaction via Fabricated Compositional Learning [106.37536031160282]
ヒューマンオブジェクトインタラクション(HOI)検出は、高レベルのシーン理解のための基本的なタスクです。人間は珍しいまたは見えないHOIのサンプルを認識する非常に強力な構成知覚能力があります。オープン長尾HOI検出の課題を解決するために,FCL(Fabricated Compositional Learning)を提案する。
論文参考訳（メタデータ） (2021-03-15T08:52:56Z)
Reformulating HOI Detection as Adaptive Set Prediction [25.44630995307787]
我々は適応セット予測問題としてHOI検出を再構成する。本稿では,並列インスタンスとインタラクションブランチを備えた適応型セットベースワンステージフレームワーク(as-net)を提案する。この手法は、人間のポーズや言語的特徴を必要とせず、従来の最先端の手法を上回ります。
論文参考訳（メタデータ） (2021-03-10T10:40:33Z)
DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文参考訳（メタデータ） (2020-10-02T13:59:05Z)
Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。 V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文参考訳（メタデータ） (2020-03-31T08:42:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。