Fugu-MT 論文翻訳(概要): Exploring Predicate Visual Context in Detecting Human-Object Interactions

論文の概要: Exploring Predicate Visual Context in Detecting Human-Object Interactions

arxiv url: http://arxiv.org/abs/2308.06202v2
Date: Tue, 7 Nov 2023 23:05:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 19:10:44.380257
Title: Exploring Predicate Visual Context in Detecting Human-Object Interactions
Title（参考訳）: 人間と物体の相互作用を検出するための述語視覚コンテキストの探索
Authors: Frederic Z. Zhang, Yuhui Yuan, Dylan Campbell, Zhuoyao Zhong, Stephen Gould
Abstract要約: クロスアテンションによる画像特徴の再導入について検討する。 PViCはHICO-DETおよびV-COCOベンチマークにおいて最先端の手法より優れている。
参考スコア（独自算出の注目度）: 44.937383506126274
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recently, the DETR framework has emerged as the dominant approach for human--object interaction (HOI) research. In particular, two-stage transformer-based HOI detectors are amongst the most performant and training-efficient approaches. However, these often condition HOI classification on object features that lack fine-grained contextual information, eschewing pose and orientation information in favour of visual cues about object identity and box extremities. This naturally hinders the recognition of complex or ambiguous interactions. In this work, we study these issues through visualisations and carefully designed experiments. Accordingly, we investigate how best to re-introduce image features via cross-attention. With an improved query design, extensive exploration of keys and values, and box pair positional embeddings as spatial guidance, our model with enhanced predicate visual context (PViC) outperforms state-of-the-art methods on the HICO-DET and V-COCO benchmarks, while maintaining low training cost.
Abstract（参考訳）: 近年,人間-物体相互作用(HOI)研究における主要なアプローチとしてDETRフレームワークが登場している。特に、2段変圧器を用いたHOI検出器は、最も高性能で訓練効率の良いアプローチである。しかし、これらは細かな文脈情報を持たないオブジェクトの特徴をhoi分類し、ポーズや方向情報を避けて、オブジェクトのアイデンティティや箱の四肢に関する視覚的な手がかりを好むことが多い。これは自然に複雑または曖昧な相互作用の認識を妨げる。本研究では,これらの問題を可視化と慎重に設計した実験を通して研究する。そこで本研究では,画像特徴をクロスアテンションにより再導入する最善の方法を検討する。改良されたクエリ設計、キーと値の広範な探索、空間的ガイダンスとしてのボックスペアの位置埋め込みにより、HICO-DETおよびV-COCOベンチマークにおける最先端の手法よりも高い性能を保ちながら、トレーニングコストの低減を図ることができる。

関連論文リスト

Open-Vocabulary HOI Detection with Interaction-aware Prompt and Concept Calibration [42.24582981160835]
オープンヒューマンオブジェクトインタラクション(HOI)は、人間とオブジェクト間のインタラクションを検出することを目的としている。現在の手法はビジョンと言語モデル(VLM)に頼っていることが多いが、最適な画像エンコーダによる課題に直面している。 Interaction-aware Prompting with Concept (INP-CC) を提案する。
論文参考訳（メタデータ） (2025-08-05T08:33:58Z)
From Sight to Insight: Unleashing Eye-Tracking in Weakly Supervised Video Salient Object Detection [60.11169426478452]
本稿では,弱い監督下での健全な物体の検出を支援するために,固定情報を導入することを目的とする。特徴学習過程における位置と意味のガイダンスを提供するために,位置と意味の埋め込み (PSE) モジュールを提案する。 Intra-Inter Mixed Contrastive (MCII)モデルは、弱い監督下での時間的モデリング能力を改善する。
論文参考訳（メタデータ） (2025-06-30T05:01:40Z)
ContextHOI: Spatial Context Learning for Human-Object Interaction Detection [24.381821663963898]
空間コンテキストは、Human-Object Interaction (HOI) 認識において重要であると考えられている。本稿では、オブジェクト検出機能と空間コンテキストの両方を効率的にキャプチャするContextHOIというデュアルブランチフレームワークを提案する。 ContextHOIはHICO-DETとv-cocoベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-12T08:21:19Z)
A Review of Human-Object Interaction Detection [6.1941885271010175]
ヒトと物体の相互作用(HOI)の検出は、高レベルの視覚的理解において重要な役割を果たす。本稿では,画像に基づくHOI検出における最近の研究を体系的に要約し,考察する。
論文参考訳（メタデータ） (2024-08-20T08:32:39Z)
Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文参考訳（メタデータ） (2024-04-19T07:24:32Z)
Disentangled Interaction Representation for One-Stage Human-Object Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文参考訳（メタデータ） (2023-12-04T08:02:59Z)
Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文参考訳（メタデータ） (2023-11-26T09:11:32Z)
Spatial Reasoning for Few-Shot Object Detection [21.3564383157159]
本稿では,空間的推論フレームワークを提案する。グラフ畳み込みネットワークをRoIとその関連性はそれぞれノードとエッジとして定義する。提案手法は最先端の手法を著しく上回り, 広範囲なアブレーション研究により有効性を検証する。
論文参考訳（メタデータ） (2022-11-02T12:38:08Z)
Knowledge Guided Bidirectional Attention Network for Human-Object Interaction Detection [3.0915392100355192]
HOIにおけるボトムアップ構文解析戦略の独立的利用は直感に反し、注意の拡散につながる可能性があると論じる。 HOIに新たな知識誘導型トップダウンアテンションを導入し、関係解析を「ルックアンドサーチ」プロセスとしてモデル化することを提案する。一つのエンコーダ-デコーダモデルでボトムアップとトップダウンの注意を統一することで、プロセスを実装します。
論文参考訳（メタデータ） (2022-07-16T16:42:49Z)
Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。 SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文参考訳（メタデータ） (2021-08-19T09:40:50Z)
ConsNet: Learning Consistency Graph for Zero-Shot Human-Object Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文参考訳（メタデータ） (2020-08-14T09:11:18Z)
Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。 V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文参考訳（メタデータ） (2020-03-31T08:42:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。