Fugu-MT 論文翻訳(概要): Cascaded Human-Object Interaction Recognition

論文の概要: Cascaded Human-Object Interaction Recognition

arxiv url: http://arxiv.org/abs/2003.04262v2
Date: Wed, 11 Mar 2020 10:54:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-25 08:42:15.498749
Title: Cascaded Human-Object Interaction Recognition
Title（参考訳）: カスケード型人間-物体間インタラクション認識
Authors: Tianfei Zhou, Wenguan Wang, Siyuan Qi, Haibin Ling, Jianbing Shen
Abstract要約: マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
参考スコア（独自算出の注目度）: 175.60439054047043
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Rapid progress has been witnessed for human-object interaction (HOI) recognition, but most existing models are confined to single-stage reasoning pipelines. Considering the intrinsic complexity of the task, we introduce a cascade architecture for a multi-stage, coarse-to-fine HOI understanding. At each stage, an instance localization network progressively refines HOI proposals and feeds them into an interaction recognition network. Each of the two networks is also connected to its predecessor at the previous stage, enabling cross-stage information propagation. The interaction recognition network has two crucial parts: a relation ranking module for high-quality HOI proposal selection and a triple-stream classifier for relation prediction. With our carefully-designed human-centric relation features, these two modules work collaboratively towards effective interaction understanding. Further beyond relation detection on a bounding-box level, we make our framework flexible to perform fine-grained pixel-wise relation segmentation; this provides a new glimpse into better relation modeling. Our approach reached the $1^{st}$ place in the ICCV2019 Person in Context Challenge, on both relation detection and segmentation tasks. It also shows promising results on V-COCO.
Abstract（参考訳）: 人-物間相互作用(HOI)の認識には急速な進歩が見られたが、既存のモデルのほとんどは単一ステージの推論パイプラインに限られている。タスクの本質的な複雑さを考慮して,多段階の粗いhoi理解のためのカスケードアーキテクチャを提案する。各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。 2つのネットワークはそれぞれ、前段で前段と接続され、クロスステージ情報伝達を可能にする。対話認識ネットワークは、高品質なHOI提案選択のための関係ランキングモジュールと、関係予測のための3ストリーム分類器の2つの重要な部分を有する。慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。境界ボックスレベルの関係検出を超越して,より微細な画素ワイド関係セグメンテーションを実現するために,我々のフレームワークを柔軟にする。我々のアプローチは、ICCV2019 Person in Context Challengeにおいて、関係検出とセグメンテーションの両方のタスクにおいて、$1^{st}$に到達した。また、V-COCOの有望な結果も示している。

関連論文リスト

Hierarchical Relation-augmented Representation Generalization for Few-shot Action Recognition [53.02634128715853]
Few-shot Action Recognition (FSAR) は、新しいアクションカテゴリーをほとんど見ない形で認識することを目的としている。 FSARのための階層的関係強化表現一般化フレームワークHR2G-shotを提案する。 3種類の関係モデリング(フレーム間、ビデオ間、タスク間)を統合し、全体的視点からタスク固有の時間パターンを学習する。
論文参考訳（メタデータ） (2025-04-14T10:23:22Z)
Towards a Unified Transformer-based Framework for Scene Graph Generation and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。提案手法は最先端のHOI法と比較して競争性能が向上する。
論文参考訳（メタデータ） (2023-11-03T07:25:57Z)
Interactive Spatiotemporal Token Attention Network for Skeleton-based General Interactive Action Recognition [8.513434732050749]
本稿では,空間的,時間的,対話的な関係を同時にモデル化する対話型時空間意識ネットワーク(ISTA-Net)を提案する。我々のネットワークには対話的時空間トークン(IST)を分割するトークン機構があり、これは複数の多様なエンティティの動作を表現する統一的な方法である。 ISTの3次元に沿って共同学習するために、3次元畳み込みと統合されたマルチヘッド自己認識ブロックは、トークン間の相関を捉えるように設計されている。
論文参考訳（メタデータ） (2023-07-14T16:51:25Z)
A Hierarchical Interactive Network for Joint Span-based Aspect-Sentiment Analysis [34.1489054082536]
本稿では,2つのタスク間の双方向相互作用を適切にモデル化する階層型対話型ネットワーク(HI-ASA)を提案する。クロススティッチ機構を用いて、異なるタスク固有の特徴を入力として選択的に組み合わせ、適切な双方向インタラクションを保証する。 3つの実世界のデータセットの実験は、HI-ASAがベースラインよりも優れていることを示している。
論文参考訳（メタデータ） (2022-08-24T03:03:49Z)
RR-Net: Injecting Interactive Semantics in Human-Object Interaction Detection [40.65483058890176]
最新のエンドツーエンドHOI検出器は関係推論に欠けており、予測のためにHOI固有の対話的セマンティクスを学習できない。まず、インタラクション推論のための新しい構造とパラメータ共有パターンをもたらす、プログレッシブな関係認識フレームを提案する。上記のモジュールに基づいて、Relation Reasoning Network (abbr) というエンドツーエンドのトレーニング可能なフレームワークを構築します。 RR-Net)
論文参考訳（メタデータ） (2021-04-30T14:03:10Z)
Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文参考訳（メタデータ） (2021-04-23T10:08:15Z)
CoADNet: Collaborative Aggregation-and-Distribution Networks for Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文参考訳（メタデータ） (2020-11-10T04:28:11Z)
A Co-Interactive Transformer for Joint Slot Filling and Intent Detection [61.109486326954205]
音声言語理解システム(SLU)を構築する上では,インテント検出とスロットフィリングが主要な2つのタスクである。以前の研究では、2つのタスクを個別にモデル化するか、インテントからスロットへの単一の情報フローのみを考慮していた。本稿では,2つのタスク間の相互影響を同時に検討するコ・インターアクティブ・トランスフォーマーを提案する。
論文参考訳（メタデータ） (2020-10-08T10:16:52Z)
DCR-Net: A Deep Co-Interactive Relation Network for Joint Dialog Act Recognition and Sentiment Classification [77.59549450705384]
ダイアログシステムでは、ダイアログアクト認識と感情分類は2つの相関タスクである。既存のシステムのほとんどは、それらを別々のタスクとして扱うか、単に2つのタスクを一緒にモデル化するだけです。本稿では,2つのタスク間の相互作用をモデル化するディープ・コ・インタラクティブ・リレーショナル・ネットワーク(DCR-Net)を提案する。
論文参考訳（メタデータ） (2020-08-16T14:13:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。