論文の概要: Interaction-Aware Prompting for Zero-Shot Spatio-Temporal Action
Detection
- arxiv url: http://arxiv.org/abs/2304.04688v1
- Date: Mon, 10 Apr 2023 16:08:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 14:23:11.272746
- Title: Interaction-Aware Prompting for Zero-Shot Spatio-Temporal Action
Detection
- Title(参考訳): ゼロショット時空間行動検出のための対話型プロンプト
- Authors: Wei-Jhe Huang, Jheng-Hsien Yeh, Gueter Josmy Faure, Min-Hung Chen,
Shang-Hong Lai
- Abstract要約: 空間的時間的行動検出は、各人の行動がビデオで起こっている時間と場所を決定することである。
既存の手法のほとんどは、大量のトレーニングデータを必要とする完全教師付き学習を採用している。
本稿では、事前学習された視覚言語モデルを用いて、代表画像とテキストの特徴を抽出する。
- 参考スコア(独自算出の注目度): 12.761110766226397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of spatial-temporal action detection is to determine the time and
place where each person's action occurs in a video and classify the
corresponding action category. Most of the existing methods adopt
fully-supervised learning, which requires a large amount of training data,
making it very difficult to achieve zero-shot learning. In this paper, we
propose to utilize a pre-trained visual-language model to extract the
representative image and text features, and model the relationship between
these features through different interaction modules to obtain the interaction
feature. In addition, we use this feature to prompt each label to obtain more
appropriate text features. Finally, we calculate the similarity between the
interaction feature and the text feature for each label to determine the action
category. Our experiments on J-HMDB and UCF101-24 datasets demonstrate that the
proposed interaction module and prompting make the visual-language features
better aligned, thus achieving excellent accuracy for zero-shot spatio-temporal
action detection. The code will be released upon acceptance.
- Abstract(参考訳): 空間的-時間的行動検出の目標は、ビデオ内で各人の行動が起こる時間と場所を決定し、対応する行動カテゴリを分類することである。
既存の手法の多くは、大量のトレーニングデータを必要とする完全教師付き学習を採用しており、ゼロショット学習を実現するのは非常に困難である。
本稿では,訓練済みの視覚言語モデルを用いて代表的画像とテキストの特徴を抽出し,それらの特徴の相互作用モジュール間の関係をモデル化してインタラクション特徴を得る。
さらに、この機能を使って各ラベルにより適切なテキスト機能を得るよう促す。
最後に、各ラベルのインタラクション特徴とテキスト特徴との類似度を算出し、アクションカテゴリを決定する。
j-hmdb と ucf101-24 データセットを用いた実験により,提案するインタラクションモジュールと視覚機能の整合性が向上し,ゼロショット時空間動作検出に優れた精度が得られた。
コードは受理後にリリースされます。
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。
条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T14:05:25Z) - Towards Zero-shot Human-Object Interaction Detection via Vision-Language
Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。
より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。
我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T02:07:23Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot
End-to-End Temporal Action Detection [10.012716326383567]
時間的行動検出(TAD)は、未トリミングビデオ内のアクションインスタンスのローカライズと分類を含む。
ZEETADには2つのモジュールがあり、双対局在化とゼロショット提案分類という2つのモジュールがある。
軽量なアダプタで冷凍したCLIPエンコーダを最小限に更新することで、未確認クラスの識別能力を向上する。
論文 参考訳(メタデータ) (2023-11-01T00:17:37Z) - Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。
提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文 参考訳(メタデータ) (2022-12-07T03:36:37Z) - End-to-End Semi-Supervised Learning for Video Action Detection [23.042410033982193]
ラベルのないデータを効果的に活用するシンプルなエンドツーエンドアプローチを提案する。
ビデオアクション検出には、アクションクラス予測と時間的一貫性の両方が必要である。
提案手法が2つの異なる行動検出ベンチマークデータセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-03-08T18:11:25Z) - Glance and Gaze: Inferring Action-aware Points for One-Stage
Human-Object Interaction Detection [81.32280287658486]
Glance and Gaze Network(GGNet)と呼ばれる新しいワンステージ手法を提案する。
GGNetは、一組のアクションウェアポイント(ActPoints)を目視および視線ステップで適応的にモデル化する。
検出された各インタラクションと関連する人間と対象のペアを効果的に一致させるアクションアウェア・アプローチを設計します。
論文 参考訳(メタデータ) (2021-04-12T08:01:04Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Spatio-Temporal Action Detection with Multi-Object Interaction [127.85524354900494]
本稿では,多目的インタラクションを用いたS時間動作検出問題について検討する。
マルチオブジェクトインタラクションを含むアクションチューブに空間的アノテーションを付加した新しいデータセットを提案する。
本研究では,空間的・時間的回帰を同時に行うエンド・ツー・エンドの時間的行動検出モデルを提案する。
論文 参考訳(メタデータ) (2020-04-01T00:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。