Fugu-MT 論文翻訳(概要): Spatio-Temporal Context Prompting for Zero-Shot Action Detection

論文の概要: Spatio-Temporal Context Prompting for Zero-Shot Action Detection

arxiv url: http://arxiv.org/abs/2408.15996v1
Date: Wed, 28 Aug 2024 17:59:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-29 14:59:16.328111
Title: Spatio-Temporal Context Prompting for Zero-Shot Action Detection
Title（参考訳）: ゼロショット動作検出のための時空間時空間プロンプト
Authors: Wei-Jhe Huang, Min-Hung Chen, Shang-Hong Lai,
Abstract要約: 本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
参考スコア（独自算出の注目度）: 13.22912547389941
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Spatio-temporal action detection encompasses the tasks of localizing and classifying individual actions within a video. Recent works aim to enhance this process by incorporating interaction modeling, which captures the relationship between people and their surrounding context. However, these approaches have primarily focused on fully-supervised learning, and the current limitation lies in the lack of generalization capability to recognize unseen action categories. In this paper, we aim to adapt the pretrained image-language models to detect unseen actions. To this end, we propose a method which can effectively leverage the rich knowledge of visual-language models to perform Person-Context Interaction. Meanwhile, our Context Prompting module will utilize contextual information to prompt labels, thereby enhancing the generation of more representative text features. Moreover, to address the challenge of recognizing distinct actions by multiple people at the same timestamp, we design the Interest Token Spotting mechanism which employs pretrained visual knowledge to find each person's interest context tokens, and then these tokens will be used for prompting to generate text features tailored to each individual. To evaluate the ability to detect unseen actions, we propose a comprehensive benchmark on J-HMDB, UCF101-24, and AVA datasets. The experiments show that our method achieves superior results compared to previous approaches and can be further extended to multi-action videos, bringing it closer to real-world applications. The code and data can be found in https://webber2933.github.io/ST-CLIP-project-page.
Abstract（参考訳）: 時空間行動検出は、ビデオ内の個々のアクションをローカライズし分類するタスクを含む。最近の研究は、人間と周囲の文脈との関係を捉えた相互作用モデリングを取り入れることで、このプロセスを強化することを目的としている。しかしながら、これらのアプローチは、主に完全に教師付き学習に焦点を当てており、現在の制限は、目に見えないアクションカテゴリを認識する一般化能力の欠如にある。本稿では,事前学習された画像言語モデルを用いて,未知の動作を検出することを目的とする。そこで本稿では,視覚モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。一方、Context Promptingモジュールは、コンテキスト情報を利用してラベルをプロンプトし、より代表的なテキスト機能を生成する。さらに,複数人の異なる行動を同時に認識する課題に対処するため,事前学習した視覚的知識を用いて各人の関心コンテキストトークンを抽出する関心トークンスポッティング機構を設計し,そのトークンを用いて各個人に適したテキスト特徴の生成を促す。 J-HMDB, UCF101-24, AVAデータセットの総合的なベンチマークを提案する。実験により,本手法は従来の手法よりも優れた結果が得られることを示すとともに,マルチアクションビデオにも拡張可能であることを示し,実世界のアプリケーションに近づいた。コードとデータはhttps://webber2933.github.io/ST-CLIP-project-pageにある。

関連論文リスト

Contextualized Representation Learning for Effective Human-Object Interaction Detection [17.242400169885453]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間オブジェクトのペアを同時にローカライズし、その相互作用を認識することを目的としている。本研究では,条件付き推論と文脈的プロンプトを統合した文脈適応型表現学習を提案する。提案手法は, HICO-DetデータセットとV-COCOデータセットの両方において, 多くのシナリオにおいて優れた性能を示す。
論文参考訳（メタデータ） (2025-09-16T08:03:16Z)
Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-23T12:30:19Z)
Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文参考訳（メタデータ） (2024-08-05T14:05:25Z)
Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文参考訳（メタデータ） (2024-04-19T07:24:32Z)
Towards Zero-shot Human-Object Interaction Detection via Vision-Language Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文参考訳（メタデータ） (2024-03-12T02:07:23Z)
Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文参考訳（メタデータ） (2023-11-26T09:11:32Z)
Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文参考訳（メタデータ） (2023-05-29T17:50:33Z)
Exploring Effective Factors for Improving Visual In-Context Learning [56.14208975380607]
In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
論文参考訳（メタデータ） (2023-04-10T17:59:04Z)
Interaction-Aware Prompting for Zero-Shot Spatio-Temporal Action Detection [12.109835641702784]
空間的時間的行動検出は、各人の行動がビデオで起こっている時間と場所を決定することである。既存の手法のほとんどは、大量のトレーニングデータを必要とする完全教師付き学習を採用している。本稿では、事前学習された視覚言語モデルを用いて、代表画像とテキストの特徴を抽出する。
論文参考訳（メタデータ） (2023-04-10T16:08:59Z)
HOICLIP: Efficient Knowledge Transfer for HOI Detection with Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-28T07:54:54Z)
Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文参考訳（メタデータ） (2022-12-07T03:36:37Z)
A Graph-based Interactive Reasoning for Human-Object Interaction Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。 In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文参考訳（メタデータ） (2020-07-14T09:29:03Z)
Inferring Temporal Compositions of Actions Using Probabilistic Automata [61.09176771931052]
本稿では,動作の時間的構成を意味正規表現として表現し,確率的オートマトンを用いた推論フレームワークを提案する。我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得するという既存の研究とは異なる。
論文参考訳（メタデータ） (2020-04-28T00:15:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。