論文の概要: First Place Solution to the CVPR'2023 AQTC Challenge: A
Function-Interaction Centric Approach with Spatiotemporal Visual-Language
Alignment
- arxiv url: http://arxiv.org/abs/2306.13380v1
- Date: Fri, 23 Jun 2023 09:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 13:16:45.541245
- Title: First Place Solution to the CVPR'2023 AQTC Challenge: A
Function-Interaction Centric Approach with Spatiotemporal Visual-Language
Alignment
- Title(参考訳): cvpr'2023 aqtcチャレンジの第1位:時空間視覚言語アライメントを用いた機能-相互作用中心アプローチ
- Authors: Tom Tongjia Chen, Hongshan Yu, Zhengeng Yang, Ming Li, Zechuan Li,
Jingwen Wang, Wei Miao, Wei Sun, Chen Chen
- Abstract要約: AQTC(Affordance-Centric Question-driven Task Completion)は、ビデオから包括的かつ体系的な指示を持つユーザに取得するために提案されている。
既存の手法は、視覚的信号と言語的信号の整合性、および人間の物体間の重要な相互作用情報を無視してきた。
本稿では,安定かつ信頼性の高いマルチモーダルデータに寄与する大規模事前学習型視覚モデルとビデオ言語モデルを組み合わせることを提案する。
- 参考スコア(独自算出の注目度): 15.99008977852437
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Affordance-Centric Question-driven Task Completion (AQTC) has been proposed
to acquire knowledge from videos to furnish users with comprehensive and
systematic instructions. However, existing methods have hitherto neglected the
necessity of aligning spatiotemporal visual and linguistic signals, as well as
the crucial interactional information between humans and objects. To tackle
these limitations, we propose to combine large-scale pre-trained
vision-language and video-language models, which serve to contribute stable and
reliable multimodal data and facilitate effective spatiotemporal visual-textual
alignment. Additionally, a novel hand-object-interaction (HOI) aggregation
module is proposed which aids in capturing human-object interaction
information, thereby further augmenting the capacity to understand the
presented scenario. Our method achieved first place in the CVPR'2023 AQTC
Challenge, with a Recall@1 score of 78.7\%. The code is available at
https://github.com/tomchen-ctj/CVPR23-LOVEU-AQTC.
- Abstract(参考訳): AQTC(Affordance-Centric Question-driven Task Completion)は、ビデオから知識を取得し、包括的で体系的な指示をユーザに与えるために提案されている。
しかし、既存の手法では、時空間的視覚信号と言語信号の整合の必要性や、人間と物体間の重要な相互作用情報を無視している。
これらの制約に対処するため,我々は,安定で信頼性の高いマルチモーダルデータを提供し,有効な時空間的視覚・テキストアライメントを容易にする,大規模事前学習された視覚言語モデルとビデオ言語モデルを組み合わせることを提案する。
また,人-物間相互作用情報を収集し,提示されたシナリオを理解する能力をさらに増強する,新たな手-物-相互作用(HOI)アグリゲーションモジュールを提案する。
本手法はcvpr'2023 aqtcチャレンジで78.7\%のリコール@1スコアで1位となった。
コードはhttps://github.com/tomchen-ctj/CVPR23-LOVEU-AQTCで公開されている。
関連論文リスト
- Ask, Pose, Unite: Scaling Data Acquisition for Close Interactions with Vision Language Models [5.541130887628606]
密接な人間間相互作用における社会的ダイナミクスはヒューマンメッシュ推定(HME)に重大な課題をもたらす
本稿では,LVLM(Large Vision Language Models)を用いた新しいデータ生成手法を提案する。
この手法は、アノテーションの負担を軽減するだけでなく、HME内の密接な相互作用に適した包括的なデータセットの組み立てを可能にする。
論文 参考訳(メタデータ) (2024-10-01T01:14:24Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - Towards Zero-shot Human-Object Interaction Detection via Vision-Language
Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。
より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。
我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T02:07:23Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Mining Conditional Part Semantics with Occluded Extrapolation for
Human-Object Interaction Detection [16.9278983497498]
人間と物体の相互作用の検出は、人間中心のシーン理解の重要な側面である。
既存の手法では、人間の手掛かりを使って難易度を緩和しようとするが、外部のアノテーションや知識に大きく依存する。
この問題を解決するための新しいパートセマンティックネットワーク(PSN)を提案する。
論文 参考訳(メタデータ) (2023-07-19T23:55:15Z) - Weakly-Supervised HOI Detection from Interaction Labels Only and
Language/Vision-Language Priors [36.75629570208193]
人-物相互作用検出(Human-object Interaction, HOI)は、人-物対とその相互作用カテゴリを、与えられた自然な画像から抽出することを目的としている。
本稿では,画像レベルのインタラクションラベルのみを用いて,文献における最も弱い監視設定によるHOI検出に取り組む。
まず,非相互作用型人間とオブジェクトの提案を駆使して,バッグ内の正の対の質を高める手法を提案する。
第2に、大きな言語モデルを使用して、人間とオブジェクトのカテゴリ間の相互作用を問合せし、モデルを強調しないよう強制する。
論文 参考訳(メタデータ) (2023-03-09T19:08:02Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。