論文の概要: Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions
- arxiv url: http://arxiv.org/abs/2110.03562v1
- Date: Thu, 7 Oct 2021 15:30:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:39:55.532917
- Title: Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions
- Title(参考訳): コントラスト時空間による映像中の人間と物体の相互作用検出
- Authors: Shuang Li, Yilun Du, Antonio Torralba, Josef Sivic, and Bryan Russell
- Abstract要約: システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
- 参考スコア(独自算出の注目度): 81.88294320397826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the task of weakly supervised learning for detecting human and
object interactions in videos. Our task poses unique challenges as a system
does not know what types of human-object interactions are present in a video or
the actual spatiotemporal location of the human and the object. To address
these challenges, we introduce a contrastive weakly supervised training loss
that aims to jointly associate spatiotemporal regions in a video with an action
and object vocabulary and encourage temporal continuity of the visual
appearance of moving objects as a form of self-supervision. To train our model,
we introduce a dataset comprising over 6.5k videos with human-object
interaction annotations that have been semi-automatically curated from sentence
captions associated with the videos. We demonstrate improved performance over
weakly supervised baselines adapted to our task on our video dataset.
- Abstract(参考訳): 本稿では,映像中の人間と物体の相互作用を検出するための弱教師付き学習の課題を紹介する。
私たちのタスクは、ビデオに写っている人間とオブジェクトの相互作用の種類や、人間とオブジェクトの実際の時空間的位置が分からないため、ユニークな課題を提起します。
これらの課題に対処するために,映像中の時空間領域と動作や対象語彙を協調的に関連付けることを目的として,移動物体の視覚的外観の時間的連続性を自己スーパービジョンとして促進する,コントラスト的弱教師付きトレーニング損失を導入する。
本モデルでは,ビデオに関連する文文から半自動でキュレートされた,人間とオブジェクトの相互作用アノテーションを用いた6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセット上でのタスクに適応した弱教師付きベースラインの性能向上を示す。
関連論文リスト
- AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation [40.81246588724407]
AnchorCrafterは、ターゲットの人間とカスタマイズされたオブジェクトを特徴とする2Dビデオを生成するように設計された新しいシステムである。
本稿では,物体の外観認識を任意の視点から拡張するHOI-appearance Recognitionと,複雑な人間と物体の相互作用を可能にするHOI-motion Injectionという2つの重要なイノベーションを提案する。
提案システムは、人間の外観と動きの一貫性を維持しながら、物体の外観と形状の認識を保存するための既存の手法よりも優れる。
論文 参考訳(メタデータ) (2024-11-26T12:42:13Z) - I-MPN: Inductive Message Passing Network for Efficient Human-in-the-Loop Annotation of Mobile Eye Tracking Data [4.487146086221174]
本稿では,移動眼球追跡設定における物体の自動認識のための新しい人間中心学習アルゴリズムを提案する。
提案手法は,オブジェクト検出器と空間的関係を考慮した誘導型メッセージパッシングネットワーク(I-MPN)をシームレスに統合し,ノードプロファイル情報を活用し,オブジェクト相関を捉える。
論文 参考訳(メタデータ) (2024-06-10T13:08:31Z) - Tragedy Plus Time: Capturing Unintended Human Activities from
Weakly-labeled Videos [31.1632730473261]
W-Oopsは2100の意図しない人間のアクションビデオで構成され、44のゴール指向と30の意図しないビデオレベルのアクティビティラベルが人間のアノテーションを通じて収集されている。
本稿では,映像中の意図しない時間領域だけでなく,目標指向の局所化のための弱教師付きアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-28T14:56:43Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。