論文の概要: Human-Object Interaction Prediction in Videos through Gaze Following
- arxiv url: http://arxiv.org/abs/2306.03597v1
- Date: Tue, 6 Jun 2023 11:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 15:43:08.542315
- Title: Human-Object Interaction Prediction in Videos through Gaze Following
- Title(参考訳): 視線追従による映像中の人間と物体の相互作用予測
- Authors: Zhifan Ni, Esteve Valls Mascar\'o, Hyemin Ahn, Dongheui Lee
- Abstract要約: 我々は、現在のHOIを検出し、将来のHOIをビデオで予測するためのフレームワークを設計する。
我々は、人間がオブジェクトと対話する前にしばしば固定するので、人間の情報を活用することを提案する。
我々のモデルは、日々の生活を捉えたビデオを含むVidHOIデータセットで訓練され、検証されている。
- 参考スコア(独自算出の注目度): 9.61701724661823
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding the human-object interactions (HOIs) from a video is essential
to fully comprehend a visual scene. This line of research has been addressed by
detecting HOIs from images and lately from videos. However, the video-based HOI
anticipation task in the third-person view remains understudied. In this paper,
we design a framework to detect current HOIs and anticipate future HOIs in
videos. We propose to leverage human gaze information since people often fixate
on an object before interacting with it. These gaze features together with the
scene contexts and the visual appearances of human-object pairs are fused
through a spatio-temporal transformer. To evaluate the model in the HOI
anticipation task in a multi-person scenario, we propose a set of person-wise
multi-label metrics. Our model is trained and validated on the VidHOI dataset,
which contains videos capturing daily life and is currently the largest video
HOI dataset. Experimental results in the HOI detection task show that our
approach improves the baseline by a great margin of 36.3% relatively. Moreover,
we conduct an extensive ablation study to demonstrate the effectiveness of our
modifications and extensions to the spatio-temporal transformer. Our code is
publicly available on https://github.com/nizhf/hoi-prediction-gaze-transformer.
- Abstract(参考訳): 映像から人間と物体の相互作用(HOI)を理解することは、視覚シーンを完全に理解するのに不可欠である。
この一連の研究は、画像や最近ビデオからHOIを検出することで解決されている。
しかし,3人称視点でのHOI予測タスクはまだ検討されていない。
本稿では,現在のHOIを検知し,将来のHOIをビデオで予測するためのフレームワークを設計する。
対話する前に物体に固定することが多いため,人間の視線情報を活用することを提案する。
これらの視線特徴とシーンコンテキストと、人間の物体対の視覚的外観は、時空間変換器を介して融合される。
HOI予測タスクのモデルを多人数シナリオで評価するために,個人単位の多ラベルメトリクスのセットを提案する。
我々のモデルは、日々の生活を捉えたビデオを含むVidHOIデータセットでトレーニングされ、検証され、現在、最大のビデオHOIデータセットである。
HOI検出タスクの実験結果から,本手法はベースラインを36.3%の差で改善することが示された。
さらに,時空間変圧器の改良および拡張の有効性を示すため,広範囲にわたるアブレーション研究を行った。
私たちのコードはhttps://github.com/nizhf/hoi-prediction-gaze-transformerで公開しています。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Interaction Region Visual Transformer for Egocentric Action Anticipation [18.873728614415946]
本研究では,エゴセントリックな行動予測のための人間と物体の相互作用を表現する新しい手法を提案する。
空間的クロスアテンションを用いた手と物体の相互作用をモデル化する。
次に,トラジェクトリ・クロス・アテンションを用いてコンテキスト情報を注入し,環境に合った対話トークンを得る。
これらのトークンを用いて,アクション予測のためのインタラクション中心のビデオ表現を構築する。
論文 参考訳(メタデータ) (2022-11-25T15:00:51Z) - Estimation of Appearance and Occupancy Information in Birds Eye View
from Surround Monocular Images [2.69840007334476]
Birds-eye View (BEV)は、トップダウンビューから、エゴ車両フレーム内の異なる交通参加者の位置を表す。
360デグ視野(FOV)をカバーするモノクラーカメラのアレイから、様々な交通参加者の外観や占有情報をキャプチャする新しい表現を提案する。
我々は、すべてのカメラ画像の学習画像埋め込みを使用して、シーンの外観と占有度の両方をキャプチャする瞬間に、シーンのBEVを生成する。
論文 参考訳(メタデータ) (2022-11-08T20:57:56Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction
Detection in Videos [91.29436920371003]
時空間HoI検出(ST-HOI)という,シンプルで効果的なアーキテクチャを提案する。
我々は、人や物体の軌跡、正しく位置付けられた視覚的特徴、空間的マスキングのポーズ特徴などの時間的情報を利用する。
我々は、VidHOIと呼ばれる新しいビデオHOIベンチマークを構築し、提案手法は安定したベースラインとして機能する。
論文 参考訳(メタデータ) (2021-05-25T07:54:35Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z) - LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal
Networks for HOI in videos [13.25502885135043]
ビデオから人間と物体の相互作用を分析すると、人間とビデオに存在する物体の関係が特定される。
映像中の複数の粒度の真理を効果的に捉え,視覚的特徴を学習するための階層的アプローチ LIGHTEN を提案する。
V-COCOにおける人間と物体の相互作用検出(88.9%と92.6%)とCAD-120の予測タスクおよび画像ベースHOI検出の競争結果の最先端化を実現した。
論文 参考訳(メタデータ) (2020-12-17T05:44:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。