論文の概要: Detecting Attended Visual Targets in Video
- arxiv url: http://arxiv.org/abs/2003.02501v2
- Date: Mon, 30 Mar 2020 23:38:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 07:19:01.123096
- Title: Detecting Attended Visual Targets in Video
- Title(参考訳): 映像中の視標検出
- Authors: Eunji Chong, Yongxin Wang, Nataniel Ruiz, and James M. Rehg
- Abstract要約: 実世界の視線行動の複雑な動的パターンを含む新しいアノテーション付きデータセットVideoAttentionTargetを導入する。
実験の結果,ビデオの動的注意を効果的に推測できることがわかった。
ウェアラブルカメラやアイトラッカーを使わずに臨床関連視線行動を自動的に分類する最初の結果を得た。
- 参考スコア(独自算出の注目度): 25.64146711657225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of detecting attention targets in video. Our goal is
to identify where each person in each frame of a video is looking, and
correctly handle the case where the gaze target is out-of-frame. Our novel
architecture models the dynamic interaction between the scene and head features
and infers time-varying attention targets. We introduce a new annotated
dataset, VideoAttentionTarget, containing complex and dynamic patterns of
real-world gaze behavior. Our experiments show that our model can effectively
infer dynamic attention in videos. In addition, we apply our predicted
attention maps to two social gaze behavior recognition tasks, and show that the
resulting classifiers significantly outperform existing methods. We achieve
state-of-the-art performance on three datasets: GazeFollow (static images),
VideoAttentionTarget (videos), and VideoCoAtt (videos), and obtain the first
results for automatically classifying clinically-relevant gaze behavior without
wearable cameras or eye trackers.
- Abstract(参考訳): ビデオ中の注意対象を検出する問題に対処する。
私たちのゴールは、ビデオの各フレーム内の各人が見ている場所を特定し、視線対象がフレーム外である場合を正しく処理することです。
提案するアーキテクチャは,シーンと頭部特徴の動的相互作用をモデル化し,時間的に変化する注意目標を推定する。
実世界の視線行動の複雑な動的パターンを含む新しいアノテーション付きデータセットVideoAttentionTargetを導入する。
実験の結果,本モデルは動画の動的注意を効果的に推測できることがわかった。
さらに,2つの社会的視線行動認識タスクに予測された注意マップを適用し,その結果の分類器が既存の手法を大きく上回っていることを示す。
GazeFollow(静的画像), VideoAttentionTarget(ビデオ), VideoCoAtt(ビデオ)の3つのデータセットで最先端のパフォーマンスを実現し,ウェアラブルカメラやアイトラッカーを使わずに臨床関連視線行動を自動的に分類する最初の結果を得た。
関連論文リスト
- Seeing Eye to AI: Comparing Human Gaze and Model Attention in Video Memorability [21.44002657362493]
我々は,ビデオの暗記性予測において,時間的注意をTASo(State-of-the-art)のパフォーマンスに合わせることなく特徴を解析できる,シンプルなCNN+Transformerアーキテクチャを採用する。
本研究は,ヒトが記憶課題を遂行する視線追跡研究を通じて,人間の定着に対するモデル注意度を比較した。
論文 参考訳(メタデータ) (2023-11-26T05:14:06Z) - Decoding Attention from Gaze: A Benchmark Dataset and End-to-End Models [6.642042615005632]
視線追跡は、生態学的に有効な環境において、人間の認知に関する豊富な行動データを提供する可能性がある。
本稿では,コンピュータビジョンツールを用いて,時間とともに参加者の過度な視覚的注意の軌跡を評価する作業である「アテンション・デコーディング」について検討する。
論文 参考訳(メタデータ) (2022-11-20T12:24:57Z) - ViA: View-invariant Skeleton Action Representation Learning via Motion
Retargeting [10.811088895926776]
ViAは、自己教師付き骨格行動表現学習のための新しいビュー不変オートエンコーダである。
本研究では,実世界のデータに基づく自己教師付き事前学習による骨格に基づく行動認識のための移動学習に焦点を当てた研究を行う。
以上の結果から,ViAから得られた骨格表現は,最先端の動作分類精度を向上させるのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-08-31T18:49:38Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos [79.05486554647918]
本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。
AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
論文 参考訳(メタデータ) (2021-07-24T15:14:20Z) - Improved Actor Relation Graph based Group Activity Recognition [0.0]
人間の行動やグループ活動の詳細な説明は必須情報であり、リアルタイムCCTVビデオ監視、医療、スポーツビデオ分析などに利用することができる。
本研究では,一対のアクターの外観的類似性とアクターの位置を学習することで,グループ活動認識を主眼とする映像理解手法を提案する。
論文 参考訳(メタデータ) (2020-10-24T19:46:49Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z) - Knowing What, Where and When to Look: Efficient Video Action Modeling
with Attention [84.83632045374155]
注意ビデオモデリングは、制約のないビデオにおける行動認識に不可欠である。
What-Where-When (W3)ビデオアテンションモジュールは、ビデオアテンションの3つの面を一緒にモデル化する。
実験により,我々の注意モデルが既存の行動認識モデルに大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-04-02T21:48:11Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。