論文の概要: Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal
Attention
- arxiv url: http://arxiv.org/abs/2109.02955v1
- Date: Tue, 7 Sep 2021 09:22:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 20:20:21.043071
- Title: Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal
Attention
- Title(参考訳): ダイナミックモードアテンションによるセンサ強化エゴセントリックビデオキャプション
- Authors: Katsuyuki Nakamura, Hiroki Ohashi, Mitsuhiro Okada
- Abstract要約: センサを付加したエゴセントリック・ビデオキャプションの新しい課題を提案する。
我々は、ウェアラブルセンサーデータを補助情報として利用し、自我中心視における固有の問題を緩和する。
- 参考スコア(独自算出の注目度): 0.9668407688201357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically describing video, or video captioning, has been widely studied
in the multimedia field. This paper proposes a new task of sensor-augmented
egocentric-video captioning, a newly constructed dataset for it called MMAC
Captions, and a method for the newly proposed task that effectively utilizes
multi-modal data of video and motion sensors, or inertial measurement units
(IMUs). While conventional video captioning tasks have difficulty in dealing
with detailed descriptions of human activities due to the limited view of a
fixed camera, egocentric vision has greater potential to be used for generating
the finer-grained descriptions of human activities on the basis of a much
closer view. In addition, we utilize wearable-sensor data as auxiliary
information to mitigate the inherent problems in egocentric vision: motion
blur, self-occlusion, and out-of-camera-range activities. We propose a method
for effectively utilizing the sensor data in combination with the video data on
the basis of an attention mechanism that dynamically determines the modality
that requires more attention, taking the contextual information into account.
We compared the proposed sensor-fusion method with strong baselines on the MMAC
Captions dataset and found that using sensor data as supplementary information
to the egocentric-video data was beneficial, and that our proposed method
outperformed the strong baselines, demonstrating the effectiveness of the
proposed method.
- Abstract(参考訳): マルチメディア分野では、ビデオや字幕を自動的に記述する手法が広く研究されている。
本稿では,センサ強化型エゴセントリックビデオキャプション,MMACキャプションと呼ばれる新たなデータセット,および映像・モーションセンサのマルチモーダルデータ,慣性計測ユニット(IMU)を効果的に活用するタスクを提案する。
従来のビデオキャプションタスクは、固定カメラの視野が限られているため、人間の活動の詳細な説明を扱うのが難しいが、より深い視点に基づいて、人間の活動のきめ細かい記述を生成するために、自我中心の視覚が用いられる可能性が大きい。
さらに,ウェアラブルセンサデータを補助情報として活用し,運動のぼやけや自己遮蔽,カメラ外活動など,自己中心的視覚における本質的問題を緩和する。
本研究では,映像データと組み合わせてセンサデータを有効に活用する手法を提案し,文脈情報を考慮して,より注意を要するモーダリティを動的に決定する注意機構を提案する。
提案手法をmmacキャプションデータセットの強いベースラインと比較し,エゴセンタビデオデータに対する補足情報としてセンサデータを用いることが有用であり,提案手法が強力なベースラインよりも優れており,提案手法の有効性が実証された。
関連論文リスト
- IndGIC: Supervised Action Recognition under Low Illumination [0.0]
深層多入力ネットワークを用いた行動認識手法を提案する。
Ind-GICは低照度映像の高精細化のために提案され、1フレームに1ガンマを発生させ、高精細化性能を向上する。
実験結果から,本モデルはARIDデータセットの精度が高いことがわかった。
論文 参考訳(メタデータ) (2023-08-29T14:41:10Z) - A Real-time Human Pose Estimation Approach for Optimal Sensor Placement
in Sensor-based Human Activity Recognition [63.26015736148707]
本稿では,人間の行動認識に最適なセンサ配置の課題を解決するための新しい手法を提案する。
得られた骨格データは、最適なセンサ位置を特定するためのユニークな戦略を提供する。
本研究は,センサ配置の視覚的手法が従来のディープラーニング手法と同等の結果をもたらすことを示唆している。
論文 参考訳(メタデータ) (2023-07-06T10:38:14Z) - EgoDistill: Egocentric Head Motion Distillation for Efficient Video
Understanding [90.9111678470214]
本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。
提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。
Ego4D と EPICKitchens のデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:39:23Z) - You Need to Read Again: Multi-granularity Perception Network for Moment
Retrieval in Videos [19.711703590063976]
本稿では,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多粒度知覚ネットワーク(MGPN)を提案する。
具体的には、モーメント検索を多選択読解タスクとして定式化し、人間の読解戦略をフレームワークに統合する。
論文 参考訳(メタデータ) (2022-05-25T16:15:46Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z) - Self-Supervised Joint Encoding of Motion and Appearance for First Person
Action Recognition [19.93779132095822]
これら2つの情報チャネルを相互に介在する学習機能は有用である,と我々は主張する。
本稿では,自己教師付き動作予測ブロックの追加により,単一ストリームアーキテクチャで実現可能であることを提案する。
いくつかの公開データベースの実験は、我々のアプローチの力を示しています。
論文 参考訳(メタデータ) (2020-02-10T17:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。