論文の概要: Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal
Attention
- arxiv url: http://arxiv.org/abs/2109.02955v1
- Date: Tue, 7 Sep 2021 09:22:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 20:20:21.043071
- Title: Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal
Attention
- Title(参考訳): ダイナミックモードアテンションによるセンサ強化エゴセントリックビデオキャプション
- Authors: Katsuyuki Nakamura, Hiroki Ohashi, Mitsuhiro Okada
- Abstract要約: センサを付加したエゴセントリック・ビデオキャプションの新しい課題を提案する。
我々は、ウェアラブルセンサーデータを補助情報として利用し、自我中心視における固有の問題を緩和する。
- 参考スコア(独自算出の注目度): 0.9668407688201357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically describing video, or video captioning, has been widely studied
in the multimedia field. This paper proposes a new task of sensor-augmented
egocentric-video captioning, a newly constructed dataset for it called MMAC
Captions, and a method for the newly proposed task that effectively utilizes
multi-modal data of video and motion sensors, or inertial measurement units
(IMUs). While conventional video captioning tasks have difficulty in dealing
with detailed descriptions of human activities due to the limited view of a
fixed camera, egocentric vision has greater potential to be used for generating
the finer-grained descriptions of human activities on the basis of a much
closer view. In addition, we utilize wearable-sensor data as auxiliary
information to mitigate the inherent problems in egocentric vision: motion
blur, self-occlusion, and out-of-camera-range activities. We propose a method
for effectively utilizing the sensor data in combination with the video data on
the basis of an attention mechanism that dynamically determines the modality
that requires more attention, taking the contextual information into account.
We compared the proposed sensor-fusion method with strong baselines on the MMAC
Captions dataset and found that using sensor data as supplementary information
to the egocentric-video data was beneficial, and that our proposed method
outperformed the strong baselines, demonstrating the effectiveness of the
proposed method.
- Abstract(参考訳): マルチメディア分野では、ビデオや字幕を自動的に記述する手法が広く研究されている。
本稿では,センサ強化型エゴセントリックビデオキャプション,MMACキャプションと呼ばれる新たなデータセット,および映像・モーションセンサのマルチモーダルデータ,慣性計測ユニット(IMU)を効果的に活用するタスクを提案する。
従来のビデオキャプションタスクは、固定カメラの視野が限られているため、人間の活動の詳細な説明を扱うのが難しいが、より深い視点に基づいて、人間の活動のきめ細かい記述を生成するために、自我中心の視覚が用いられる可能性が大きい。
さらに,ウェアラブルセンサデータを補助情報として活用し,運動のぼやけや自己遮蔽,カメラ外活動など,自己中心的視覚における本質的問題を緩和する。
本研究では,映像データと組み合わせてセンサデータを有効に活用する手法を提案し,文脈情報を考慮して,より注意を要するモーダリティを動的に決定する注意機構を提案する。
提案手法をmmacキャプションデータセットの強いベースラインと比較し,エゴセンタビデオデータに対する補足情報としてセンサデータを用いることが有用であり,提案手法が強力なベースラインよりも優れており,提案手法の有効性が実証された。
関連論文リスト
- Motion Capture from Inertial and Vision Sensors [60.5190090684795]
MINIONSは、INertialとvisION Sensorsから収集された大規模なモーションキャプチャーデータセットである。
単眼カメラと極めて少ないIMUを用いたマルチモーダルモーションキャプチャの実験を行った。
論文 参考訳(メタデータ) (2024-07-23T09:41:10Z) - I-MPN: Inductive Message Passing Network for Efficient Human-in-the-Loop Annotation of Mobile Eye Tracking Data [4.487146086221174]
本稿では,移動眼球追跡設定における物体の自動認識のための新しい人間中心学習アルゴリズムを提案する。
提案手法は,オブジェクト検出器と空間的関係を考慮した誘導型メッセージパッシングネットワーク(I-MPN)をシームレスに統合し,ノードプロファイル情報を活用し,オブジェクト相関を捉える。
論文 参考訳(メタデータ) (2024-06-10T13:08:31Z) - Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-06-03T07:58:40Z) - IndGIC: Supervised Action Recognition under Low Illumination [0.0]
深層多入力ネットワークを用いた行動認識手法を提案する。
Ind-GICは低照度映像の高精細化のために提案され、1フレームに1ガンマを発生させ、高精細化性能を向上する。
実験結果から,本モデルはARIDデータセットの精度が高いことがわかった。
論文 参考訳(メタデータ) (2023-08-29T14:41:10Z) - EgoDistill: Egocentric Head Motion Distillation for Efficient Video
Understanding [90.9111678470214]
本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。
提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。
Ego4D と EPICKitchens のデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:39:23Z) - You Need to Read Again: Multi-granularity Perception Network for Moment
Retrieval in Videos [19.711703590063976]
本稿では,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多粒度知覚ネットワーク(MGPN)を提案する。
具体的には、モーメント検索を多選択読解タスクとして定式化し、人間の読解戦略をフレームワークに統合する。
論文 参考訳(メタデータ) (2022-05-25T16:15:46Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z) - Self-Supervised Joint Encoding of Motion and Appearance for First Person
Action Recognition [19.93779132095822]
これら2つの情報チャネルを相互に介在する学習機能は有用である,と我々は主張する。
本稿では,自己教師付き動作予測ブロックの追加により,単一ストリームアーキテクチャで実現可能であることを提案する。
いくつかの公開データベースの実験は、我々のアプローチの力を示しています。
論文 参考訳(メタデータ) (2020-02-10T17:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。