Fugu-MT 論文翻訳(概要): Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention

論文の概要: Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention

arxiv url: http://arxiv.org/abs/2109.02955v1
Date: Tue, 7 Sep 2021 09:22:09 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-08 20:20:21.043071
Title: Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention
Title（参考訳）: ダイナミックモードアテンションによるセンサ強化エゴセントリックビデオキャプション
Authors: Katsuyuki Nakamura, Hiroki Ohashi, Mitsuhiro Okada
Abstract要約: センサを付加したエゴセントリック・ビデオキャプションの新しい課題を提案する。我々は、ウェアラブルセンサーデータを補助情報として利用し、自我中心視における固有の問題を緩和する。
参考スコア（独自算出の注目度）: 0.9668407688201357
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatically describing video, or video captioning, has been widely studied in the multimedia field. This paper proposes a new task of sensor-augmented egocentric-video captioning, a newly constructed dataset for it called MMAC Captions, and a method for the newly proposed task that effectively utilizes multi-modal data of video and motion sensors, or inertial measurement units (IMUs). While conventional video captioning tasks have difficulty in dealing with detailed descriptions of human activities due to the limited view of a fixed camera, egocentric vision has greater potential to be used for generating the finer-grained descriptions of human activities on the basis of a much closer view. In addition, we utilize wearable-sensor data as auxiliary information to mitigate the inherent problems in egocentric vision: motion blur, self-occlusion, and out-of-camera-range activities. We propose a method for effectively utilizing the sensor data in combination with the video data on the basis of an attention mechanism that dynamically determines the modality that requires more attention, taking the contextual information into account. We compared the proposed sensor-fusion method with strong baselines on the MMAC Captions dataset and found that using sensor data as supplementary information to the egocentric-video data was beneficial, and that our proposed method outperformed the strong baselines, demonstrating the effectiveness of the proposed method.
Abstract（参考訳）: マルチメディア分野では、ビデオや字幕を自動的に記述する手法が広く研究されている。本稿では,センサ強化型エゴセントリックビデオキャプション,MMACキャプションと呼ばれる新たなデータセット,および映像・モーションセンサのマルチモーダルデータ,慣性計測ユニット(IMU)を効果的に活用するタスクを提案する。従来のビデオキャプションタスクは、固定カメラの視野が限られているため、人間の活動の詳細な説明を扱うのが難しいが、より深い視点に基づいて、人間の活動のきめ細かい記述を生成するために、自我中心の視覚が用いられる可能性が大きい。さらに,ウェアラブルセンサデータを補助情報として活用し,運動のぼやけや自己遮蔽,カメラ外活動など,自己中心的視覚における本質的問題を緩和する。本研究では,映像データと組み合わせてセンサデータを有効に活用する手法を提案し,文脈情報を考慮して,より注意を要するモーダリティを動的に決定する注意機構を提案する。提案手法をmmacキャプションデータセットの強いベースラインと比較し,エゴセンタビデオデータに対する補足情報としてセンサデータを用いることが有用であり,提案手法が強力なベースラインよりも優れており,提案手法の有効性が実証された。

関連論文リスト

Ego4o: Egocentric Human Motion Capture and Understanding from Multi-Modal Input [62.51283548975632]
この研究は、VR/ARヘッドセット、スマートグラス、携帯電話、スマートウォッチなどの消費者向けウェアラブルデバイスを使用して、人間の動きを追跡し、理解することに焦点を当てている。 Ego4o(o for omni)は,マルチモーダルなエゴセントリックインプットから人間の動きを同時に捉え,理解するための新しいフレームワークである。
論文参考訳（メタデータ） (2025-04-11T11:18:57Z)
COMODO: Cross-Modal Video-to-IMU Distillation for Efficient Egocentric Human Activity Recognition [3.271109623410664]
ビデオモダリティからIMUモダリティへのリッチな意味的知識をラベル付きアノテーションを必要とせずに伝達するクロスモーダルな自己教師型蒸留フレームワークであるCOMODOを提案する。我々のアプローチは、IMUエンコーダが実世界のアプリケーションのためにその効率を保ちながら、ビデオからリッチなセマンティック情報を継承することを可能にする。
論文参考訳（メタデータ） (2025-03-10T12:43:51Z)
E-Motion: Future Motion Simulation via Event Sequence Diffusion [86.80533612211502]
イベントベースのセンサーは、これまで達成できなかった詳細と精度で将来の動きを予測するユニークな機会を提供する可能性がある。本稿では,映像拡散モデルの強力な学習能力とイベントカメラのリッチな動作情報とを,モーションシミュレーションフレームワークとして統合することを提案する。本研究は,コンピュータビジョンシステムの解釈能力と予測精度の向上に向けた今後の研究の方向性を示唆するものである。
論文参考訳（メタデータ） (2024-10-11T09:19:23Z)
Motion Capture from Inertial and Vision Sensors [60.5190090684795]
MINIONSは、INertialとvisION Sensorsから収集された大規模なモーションキャプチャーデータセットである。単眼カメラと極めて少ないIMUを用いたマルチモーダルモーションキャプチャの実験を行った。
論文参考訳（メタデータ） (2024-07-23T09:41:10Z)
I-MPN: Inductive Message Passing Network for Efficient Human-in-the-Loop Annotation of Mobile Eye Tracking Data [4.487146086221174]
本稿では,移動眼球追跡設定における物体の自動認識のための新しい人間中心学習アルゴリズムを提案する。提案手法は,オブジェクト検出器と空間的関係を考慮した誘導型メッセージパッシングネットワーク(I-MPN)をシームレスに統合し,ノードプロファイル情報を活用し,オブジェクト相関を捉える。
論文参考訳（メタデータ） (2024-06-10T13:08:31Z)
Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文参考訳（メタデータ） (2024-06-03T07:58:40Z)
IndGIC: Supervised Action Recognition under Low Illumination [0.0]
深層多入力ネットワークを用いた行動認識手法を提案する。 Ind-GICは低照度映像の高精細化のために提案され、1フレームに1ガンマを発生させ、高精細化性能を向上する。実験結果から,本モデルはARIDデータセットの精度が高いことがわかった。
論文参考訳（メタデータ） (2023-08-29T14:41:10Z)
EgoDistill: Egocentric Head Motion Distillation for Efficient Video Understanding [90.9111678470214]
本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。 Ego4D と EPICKitchens のデータセット上での有効性を示す。
論文参考訳（メタデータ） (2023-01-05T18:39:23Z)
You Need to Read Again: Multi-granularity Perception Network for Moment Retrieval in Videos [19.711703590063976]
本稿では,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多粒度知覚ネットワーク(MGPN)を提案する。具体的には、モーメント検索を多選択読解タスクとして定式化し、人間の読解戦略をフレームワークに統合する。
論文参考訳（メタデータ） (2022-05-25T16:15:46Z)
Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文参考訳（メタデータ） (2021-04-15T17:59:32Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)
Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。 SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文参考訳（メタデータ） (2020-09-01T03:38:31Z)
Self-Supervised Joint Encoding of Motion and Appearance for First Person Action Recognition [19.93779132095822]
これら2つの情報チャネルを相互に介在する学習機能は有用である,と我々は主張する。本稿では,自己教師付き動作予測ブロックの追加により,単一ストリームアーキテクチャで実現可能であることを提案する。いくつかの公開データベースの実験は、我々のアプローチの力を示しています。
論文参考訳（メタデータ） (2020-02-10T17:51:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。