論文の概要: The Use of Video Captioning for Fostering Physical Activity
- arxiv url: http://arxiv.org/abs/2104.03207v1
- Date: Wed, 7 Apr 2021 15:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 13:04:50.286708
- Title: The Use of Video Captioning for Fostering Physical Activity
- Title(参考訳): 映像キャプションを用いた身体活動の促進
- Authors: Soheyla Amirian, Abolfazl Farahani, Hamid R. Arabnia, Khaled Rasheed,
Thiab R. Taha
- Abstract要約: 本論文では,映像中のアクティビティを記述し,日常の身体活動レベルを推定することを目的としたビデオキャプションフレームワークを提案する。
私達の予備研究に基づいて、このプロジェクトに大きい利点があります。
- 参考スコア(独自算出の注目度): 2.4936576553283283
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video Captioning is considered to be one of the most challenging problems in
the field of computer vision. Video Captioning involves the combination of
different deep learning models to perform object detection, action detection,
and localization by processing a sequence of image frames. It is crucial to
consider the sequence of actions in a video in order to generate a meaningful
description of the overall action event. A reliable, accurate, and real-time
video captioning method can be used in many applications. However, this paper
focuses on one application: video captioning for fostering and facilitating
physical activities. In broad terms, the work can be considered to be assistive
technology. Lack of physical activity appears to be increasingly widespread in
many nations due to many factors, the most important being the convenience that
technology has provided in workplaces. The adopted sedentary lifestyle is
becoming a significant public health issue. Therefore, it is essential to
incorporate more physical movements into our daily lives. Tracking one's daily
physical activities would offer a base for comparison with activities performed
in subsequent days. With the above in mind, this paper proposes a video
captioning framework that aims to describe the activities in a video and
estimate a person's daily physical activity level. This framework could
potentially help people trace their daily movements to reduce an inactive
lifestyle's health risks. The work presented in this paper is still in its
infancy. The initial steps of the application are outlined in this paper. Based
on our preliminary research, this project has great merit.
- Abstract(参考訳): ビデオキャプションはコンピュータビジョンの分野で最も難しい問題の一つであると考えられている。
ビデオキャプションは、さまざまなディープラーニングモデルを組み合わせて、画像フレームのシーケンスを処理することによって、オブジェクトの検出、アクション検出、ローカライズを行う。
全体的なアクションイベントの有意義な記述を生成するためには、ビデオ内のアクションのシーケンスを検討することが不可欠である。
多くのアプリケーションで、信頼性、正確、リアルタイムのビデオキャプション方式が利用できる。
しかし,本稿では,身体活動の促進と促進を目的としたビデオキャプションについて述べる。
広い意味では、この仕事は補助技術と見なすことができる。
多くの要因により、多くの国で身体活動の欠如が広がり、最も重要なのは、職場でテクノロジーが提供してきた利便性である。
sedentary lifestyleの採択は、公衆衛生の重要な問題となっている。
そのため、日常生活にもっと身体的な動きを組み込むことが不可欠である。
毎日の身体活動を追跡することは、その後の日々の活動と比較するための基盤となる。
以上のことを念頭に,映像中の活動について記述し,日常生活の身体活動レベルを推定することを目的とした映像キャプションフレームワークを提案する。
この枠組みは、日常生活の健康リスクを減らすために日々の動きを追跡するのに役立つ可能性がある。
この論文で示された作品は、まだ初期段階です。
本論文では,アプリケーションの初期手順について概説する。
私たちの予備調査に基づいて、このプロジェクトには大きなメリットがあります。
関連論文リスト
- Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文 参考訳(メタデータ) (2023-05-28T19:14:25Z) - HumanMAC: Masked Motion Completion for Human Motion Prediction [62.279925754717674]
人間の動き予測はコンピュータビジョンとコンピュータグラフィックスの古典的な問題である。
従来の効果はエンコーディング・デコード方式に基づく経験的性能を実現している。
本稿では,新しい視点から新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-02-07T18:34:59Z) - Learning Object Manipulation Skills from Video via Approximate
Differentiable Physics [27.923004421974156]
我々はロボットに、単一のビデオデモを見て、シンプルなオブジェクト操作タスクを実行するように教える。
識別可能なシーンは、3Dシーンと2Dビデオの間の知覚的忠実性を保証する。
我々は,54のデモ映像からなる3次元再構成作業に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-08-03T10:21:47Z) - Video Action Detection: Analysing Limitations and Challenges [70.01260415234127]
ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。
静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。
このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
論文 参考訳(メタデータ) (2022-04-17T00:42:14Z) - Shaping embodied agent behavior with activity-context priors from
egocentric video [102.0541532564505]
そこで我々は,人間の着用カメラで撮影した野生の自我中心の映像から,アクティビティ・コンテクストの先行情報を発見するためのアプローチを提案する。
我々は,ビデオの先行を補助報酬関数としてエンコードし,エージェントが対話を試みる前に,互換性のあるオブジェクトをまとめるように促す。
我々は,AI2-iTHORの様々な複雑なタスクを行う仮想家庭ロボットエージェントに利益をもたらすために,記述されていないキッチン活動を行う人々のエゴセントリックEPIC-Kitchensビデオを用いて,私たちのアイデアを実証する。
論文 参考訳(メタデータ) (2021-10-14T20:02:59Z) - Video Action Recognition Using spatio-temporal optical flow video frames [0.0]
ビデオにおける人間の行動の認識には多くの問題がある。
本稿では,Deep Neural Networksを用いたビデオ分類のための空間的および時間的パターン認識に注目する。
最終認識精度は約94%であった。
論文 参考訳(メタデータ) (2021-02-05T19:46:49Z) - Improved Actor Relation Graph based Group Activity Recognition [0.0]
人間の行動やグループ活動の詳細な説明は必須情報であり、リアルタイムCCTVビデオ監視、医療、スポーツビデオ分析などに利用することができる。
本研究では,一対のアクターの外観的類似性とアクターの位置を学習することで,グループ活動認識を主眼とする映像理解手法を提案する。
論文 参考訳(メタデータ) (2020-10-24T19:46:49Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z) - Recognizing Video Events with Varying Rhythms [29.317374512823154]
動作リズムの異なる長大かつ複雑な事象を認識することの問題点について検討する。
私たちの研究は、人間が様々なリズムでイベントを識別する方法にインスパイアされています。
本稿では,第1段階が最も重要なフレームを選択する2段階のエンペンド・ツー・エンドフレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-14T22:06:48Z) - Delving into 3D Action Anticipation from Streaming Videos [99.0155538452263]
アクション予測は、部分的な観察でアクションを認識することを目的としている。
本稿では,いくつかの相補的評価指標を導入し,フレームワイド動作分類に基づく基本モデルを提案する。
また,全動作表現とクラス非依存行動ラベルという2つの側面から補助情報を取り入れたマルチタスク学習戦略についても検討する。
論文 参考訳(メタデータ) (2019-06-15T10:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。