Fugu-MT 論文翻訳(概要): The Use of Video Captioning for Fostering Physical Activity

論文の概要: The Use of Video Captioning for Fostering Physical Activity

arxiv url: http://arxiv.org/abs/2104.03207v1
Date: Wed, 7 Apr 2021 15:52:48 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-08 13:04:50.286708
Title: The Use of Video Captioning for Fostering Physical Activity
Title（参考訳）: 映像キャプションを用いた身体活動の促進
Authors: Soheyla Amirian, Abolfazl Farahani, Hamid R. Arabnia, Khaled Rasheed, Thiab R. Taha
Abstract要約: 本論文では,映像中のアクティビティを記述し,日常の身体活動レベルを推定することを目的としたビデオキャプションフレームワークを提案する。私達の予備研究に基づいて、このプロジェクトに大きい利点があります。
参考スコア（独自算出の注目度）: 2.4936576553283283
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Video Captioning is considered to be one of the most challenging problems in the field of computer vision. Video Captioning involves the combination of different deep learning models to perform object detection, action detection, and localization by processing a sequence of image frames. It is crucial to consider the sequence of actions in a video in order to generate a meaningful description of the overall action event. A reliable, accurate, and real-time video captioning method can be used in many applications. However, this paper focuses on one application: video captioning for fostering and facilitating physical activities. In broad terms, the work can be considered to be assistive technology. Lack of physical activity appears to be increasingly widespread in many nations due to many factors, the most important being the convenience that technology has provided in workplaces. The adopted sedentary lifestyle is becoming a significant public health issue. Therefore, it is essential to incorporate more physical movements into our daily lives. Tracking one's daily physical activities would offer a base for comparison with activities performed in subsequent days. With the above in mind, this paper proposes a video captioning framework that aims to describe the activities in a video and estimate a person's daily physical activity level. This framework could potentially help people trace their daily movements to reduce an inactive lifestyle's health risks. The work presented in this paper is still in its infancy. The initial steps of the application are outlined in this paper. Based on our preliminary research, this project has great merit.
Abstract（参考訳）: ビデオキャプションはコンピュータビジョンの分野で最も難しい問題の一つであると考えられている。ビデオキャプションは、さまざまなディープラーニングモデルを組み合わせて、画像フレームのシーケンスを処理することによって、オブジェクトの検出、アクション検出、ローカライズを行う。全体的なアクションイベントの有意義な記述を生成するためには、ビデオ内のアクションのシーケンスを検討することが不可欠である。多くのアプリケーションで、信頼性、正確、リアルタイムのビデオキャプション方式が利用できる。しかし,本稿では,身体活動の促進と促進を目的としたビデオキャプションについて述べる。広い意味では、この仕事は補助技術と見なすことができる。多くの要因により、多くの国で身体活動の欠如が広がり、最も重要なのは、職場でテクノロジーが提供してきた利便性である。 sedentary lifestyleの採択は、公衆衛生の重要な問題となっている。そのため、日常生活にもっと身体的な動きを組み込むことが不可欠である。毎日の身体活動を追跡することは、その後の日々の活動と比較するための基盤となる。以上のことを念頭に,映像中の活動について記述し,日常生活の身体活動レベルを推定することを目的とした映像キャプションフレームワークを提案する。この枠組みは、日常生活の健康リスクを減らすために日々の動きを追跡するのに役立つ可能性がある。この論文で示された作品は、まだ初期段階です。本論文では,アプリケーションの初期手順について概説する。私たちの予備調査に基づいて、このプロジェクトには大きなメリットがあります。

関連論文リスト

Language-driven Description Generation and Common Sense Reasoning for Video Action Recognition [14.01593872543569]
乱雑なビデオアクションシーケンスを識別するために、言語駆動の常識を取り入れたフレームワークを導入する。本稿では,Action GenomeとCharadesのデータセットに対するアプローチの有効性を示す。
論文参考訳（メタデータ） (2025-06-20T02:43:53Z)
HANDI: Hand-Centric Text-and-Image Conditioned Video Generation [19.26289173517333]
我々は手中心のアクションに焦点をあてたビデオ生成の新しい手法を提案する。我々の拡散法は2つの異なる革新を取り入れている。 EpicKitchens と Ego4D に基づく拡張データセットに挑戦する手法の評価を行った。
論文参考訳（メタデータ） (2024-12-05T14:29:10Z)
Multi class activity classification in videos using Motion History Image generation [0.0]
運動履歴画像は、時間的・活動的な情報を多次元的詳細に捉えるための、よく確立された枠組みであることを示す。我々は、MHIを用いてサンプルデータを作成し、分類器を訓練し、単一のマルチアクションビデオにおいて、6つの異なるアクティビティにわたるアクション分類の有効性を実証する。
論文参考訳（メタデータ） (2024-10-13T16:22:02Z)
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion [9.134743677331517]
本研究では、動きから外見を遠ざけるために、事前訓練された画像間映像モデルを提案する。動作テキストインバージョン(Motion-textual Inversion)と呼ばれるこの手法は、画像から映像へのモデルが、主に(相対的な)画像入力から外観を抽出する、という観察を生かしている。フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。動作参照ビデオと対象画像の間に空間的アライメントを必要とせず,様々な領域にまたがって一般化し,様々なタスクに適用することができる。
論文参考訳（メタデータ） (2024-08-01T10:55:20Z)
Unobtrusive Monitoring of Physical Weakness: A Simulated Approach [22.856249489748617]
高齢化や慢性的な状態は、高齢者の日常生活に影響を与え、発達する健康問題の早期発見が不可欠である。我々は、非侵入型カメラセンサーを用いて、個人の毎日の座り方やリラックスした活動を監視し、弱さの兆候を検知する。健康な被験者の身体運動を行い,運動前後の日常生活行動の変化を観察することにより,弱さをシミュレートする。
論文参考訳（メタデータ） (2024-06-14T13:52:58Z)
Just a Glimpse: Rethinking Temporal Information for Video Continual Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文参考訳（メタデータ） (2023-05-28T19:14:25Z)
HumanMAC: Masked Motion Completion for Human Motion Prediction [62.279925754717674]
人間の動き予測はコンピュータビジョンとコンピュータグラフィックスの古典的な問題である。従来の効果はエンコーディング・デコード方式に基づく経験的性能を実現している。本稿では,新しい視点から新しい枠組みを提案する。
論文参考訳（メタデータ） (2023-02-07T18:34:59Z)
Video Action Detection: Analysing Limitations and Challenges [70.01260415234127]
ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
論文参考訳（メタデータ） (2022-04-17T00:42:14Z)
Shaping embodied agent behavior with activity-context priors from egocentric video [102.0541532564505]
そこで我々は,人間の着用カメラで撮影した野生の自我中心の映像から,アクティビティ・コンテクストの先行情報を発見するためのアプローチを提案する。我々は,ビデオの先行を補助報酬関数としてエンコードし,エージェントが対話を試みる前に,互換性のあるオブジェクトをまとめるように促す。我々は,AI2-iTHORの様々な複雑なタスクを行う仮想家庭ロボットエージェントに利益をもたらすために,記述されていないキッチン活動を行う人々のエゴセントリックEPIC-Kitchensビデオを用いて,私たちのアイデアを実証する。
論文参考訳（メタデータ） (2021-10-14T20:02:59Z)
Video Action Recognition Using spatio-temporal optical flow video frames [0.0]
ビデオにおける人間の行動の認識には多くの問題がある。本稿では,Deep Neural Networksを用いたビデオ分類のための空間的および時間的パターン認識に注目する。最終認識精度は約94%であった。
論文参考訳（メタデータ） (2021-02-05T19:46:49Z)
Improved Actor Relation Graph based Group Activity Recognition [0.0]
人間の行動やグループ活動の詳細な説明は必須情報であり、リアルタイムCCTVビデオ監視、医療、スポーツビデオ分析などに利用することができる。本研究では,一対のアクターの外観的類似性とアクターの位置を学習することで,グループ活動認識を主眼とする映像理解手法を提案する。
論文参考訳（メタデータ） (2020-10-24T19:46:49Z)
ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。 THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文参考訳（メタデータ） (2020-03-12T02:40:36Z)
Delving into 3D Action Anticipation from Streaming Videos [99.0155538452263]
アクション予測は、部分的な観察でアクションを認識することを目的としている。本稿では,いくつかの相補的評価指標を導入し,フレームワイド動作分類に基づく基本モデルを提案する。また,全動作表現とクラス非依存行動ラベルという2つの側面から補助情報を取り入れたマルチタスク学習戦略についても検討する。
論文参考訳（メタデータ） (2019-06-15T10:30:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。