論文の概要: WhyAct: Identifying Action Reasons in Lifestyle Vlogs
- arxiv url: http://arxiv.org/abs/2109.02747v1
- Date: Mon, 6 Sep 2021 21:26:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 14:51:11.291888
- Title: WhyAct: Identifying Action Reasons in Lifestyle Vlogs
- Title(参考訳): whyact: ライフスタイルvlogにおける行動理由の特定
- Authors: Oana Ignat, Santiago Castro, Hanwen Miao, Weiji Li, Rada Mihalcea
- Abstract要約: 我々は、人々が口頭で記述しながら行動するライフスタイルのvlogの幅広いジャンルに焦点を当てる。
その理由を手動でアノテートした1,077の視覚アクションからなるSc WhyActデータセットを公開し、公開する。
- 参考スコア(独自算出の注目度): 19.010712665451592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We aim to automatically identify human action reasons in online videos. We
focus on the widespread genre of lifestyle vlogs, in which people perform
actions while verbally describing them. We introduce and make publicly
available the {\sc WhyAct} dataset, consisting of 1,077 visual actions manually
annotated with their reasons. We describe a multimodal model that leverages
visual and textual information to automatically infer the reasons corresponding
to an action presented in the video.
- Abstract(参考訳): オンラインビデオで人間の行動の理由を自動的に特定することを目指している。
我々は、人々が言葉で記述しながら行動するライフスタイルのvlogの幅広いジャンルに焦点を当てる。
1,077のビジュアルアクションを手作業でアノテートしたデータセットである {\sc whyact} を紹介し,公開する。
ビデオに提示されたアクションに対応する理由を自動的に推測するために,視覚情報とテキスト情報を活用するマルチモーダルモデルについて述べる。
関連論文リスト
- ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions [66.20773952864802]
我々は8.5k画像と59.3k画像に接地されたアクションに関する59.3kの推論からなるデータセットを開発する。
本稿では、提供された視覚入力に特有の言語モデルに存在する知識を識別するフレームワークであるActionCOMETを提案する。
論文 参考訳(メタデータ) (2024-10-17T15:22:57Z) - Diving Deep into the Motion Representation of Video-Text Models [12.197093960700187]
GPT-4の生成した動作記述は、アクティビティのきめ細かい動作記述をキャプチャする。
動作記述の検索作業におけるビデオテキストモデルの評価を行った。
論文 参考訳(メタデータ) (2024-06-07T16:46:10Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - ActAnywhere: Subject-Aware Video Background Generation [62.57759679425924]
映画産業や視覚効果のコミュニティにとって,前景運動に合わせた映像背景の生成は重要な課題である。
この課題は、前景の主題の動きと外観と整合する背景と、芸術家の創造的な意図に合致する。
私たちは、伝統的に面倒な手作業を必要とするこのプロセスを自動化する生成モデルであるActAnywhereを紹介します。
論文 参考訳(メタデータ) (2024-01-19T17:16:16Z) - Generating Action-conditioned Prompts for Open-vocabulary Video Action
Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。
我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。
提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文 参考訳(メタデータ) (2023-12-04T02:31:38Z) - Human-centric Behavior Description in Videos: New Benchmark and Model [37.96539992056626]
我々は,7,820人の動特性を詳細に記述した人間中心のビデオ監視キャプションデータセットを構築した。
このデータセットに基づいて、個人をそれぞれの行動に結びつけることができ、監視ビデオで各人の行動をさらに分析することができる。
論文 参考訳(メタデータ) (2023-10-04T15:31:02Z) - Video-Specific Query-Key Attention Modeling for Weakly-Supervised
Temporal Action Localization [14.43055117008746]
弱いトリミングされた時間的アクションローカライゼーションは、ビデオレベルのアクションラベルのみを用いて、教師なしビデオ内のアクションインスタンスを特定し、ローカライズすることを目的としている。
本稿では,VQK-Netという名前のネットワークを提案する。ビデオ固有のクエリキーアテンションモデリングにより,各ビデオのアクションカテゴリ毎にユニークなクエリを学習する。
論文 参考訳(メタデータ) (2023-05-07T04:18:22Z) - Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。
提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文 参考訳(メタデータ) (2022-12-07T03:36:37Z) - When Did It Happen? Duration-informed Temporal Localization of Narrated
Actions in Vlogs [3.9146761527401424]
ライフスタイルのvlogにおける時間的人間行動のローカライゼーションの課題について考察する。
1200本のビデオクリップで13,000件のナレーション行動に対して,時間的局所化の手動アノテーションを用いた新しいデータセットを提案する。
提案手法は, 予測時間に基づいて, ナレーション行動の局所化を簡易かつ効果的に行う手法である。
論文 参考訳(メタデータ) (2022-02-16T15:26:12Z) - Improved Actor Relation Graph based Group Activity Recognition [0.0]
人間の行動やグループ活動の詳細な説明は必須情報であり、リアルタイムCCTVビデオ監視、医療、スポーツビデオ分析などに利用することができる。
本研究では,一対のアクターの外観的類似性とアクターの位置を学習することで,グループ活動認識を主眼とする映像理解手法を提案する。
論文 参考訳(メタデータ) (2020-10-24T19:46:49Z) - Video2Commonsense: Generating Commonsense Descriptions to Enrich Video
Captioning [56.97139024595429]
人間のような活動的なエージェントを含むビデオでは、エージェントのアクションはシーンに無数の変化をもたらす可能性がある。
画像とは異なり、ビデオ内のアクションは、意図(なぜアクションが起こっているのか)、効果(アクションによる変化)、エージェントを記述する属性など、本質的に社会的側面と結びついている。
本稿では,ビデオから直接コモンセンスキャプションを生成し,意図,効果,属性などの潜在的な側面を説明する。
論文 参考訳(メタデータ) (2020-03-11T08:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。