論文の概要: Can't make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language Models
- arxiv url: http://arxiv.org/abs/2405.20305v1
- Date: Thu, 30 May 2024 17:50:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 13:00:01.280628
- Title: Can't make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language Models
- Title(参考訳): 卵を割ることなくオメレットを作れない:大型ビデオ言語モデルによるプラウシブルな行動予測
- Authors: Himangi Mittal, Nakul Agarwal, Shao-Yuan Lo, Kwonjoon Lee,
- Abstract要約: 実世界において有効なアクションシーケンスを予測するための大規模ビデオ言語モデルであるPlausiVLを紹介する。
本研究では,2つの目的関数,対実的に基づく可視的行動系列学習損失と長期的行動繰り返し損失の2つを導入することで,行動系列の可視性に関する理解を深める。
我々は,Ego4DとEPIC-Kitchens-100の2つの大規模データセットに対するアプローチを評価し,行動予測の課題の改善を示す。
- 参考スコア(独自算出の注目度): 9.043415105915017
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce PlausiVL, a large video-language model for anticipating action sequences that are plausible in the real-world. While significant efforts have been made towards anticipating future actions, prior approaches do not take into account the aspect of plausibility in an action sequence. To address this limitation, we explore the generative capability of a large video-language model in our work and further, develop the understanding of plausibility in an action sequence by introducing two objective functions, a counterfactual-based plausible action sequence learning loss and a long-horizon action repetition loss. We utilize temporal logical constraints as well as verb-noun action pair logical constraints to create implausible/counterfactual action sequences and use them to train the model with plausible action sequence learning loss. This loss helps the model to differentiate between plausible and not plausible action sequences and also helps the model to learn implicit temporal cues crucial for the task of action anticipation. The long-horizon action repetition loss puts a higher penalty on the actions that are more prone to repetition over a longer temporal window. With this penalization, the model is able to generate diverse, plausible action sequences. We evaluate our approach on two large-scale datasets, Ego4D and EPIC-Kitchens-100, and show improvements on the task of action anticipation.
- Abstract(参考訳): 実世界において有効なアクションシーケンスを予測するための大規模ビデオ言語モデルであるPlausiVLを紹介する。
今後の行動を予測するために重要な努力がなされているが、先行のアプローチはアクションシーケンスの妥当性を考慮に入れていない。
この制限に対処するため、我々の研究における大規模ビデオ言語モデルの生成能力について検討し、さらに2つの目的関数、対実的ベースで実行可能なアクションシーケンス学習損失と長時間のアクション繰り返し損失を導入して、アクションシーケンスにおける妥当性の理解を深める。
我々は時間的論理的制約と動詞と名詞のアクションペア論理的制約を利用して、不明瞭な/偽のアクションシーケンスを作成し、それらを使用して、妥当なアクションシーケンス学習損失でモデルを訓練する。
この損失は、モデルが可塑性かつ可塑性でないアクションシーケンスを区別するのに役立ち、また、モデルが行動予測のタスクに不可欠な暗黙の時間的手がかりを学習するのに役立ちます。
長時間の行動繰り返しの損失は、より長い時間的窓よりも繰り返しやすい行動により高いペナルティを与える。
このペナルティ化により、モデルは多様な、もっともらしいアクションシーケンスを生成することができる。
我々は,Ego4DとEPIC-Kitchens-100の2つの大規模データセットに対するアプローチを評価し,行動予測の課題の改善を示す。
関連論文リスト
- DiffAnt: Diffusion Models for Action Anticipation [12.022815981853071]
将来の行動を予測することは本質的に不確実である。現在進行中の行動を含む観察ビデオセグメントを考えると、複数の行動が確実に続く可能性がある。
本研究では, 予測行動の予測を生成的視点から再考し, 拡散モデルを用いて, 様々な将来的行動の予測を行う。
コードとトレーニングされたモデルはGitHubで公開される予定です。
論文 参考訳(メタデータ) (2023-11-27T16:40:09Z) - AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos? [28.912026171231528]
長期的行動予測(LTA)タスクは、動詞と名詞のシーケンスの形式でビデオ観察から俳優の将来の行動を予測することを目的としている。
本稿では,2つの視点からLTAタスクを定式化することを提案する。次の動作を時間的ダイナミクスをモデル化して自己回帰的に予測するボトムアップアプローチと,俳優の目標を推測し,目標を達成するために必要な手順を計画するトップダウンアプローチである。
本稿では,2段階のフレームワークAntGPTを提案する。このフレームワークは,観測ビデオですでに実行されている動作を最初に認識し,条件付き生成により将来の動作を予測する。
論文 参考訳(メタデータ) (2023-07-31T02:14:19Z) - Tapestry of Time and Actions: Modeling Human Activity Sequences using
Temporal Point Process Flows [9.571588145356277]
本稿では,アクティビティシーケンス中のアクションの連続的な分布をモデル化するフレームワークであるProActiveを提案する。
ProActiveは次のアクション予測、シーケンスゴール予測、エンドツーエンドシーケンス生成という3つの高影響問題に対処する。
論文 参考訳(メタデータ) (2023-07-13T19:17:54Z) - TEACH: Temporal Action Composition for 3D Humans [50.97135662063117]
自然言語の一連の記述を前提として,テキストに意味的に対応する3次元の人間の動作を生成する。
特に、我々のゴールは一連のアクションの合成を可能にすることであり、これは時間的アクション合成と呼ばれる。
論文 参考訳(メタデータ) (2022-09-09T00:33:40Z) - Weakly-supervised Action Transition Learning for Stochastic Human Motion
Prediction [81.94175022575966]
動作駆動型人間の動作予測の課題について紹介する。
一連の動作ラベルと短い動作履歴から、複数の可算な将来の動作を予測することを目的としている。
論文 参考訳(メタデータ) (2022-05-31T08:38:07Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Conditional Temporal Variational AutoEncoder for Action Video Prediction [66.63038712306606]
ACT-VAEは、単一の入力画像からアクションクリップのポーズシーケンスを予測する。
プラグアンドプレイのP2Iネットワークに接続すると、ACT-VAEは画像シーケンスを合成できる。
論文 参考訳(メタデータ) (2021-08-12T10:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。