論文の概要: AntGPT: Can Large Language Models Help Long-term Action Anticipation
from Videos?
- arxiv url: http://arxiv.org/abs/2307.16368v1
- Date: Mon, 31 Jul 2023 02:14:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 16:11:14.285728
- Title: AntGPT: Can Large Language Models Help Long-term Action Anticipation
from Videos?
- Title(参考訳): AntGPT:大規模言語モデルはビデオからの長期的な行動予測に役立つか?
- Authors: Qi Zhao, Ce Zhang, Shijie Wang, Changcheng Fu, Nakul Agarwal, Kwonjoon
Lee, Chen Sun
- Abstract要約: 長期的行動予測(LTA)タスクは、動詞と名詞のシーケンスの形式でビデオ観察から俳優の将来の行動を予測することを目的としている。
本稿では,2つの視点からLTAタスクを定式化することを提案する。次の動作を時間的ダイナミクスをモデル化して自己回帰的に予測するボトムアップアプローチと,俳優の目標を推測し,目標を達成するために必要な手順を計画するトップダウンアプローチである。
本稿では,2段階のフレームワークAntGPTを提案する。このフレームワークは,観測ビデオですでに実行されている動作を最初に認識し,条件付き生成により将来の動作を予測する。
- 参考スコア(独自算出の注目度): 33.2840033624559
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Can we better anticipate an actor's future actions (e.g. mix eggs) by knowing
what commonly happens after his/her current action (e.g. crack eggs)? What if
we also know the longer-term goal of the actor (e.g. making egg fried rice)?
The long-term action anticipation (LTA) task aims to predict an actor's future
behavior from video observations in the form of verb and noun sequences, and it
is crucial for human-machine interaction. We propose to formulate the LTA task
from two perspectives: a bottom-up approach that predicts the next actions
autoregressively by modeling temporal dynamics; and a top-down approach that
infers the goal of the actor and plans the needed procedure to accomplish the
goal. We hypothesize that large language models (LLMs), which have been
pretrained on procedure text data (e.g. recipes, how-tos), have the potential
to help LTA from both perspectives. It can help provide the prior knowledge on
the possible next actions, and infer the goal given the observed part of a
procedure, respectively. To leverage the LLMs, we propose a two-stage
framework, AntGPT. It first recognizes the actions already performed in the
observed videos and then asks an LLM to predict the future actions via
conditioned generation, or to infer the goal and plan the whole procedure by
chain-of-thought prompting. Empirical results on the Ego4D LTA v1 and v2
benchmarks, EPIC-Kitchens-55, as well as EGTEA GAZE+ demonstrate the
effectiveness of our proposed approach. AntGPT achieves state-of-the-art
performance on all above benchmarks, and can successfully infer the goal and
thus perform goal-conditioned "counterfactual" prediction via qualitative
analysis. Code and model will be released at
https://brown-palm.github.io/AntGPT
- Abstract(参考訳): 現在の行動(例えば卵のひび割れなど)の後、よく起こることを知ることで、俳優の将来的な行動(卵の混合など)を予測できるだろうか?
俳優の長期目標(例:米の卵揚げ)も知っていれば?
長期的行動予測(LTA)タスクは,映像観察から動詞と名詞のシーケンスの形式での行動を予測することを目的としており,人間と機械の相互作用に不可欠である。
本稿では,2つの視点からLTAタスクを定式化することを提案する。次の動作を時間的ダイナミクスをモデル化して自己回帰的に予測するボトムアップアプローチと,俳優の目標を推測し,目標を達成するために必要な手順を計画するトップダウンアプローチである。
我々は,手順テキストデータ(レシピ,ハウツーなど)に基づいて事前訓練された大規模言語モデル (LLM) が,両視点からLTAを支援する可能性を持っていると仮定する。
それは、考えられる次のアクションについて事前の知識を提供し、それぞれの手順の観測された部分の目標を推測するのに役立つ。
LLMを活用するために,我々は2段階のフレームワークAntGPTを提案する。
まず、観察されたビデオで既に実行されたアクションを認識し、LLMに条件付き生成を介して将来のアクションを予測するか、あるいはチェーン・オブ・シンセサイティングによってゴールを推測し、手順全体を計画するように要求する。
Ego4D LTA v1 と v2 ベンチマーク EPIC-Kitchens-55 と EGTEA GAZE+ の実証実験により,提案手法の有効性が示された。
antgptは上述のすべてのベンチマークで最先端のパフォーマンスを達成し、目標を推測し、質的分析を通じて目標条件付き「実効的」予測を行うことができる。
コードとモデルはhttps://brown-palm.github.io/AntGPTでリリースされる
関連論文リスト
- ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions [66.20773952864802]
我々は8.5k画像と59.3k画像に接地されたアクションに関する59.3kの推論からなるデータセットを開発する。
本稿では、提供された視覚入力に特有の言語モデルに存在する知識を識別するフレームワークであるActionCOMETを提案する。
論文 参考訳(メタデータ) (2024-10-17T15:22:57Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Palm: Predicting Actions through Language Models @ Ego4D Long-Term
Action Anticipation Challenge 2023 [100.32802766127776]
Palmは、視覚言語と大規模言語モデルを利用した長期的な行動予測タスクのソリューションである。
入力ビデオから抽出したフレーム記述とアクションラベルに基づいて、将来のアクションを予測する。
論文 参考訳(メタデータ) (2023-06-28T20:33:52Z) - Rethinking Learning Approaches for Long-Term Action Anticipation [32.67768331823358]
アクション予測は、ビデオの初期部分を観察した将来のアクションを予測することを含む。
本稿では,長期的行動予測を行う抗CIPATRについて紹介する。
本稿では,新しいトランスモデルを構築するための2段階学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-20T20:07:30Z) - Predicting the Next Action by Modeling the Abstract Goal [18.873728614415946]
本研究では,将来の予測の不確実性を低減するために,目標情報を活用する行動予測モデルを提案する。
我々は,行動予測のための視覚的特徴の観察シーケンスに基づいて,抽象目標という新しい概念を導出する。
提案手法は,Epic-Kitchens55 (EK55), EK100, EGTEA Gaze+データセットについて,非常に困難な結果を得た。
論文 参考訳(メタデータ) (2022-09-12T06:52:42Z) - Intention-Conditioned Long-Term Human Egocentric Action Forecasting [14.347147051922175]
我々は、エゴセントリックビデオにおける長期的な行動予測タスクに対処する。
人間の意図を高レベルな情報として活用することで、我々のモデルは長期的により時間的な行動を予測することができると主張している。
この作品はCVPR@2022とECVV@2022 EGO4D LTA Challengeにランクインした。
論文 参考訳(メタデータ) (2022-07-25T11:57:01Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Future Transformer for Long-term Action Anticipation [33.771374384674836]
我々はFuture Transformer(FUTR)と呼ばれる行動予測のためのエンドツーエンドの注意モデルを提案する。
従来の自己回帰モデルとは異なり、提案手法は並列復号法において将来の動作のシーケンス全体を予測することを学習する。
本手法は,Breakfastと50 Saladsの2つの標準ベンチマークで評価し,最先端の結果を得た。
論文 参考訳(メタデータ) (2022-05-27T14:47:43Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。
本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文 参考訳(メタデータ) (2021-01-13T08:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。