Fugu-MT 論文翻訳(概要): AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos?

論文の概要: AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos?

arxiv url: http://arxiv.org/abs/2307.16368v3
Date: Mon, 1 Apr 2024 01:33:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 13:22:09.702608
Title: AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos?
Title（参考訳）: AntGPT:大規模言語モデルはビデオからの長期的な行動予測に役立つか?
Authors: Qi Zhao, Shijie Wang, Ce Zhang, Changcheng Fu, Minh Quan Do, Nakul Agarwal, Kwonjoon Lee, Chen Sun,
Abstract要約: 長期的行動予測(LTA)タスクは、動詞と名詞のシーケンスの形式でビデオ観察から俳優の将来の行動を予測することを目的としている。本稿では,2つの視点からLTAタスクを定式化することを提案する。次の動作を時間的ダイナミクスをモデル化して自己回帰的に予測するボトムアップアプローチと,俳優の目標を推測し,目標を達成するために必要な手順を計画するトップダウンアプローチである。本稿では,2段階のフレームワークAntGPTを提案する。このフレームワークは,観測ビデオですでに実行されている動作を最初に認識し,条件付き生成により将来の動作を予測する。
参考スコア（独自算出の注目度）: 28.912026171231528
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Can we better anticipate an actor's future actions (e.g. mix eggs) by knowing what commonly happens after his/her current action (e.g. crack eggs)? What if we also know the longer-term goal of the actor (e.g. making egg fried rice)? The long-term action anticipation (LTA) task aims to predict an actor's future behavior from video observations in the form of verb and noun sequences, and it is crucial for human-machine interaction. We propose to formulate the LTA task from two perspectives: a bottom-up approach that predicts the next actions autoregressively by modeling temporal dynamics; and a top-down approach that infers the goal of the actor and plans the needed procedure to accomplish the goal. We hypothesize that large language models (LLMs), which have been pretrained on procedure text data (e.g. recipes, how-tos), have the potential to help LTA from both perspectives. It can help provide the prior knowledge on the possible next actions, and infer the goal given the observed part of a procedure, respectively. To leverage the LLMs, we propose a two-stage framework, AntGPT. It first recognizes the actions already performed in the observed videos and then asks an LLM to predict the future actions via conditioned generation, or to infer the goal and plan the whole procedure by chain-of-thought prompting. Empirical results on the Ego4D LTA v1 and v2 benchmarks, EPIC-Kitchens-55, as well as EGTEA GAZE+ demonstrate the effectiveness of our proposed approach. AntGPT achieves state-of-the-art performance on all above benchmarks, and can successfully infer the goal and thus perform goal-conditioned "counterfactual" prediction via qualitative analysis. Code and model will be released at https://brown-palm.github.io/AntGPT
Abstract（参考訳）: 現在のアクション(卵のひび割れ)の後、よく起こることを知ることで、俳優の将来の行動(卵を混ぜる)を予測できるだろうか? 長期的目標(卵焼きなど)も知っているとしたらどうでしょう? 長期的行動予測(LTA)タスクは,映像観察から動詞と名詞のシーケンスの形式での行動を予測することを目的としており,人間と機械の相互作用に不可欠である。本稿では,2つの視点からLTAタスクを定式化することを提案する。次の動作を時間的ダイナミクスをモデル化して自己回帰的に予測するボトムアップアプローチと,俳優の目標を推測し,目標を達成するために必要な手順を計画するトップダウンアプローチである。我々は,手順テキストデータ(例えばレシピ,ハウツー)に基づいて事前訓練された大規模言語モデル (LLM) が,両視点からLTAを支援する可能性を持っていると仮定する。これは、考えられる次のアクションに関する事前の知識を提供するのに役立ち、それぞれの手順の観察された部分から目標を推測するのに役立つ。 LLMを活用するために,我々は2段階のフレームワークAntGPTを提案する。まず、観察されたビデオで既に実行されたアクションを認識し、LLMに条件付き生成を介して将来のアクションを予測するか、あるいはチェーン・オブ・シンセサイティングによってゴールを推測し、手順全体を計画するように要求する。 Ego4D LTA v1 と v2 ベンチマーク EPIC-Kitchens-55 と EGTEA GAZE+ の実証実験により,提案手法の有効性が示された。 AntGPTは上記のすべてのベンチマークで最先端のパフォーマンスを達成し、目標を推測し、質的な分析を通じてゴール条件付き"数値"予測を行う。コードとモデルはhttps://brown-palm.github.io/AntGPTでリリースされる

関連論文リスト

Fostering Video Reasoning via Next-Event Prediction [61.70045315542766]
我々は,将来的なビデオセグメントを,時間的推論を促進するためのリッチで自己指導的な信号として活用する学習タスクとして,次世代予測(NEP)を提案する。このタスクを支援するために,V1-33Kという,多様な実世界のシナリオにまたがる33,000のビデオセグメントを自動抽出したデータセットをキュレートする。 NEPはMLLMの時間的推論を促進するためのスケーラブルで効果的なトレーニングパラダイムを提供する。
論文参考訳（メタデータ） (2025-05-28T15:13:34Z)
ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions [66.20773952864802]
我々は8.5k画像と59.3k画像に接地されたアクションに関する59.3kの推論からなるデータセットを開発する。本稿では、提供された視覚入力に特有の言語モデルに存在する知識を識別するフレームワークであるActionCOMETを提案する。
論文参考訳（メタデータ） (2024-10-17T15:22:57Z)
PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文参考訳（メタデータ） (2023-11-29T02:17:27Z)
Palm: Predicting Actions through Language Models @ Ego4D Long-Term Action Anticipation Challenge 2023 [100.32802766127776]
Palmは、視覚言語と大規模言語モデルを利用した長期的な行動予測タスクのソリューションである。入力ビデオから抽出したフレーム記述とアクションラベルに基づいて、将来のアクションを予測する。
論文参考訳（メタデータ） (2023-06-28T20:33:52Z)
Rethinking Learning Approaches for Long-Term Action Anticipation [32.67768331823358]
アクション予測は、ビデオの初期部分を観察した将来のアクションを予測することを含む。本稿では,長期的行動予測を行う抗CIPATRについて紹介する。本稿では,新しいトランスモデルを構築するための2段階学習手法を提案する。
論文参考訳（メタデータ） (2022-10-20T20:07:30Z)
Predicting the Next Action by Modeling the Abstract Goal [18.873728614415946]
本研究では,将来の予測の不確実性を低減するために,目標情報を活用する行動予測モデルを提案する。我々は,行動予測のための視覚的特徴の観察シーケンスに基づいて,抽象目標という新しい概念を導出する。提案手法は,Epic-Kitchens55 (EK55), EK100, EGTEA Gaze+データセットについて,非常に困難な結果を得た。
論文参考訳（メタデータ） (2022-09-12T06:52:42Z)
Intention-Conditioned Long-Term Human Egocentric Action Forecasting [14.347147051922175]
我々は、エゴセントリックビデオにおける長期的な行動予測タスクに対処する。人間の意図を高レベルな情報として活用することで、我々のモデルは長期的により時間的な行動を予測することができると主張している。この作品はCVPR@2022とECVV@2022 EGO4D LTA Challengeにランクインした。
論文参考訳（メタデータ） (2022-07-25T11:57:01Z)
Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文参考訳（メタデータ） (2022-05-28T01:03:30Z)
Future Transformer for Long-term Action Anticipation [33.771374384674836]
我々はFuture Transformer(FUTR)と呼ばれる行動予測のためのエンドツーエンドの注意モデルを提案する。従来の自己回帰モデルとは異なり、提案手法は並列復号法において将来の動作のシーケンス全体を予測することを学習する。本手法は,Breakfastと50 Saladsの2つの標準ベンチマークで評価し,最先端の結果を得た。
論文参考訳（メタデータ） (2022-05-27T14:47:43Z)
The Wisdom of Crowds: Temporal Progressive Attention for Early Action Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文参考訳（メタデータ） (2022-04-28T08:21:09Z)
Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文参考訳（メタデータ） (2021-01-13T08:04:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。