論文の概要: Palm: Predicting Actions through Language Models @ Ego4D Long-Term
Action Anticipation Challenge 2023
- arxiv url: http://arxiv.org/abs/2306.16545v1
- Date: Wed, 28 Jun 2023 20:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 15:34:51.535199
- Title: Palm: Predicting Actions through Language Models @ Ego4D Long-Term
Action Anticipation Challenge 2023
- Title(参考訳): palm: 言語モデルによる行動予測@ego4d 長期行動予測チャレンジ2023
- Authors: Daoji Huang, Otmar Hilliges, Luc Van Gool, Xi Wang
- Abstract要約: Palmは、視覚言語と大規模言語モデルを利用した長期的な行動予測タスクのソリューションである。
入力ビデオから抽出したフレーム記述とアクションラベルに基づいて、将来のアクションを予測する。
- 参考スコア(独自算出の注目度): 100.32802766127776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Palm, a solution to the Long-Term Action Anticipation (LTA) task
utilizing vision-language and large language models. Given an input video with
annotated action periods, the LTA task aims to predict possible future actions.
We hypothesize that an optimal solution should capture the interdependency
between past and future actions, and be able to infer future actions based on
the structure and dependency encoded in the past actions. Large language models
have demonstrated remarkable commonsense-based reasoning ability. Inspired by
that, Palm chains an image captioning model and a large language model. It
predicts future actions based on frame descriptions and action labels extracted
from the input videos. Our method outperforms other participants in the EGO4D
LTA challenge and achieves the best performance in terms of action prediction.
Our code is available at https://github.com/DanDoge/Palm
- Abstract(参考訳): 視覚言語と大規模言語モデルを利用したLTA(Long-Term Action Precipation)タスクのソリューションであるPalmを提案する。
注釈付きアクション周期の入力ビデオが与えられた場合、LTAタスクは将来のアクションを予測することを目的としている。
我々は、最適なソリューションは過去のアクションと将来のアクションの間の相互依存性を捉え、過去のアクションで符号化された構造と依存関係に基づいて将来のアクションを推測できるべきだと仮定する。
大規模言語モデルは顕著な常識に基づく推論能力を示している。
これにインスパイアされたPalmは、画像キャプションモデルと大きな言語モデルをチェーンする。
入力ビデオから抽出したフレーム記述とアクションラベルに基づいて、将来のアクションを予測する。
提案手法は,EGO4D LTAチャレンジにおける他の参加者よりも優れ,行動予測の観点で最高のパフォーマンスを達成する。
私たちのコードはhttps://github.com/DanDoge/Palmで利用可能です。
関連論文リスト
- Human Motion Instruction Tuning [30.71209562108675]
本稿では,人間の動作指導のためのフレームワークであるLLaMoについて述べる。
LLaMoは、命令チューニングのためのネイティブフォームで動作を保持します。
ビデオデータとモーションデータをテキスト入力と共に処理することで、LLaMoは柔軟な人間中心の分析を可能にする。
論文 参考訳(メタデータ) (2024-11-25T14:38:43Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Vamos: Versatile Action Models for Video Understanding [23.631145570126268]
「多元的行動モデル(Vamos)は、大言語モデルを利用した学習フレームワークである。」
Ego4D,NeXT-QA,IntentQA,Spacewalk-18,Egoの5つのベンチマークでVamosを評価する。
論文 参考訳(メタデータ) (2023-11-22T17:44:24Z) - AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos? [28.912026171231528]
長期的行動予測(LTA)タスクは、動詞と名詞のシーケンスの形式でビデオ観察から俳優の将来の行動を予測することを目的としている。
本稿では,2つの視点からLTAタスクを定式化することを提案する。次の動作を時間的ダイナミクスをモデル化して自己回帰的に予測するボトムアップアプローチと,俳優の目標を推測し,目標を達成するために必要な手順を計画するトップダウンアプローチである。
本稿では,2段階のフレームワークAntGPTを提案する。このフレームワークは,観測ビデオですでに実行されている動作を最初に認識し,条件付き生成により将来の動作を予測する。
論文 参考訳(メタデータ) (2023-07-31T02:14:19Z) - Summarize the Past to Predict the Future: Natural Language Descriptions
of Context Boost Multimodal Object Interaction Anticipation [72.74191015833397]
マルチモーダルトランスアーキテクチャであるTransFusionを提案する。
アクションコンテキストを要約することで、言語の表現力を利用する。
我々のモデルはより効率的なエンドツーエンド学習を可能にします。
論文 参考訳(メタデータ) (2023-01-22T21:30:12Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - What is More Likely to Happen Next? Video-and-Language Future Event
Prediction [111.93601253692165]
対話が整ったビデオの場合、人々は次に何が起こるかを見極めることができる。
本研究では,AIモデルがこのようなマルチモーダル・コモンセンスの次世代予測を学べるかどうかを考察する。
新しいデータセットであるVideo-and-Language Event Prediction(ビデオ・アンド・ランゲージ・イベント予測)を収集します。
論文 参考訳(メタデータ) (2020-10-15T19:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。