論文の概要: LEAP: LLM-Generation of Egocentric Action Programs
- arxiv url: http://arxiv.org/abs/2312.00055v1
- Date: Wed, 29 Nov 2023 04:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 17:24:22.844700
- Title: LEAP: LLM-Generation of Egocentric Action Programs
- Title(参考訳): LEAP: 自己中心型行動プログラムのLCM生成
- Authors: Eadom Dessalene, Michael Maynord, Cornelia Ferm\"uller, and Yiannis
Aloimonos
- Abstract要約: 本稿では,Large Language Model (LLM) を用いたビデオグラウンドアクションプログラム生成手法であるLEAPを紹介する。
本手法は,RGB入力に制限されたネットワークの中で,11月17日現在,EPIC Kitchens Action Recognitionのリーダーボードで1位を獲得している。
- 参考スコア(独自算出の注目度): 13.760026155527797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce LEAP (illustrated in Figure 1), a novel method for generating
video-grounded action programs through use of a Large Language Model (LLM).
These action programs represent the motoric, perceptual, and structural aspects
of action, and consist of sub-actions, pre- and post-conditions, and control
flows. LEAP's action programs are centered on egocentric video and employ
recent developments in LLMs both as a source for program knowledge and as an
aggregator and assessor of multimodal video information. We apply LEAP over a
majority (87\%) of the training set of the EPIC Kitchens dataset, and release
the resulting action programs as a publicly available dataset here
(https://drive.google.com/drive/folders/1Cpkw_TI1IIxXdzor0pOXG3rWJWuKU5Ex?usp=drive_link).
We employ LEAP as a secondary source of supervision, using its action programs
in a loss term applied to action recognition and anticipation networks. We
demonstrate sizable improvements in performance in both tasks due to training
with the LEAP dataset. Our method achieves 1st place on the EPIC Kitchens
Action Recognition leaderboard as of November 17 among the networks restricted
to RGB-input (see Supplementary Materials).
- Abstract(参考訳): 本稿では,Large Language Model (LLM) を用いてビデオグラウンドアクションプログラムを生成する新しい手法であるLEAP(図1)を紹介する。
これらの行動プログラムは行動の運動的、知覚的、構造的側面を表し、サブアクション、プレ・ポスト・コンディション、制御フローからなる。
leapのアクションプログラムは、エゴセントリックビデオを中心に、プログラム知識のソースとマルチモーダルビデオ情報の集約と評価の手段として、最近のllmの発展を採用している。
EPIC Kitchensデータセットのトレーニングセットの過半数 (87 %) にLEAPを適用し、その結果のアクションプログラムをここで公開データセットとしてリリースする(https://drive.google.com/drive/folders/1Cpkw_TI1IIxXdzor0pOXG3rWWuKU5Ex?usp=drive_link)。
我々は、行動認識および予測ネットワークに適用された損失項において、その行動プログラムを用いて、二次的な監視源としてLEAPを使用している。
LEAPデータセットによるトレーニングにより,両タスクのパフォーマンスが大幅に向上したことを示す。
本手法は,RGB入力に制限されたネットワークのうち,11月17日時点でEPIC Kitchens Action Recognitionのリーダーボードで1位を獲得している(補助材料参照)。
関連論文リスト
- ToolPlanner: A Tool Augmented LLM for Multi Granularity Instructions with Path Planning and Feedback [11.931584529573176]
命令が与えられた後、ツール拡張LDMは複数のラウンドで様々な外部ツールと対話し、最終的な答えを提供する。
以前のLLMは、API名やパラメータを含む、過剰に詳細な命令でトレーニングされていたが、実際のユーザはこれらのAPIの詳細を明示的に言及しなかった。
これらの問題に対処するため、MGToolBenchというトレーニングデータセットを構築しました。
論文 参考訳(メタデータ) (2024-09-23T08:58:48Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。
それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。
トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文 参考訳(メタデータ) (2024-04-06T13:25:00Z) - VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクの文脈でLLMの実用性を拡張するための新しいアプローチである。
我々は,その文脈学習能力を利用して,映像理解のための実行可能な視覚プログラムを生成する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z) - Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。
本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。
実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文 参考訳(メタデータ) (2023-12-28T13:50:42Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Seeing in Flowing: Adapting CLIP for Action Recognition with Motion
Prompts Learning [14.292812802621707]
対照的な言語-画像事前学習(CLIP)は、最近「ゼロショット」トレーニングにおいて顕著な一般化を示している。
より効率的で汎用的な行動認識手法を実現するために,CLIPの適応について検討する。
提案手法は,既存の最先端の手法よりも「ファウショット」と「ゼロショット」の訓練に大きく差をつける。
論文 参考訳(メタデータ) (2023-08-09T09:33:45Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。