論文の概要: LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction
Tuning
- arxiv url: http://arxiv.org/abs/2312.03849v1
- Date: Wed, 6 Dec 2023 19:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 17:02:59.718635
- Title: LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction
Tuning
- Title(参考訳): LEGO:ビジュアルインストラクションチューニングによるEGO中心のアクションフレーム生成
- Authors: Bolin Lai, Xiaoliang Dai, Lawrence Chen, Guan Pang, James M. Rehg,
Miao Liu
- Abstract要約: 我々は、エゴセントリックなアクションフレーム生成という新しい問題を導入する。
目的は、ユーザのプロンプト質問と入力自我中心の画像に基づいてアクションフレーム条件を合成することである。
提案したモデルを,Ego4DとEpic-Kitchensという,エゴセントリックな2つのデータセットで検証する。
- 参考スコア(独自算出の注目度): 29.310885220370412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating instructional images of human daily actions from an egocentric
viewpoint serves a key step towards efficient skill transfer. In this paper, we
introduce a novel problem -- egocentric action frame generation. The goal is to
synthesize the action frame conditioning on the user prompt question and an
input egocentric image that captures user's environment. Notably, existing
egocentric datasets lack the detailed annotations that describe the execution
of actions. Additionally, the diffusion-based image manipulation models fail to
control the state change of an action within the corresponding egocentric image
pixel space. To this end, we finetune a visual large language model (VLLM) via
visual instruction tuning for curating the enriched action descriptions to
address our proposed problem. Moreover, we propose to Learn EGOcentric (LEGO)
action frame generation using image and text embeddings from VLLM as additional
conditioning. We validate our proposed model on two egocentric datasets --
Ego4D and Epic-Kitchens. Our experiments show prominent improvement over prior
image manipulation models in both quantitative and qualitative evaluation. We
also conduct detailed ablation studies and analysis to provide insights on our
method.
- Abstract(参考訳): エゴセントリックな視点から人間の日常行動の教示画像を生成することは、効率的なスキル伝達への重要なステップとなる。
本稿では,エゴセントリックなアクションフレーム生成という新しい問題を提案する。
ユーザプロンプト質問に対するアクションフレーム条件付けと,ユーザの環境をキャプチャする入力エゴセントリックなイメージを合成することが目的である。
特に、既存のエゴセントリックなデータセットには、アクションの実行を記述する詳細なアノテーションが欠けている。
さらに、拡散に基づく画像操作モデルでは、対応するエゴセントリック画像画素空間内のアクションの状態変化を制御できない。
この目的のために,視覚インストラクションチューニングを通じて視覚大言語モデル(vllm)を微調整し,拡張された動作記述をキュレートし,提案する問題に対処する。
さらに,VLLMからの画像とテキストの埋め込みを付加条件として,EGO中心(LEGO)アクションフレーム生成の学習を提案する。
ego4dとepic-kitchensという2つのエゴセントリックデータセット上で提案モデルを検証する。
本実験は,定量的および定性的評価において,先行画像操作モデルよりも顕著な改善を示した。
また, 詳細なアブレーション研究と分析を行い, 本手法について考察する。
関連論文リスト
- Cognition Transferring and Decoupling for Text-supervised Egocentric Semantic Segmentation [17.35953923039954]
Egocentic Semantic (TESS)タスクは、画像レベルのラベルからテキストによって弱められたエゴセントリックなイメージにピクセルレベルのカテゴリを割り当てることを目的としている。
本稿では、まず、画像とテキストを関連づけて、自我中心の着用者オブジェクトの関係を学習する認知伝達デカップリングネットワーク(CTDN)を提案する。
論文 参考訳(メタデータ) (2024-10-02T08:58:34Z) - Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-06-03T07:58:40Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。
実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-03-28T19:45:35Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Language-based Action Concept Spaces Improve Video Self-Supervised
Learning [8.746806973828738]
画像CLIPモデルをビデオ領域に適応させるために,言語に結びついた自己教師型学習を導入する。
時間的モデリングのために修正されたバックボーンは、アクション概念空間で運用される列車の目的と自己蒸留設定の下で訓練される。
提案手法は3つの行動認識ベンチマークにおいてゼロショットおよび線形探索性能を向上させる。
論文 参考訳(メタデータ) (2023-07-20T14:47:50Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - EgoDistill: Egocentric Head Motion Distillation for Efficient Video
Understanding [90.9111678470214]
本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。
提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。
Ego4D と EPICKitchens のデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:39:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。