Fugu-MT 論文翻訳(概要): LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning

論文の概要: LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning

arxiv url: http://arxiv.org/abs/2312.03849v1
Date: Wed, 6 Dec 2023 19:02:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 17:02:59.718635
Title: LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning
Title（参考訳）: LEGO:ビジュアルインストラクションチューニングによるEGO中心のアクションフレーム生成
Authors: Bolin Lai, Xiaoliang Dai, Lawrence Chen, Guan Pang, James M. Rehg, Miao Liu
Abstract要約: 我々は、エゴセントリックなアクションフレーム生成という新しい問題を導入する。目的は、ユーザのプロンプト質問と入力自我中心の画像に基づいてアクションフレーム条件を合成することである。提案したモデルを,Ego4DとEpic-Kitchensという,エゴセントリックな2つのデータセットで検証する。
参考スコア（独自算出の注目度）: 29.310885220370412
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generating instructional images of human daily actions from an egocentric viewpoint serves a key step towards efficient skill transfer. In this paper, we introduce a novel problem -- egocentric action frame generation. The goal is to synthesize the action frame conditioning on the user prompt question and an input egocentric image that captures user's environment. Notably, existing egocentric datasets lack the detailed annotations that describe the execution of actions. Additionally, the diffusion-based image manipulation models fail to control the state change of an action within the corresponding egocentric image pixel space. To this end, we finetune a visual large language model (VLLM) via visual instruction tuning for curating the enriched action descriptions to address our proposed problem. Moreover, we propose to Learn EGOcentric (LEGO) action frame generation using image and text embeddings from VLLM as additional conditioning. We validate our proposed model on two egocentric datasets -- Ego4D and Epic-Kitchens. Our experiments show prominent improvement over prior image manipulation models in both quantitative and qualitative evaluation. We also conduct detailed ablation studies and analysis to provide insights on our method.
Abstract（参考訳）: エゴセントリックな視点から人間の日常行動の教示画像を生成することは、効率的なスキル伝達への重要なステップとなる。本稿では,エゴセントリックなアクションフレーム生成という新しい問題を提案する。ユーザプロンプト質問に対するアクションフレーム条件付けと,ユーザの環境をキャプチャする入力エゴセントリックなイメージを合成することが目的である。特に、既存のエゴセントリックなデータセットには、アクションの実行を記述する詳細なアノテーションが欠けている。さらに、拡散に基づく画像操作モデルでは、対応するエゴセントリック画像画素空間内のアクションの状態変化を制御できない。この目的のために,視覚インストラクションチューニングを通じて視覚大言語モデル(vllm)を微調整し,拡張された動作記述をキュレートし,提案する問題に対処する。さらに,VLLMからの画像とテキストの埋め込みを付加条件として,EGO中心(LEGO)アクションフレーム生成の学習を提案する。 ego4dとepic-kitchensという2つのエゴセントリックデータセット上で提案モデルを検証する。本実験は,定量的および定性的評価において,先行画像操作モデルよりも顕著な改善を示した。また, 詳細なアブレーション研究と分析を行い, 本手法について考察する。

関連論文リスト

Generating 6DoF Object Manipulation Trajectories from Action Description in Egocentric Vision [6.699930460835963]
大規模なエゴやエクソ中心のビデオデータセットを活用して,多様な操作軌跡を大規模に抽出するフレームワークを提案する。我々は、視覚的および点的クラウドベース言語モデルに基づく軌道生成モデルを開発する。
論文参考訳（メタデータ） (2025-06-04T06:28:16Z)
Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning [71.02843679746563]
エゴセントリックなビデオ理解では、手や物体の動きと相互作用は自然によって重要な役割を果たす。本研究では,細粒度ハンドオブジェクトのモデリングをビデオ表現学習プロセスに統合することを目的とする。 EgoVideoは,手の動き情報を微粒化するための,新しい軽量モーションアダプタを備えたモデルである。
論文参考訳（メタデータ） (2025-03-02T18:49:48Z)
Cognition Transferring and Decoupling for Text-supervised Egocentric Semantic Segmentation [17.35953923039954]
Egocentic Semantic (TESS)タスクは、画像レベルのラベルからテキストによって弱められたエゴセントリックなイメージにピクセルレベルのカテゴリを割り当てることを目的としている。本稿では、まず、画像とテキストを関連づけて、自我中心の着用者オブジェクトの関係を学習する認知伝達デカップリングネットワーク(CTDN)を提案する。
論文参考訳（メタデータ） (2024-10-02T08:58:34Z)
Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文参考訳（メタデータ） (2024-06-03T07:58:40Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-05-28T00:27:29Z)
X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文参考訳（メタデータ） (2024-03-28T19:45:35Z)
Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文参考訳（メタデータ） (2023-08-15T17:58:11Z)
Language-based Action Concept Spaces Improve Video Self-Supervised Learning [8.746806973828738]
画像CLIPモデルをビデオ領域に適応させるために,言語に結びついた自己教師型学習を導入する。時間的モデリングのために修正されたバックボーンは、アクション概念空間で運用される列車の目的と自己蒸留設定の下で訓練される。提案手法は3つの行動認識ベンチマークにおいてゼロショットおよび線形探索性能を向上させる。
論文参考訳（メタデータ） (2023-07-20T14:47:50Z)
Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文参考訳（メタデータ） (2023-03-03T18:59:47Z)
EgoDistill: Egocentric Head Motion Distillation for Efficient Video Understanding [90.9111678470214]
本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。 Ego4D と EPICKitchens のデータセット上での有効性を示す。
論文参考訳（メタデータ） (2023-01-05T18:39:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。