論文の概要: GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos
- arxiv url: http://arxiv.org/abs/2312.07322v2
- Date: Tue, 2 Apr 2024 10:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 11:33:25.256549
- Title: GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos
- Title(参考訳): GenHowTo: インストラクショナルビデオからアクションと状態変換を生成するための学習
- Authors: Tomáš Souček, Dima Damen, Michael Wray, Ivan Laptev, Josef Sivic,
- Abstract要約: 動作とオブジェクト状態変換の時間的一貫性と物理的に妥当な画像を生成するタスクに対処する。
対象の変換を記述した入力画像とテキストプロンプトが与えられた場合、生成した画像は環境を保存し、初期画像内のオブジェクトを変換する。
- 参考スコア(独自算出の注目度): 60.65095699793441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the task of generating temporally consistent and physically plausible images of actions and object state transformations. Given an input image and a text prompt describing the targeted transformation, our generated images preserve the environment and transform objects in the initial image. Our contributions are threefold. First, we leverage a large body of instructional videos and automatically mine a dataset of triplets of consecutive frames corresponding to initial object states, actions, and resulting object transformations. Second, equipped with this data, we develop and train a conditioned diffusion model dubbed GenHowTo. Third, we evaluate GenHowTo on a variety of objects and actions and show superior performance compared to existing methods. In particular, we introduce a quantitative evaluation where GenHowTo achieves 88% and 74% on seen and unseen interaction categories, respectively, outperforming prior work by a large margin.
- Abstract(参考訳): 動作とオブジェクト状態変換の時間的一貫性と物理的に妥当な画像を生成するタスクに対処する。
対象の変換を記述した入力画像とテキストプロンプトが与えられた場合、生成した画像は環境を保存し、初期画像内のオブジェクトを変換する。
私たちの貢献は3倍です。
まず、多数の教示ビデオを活用し、初期オブジェクト状態、アクション、そして結果のオブジェクト変換に対応する連続するフレームのデータセットを自動的にマイニングする。
第2に、このデータを用いて、GenHowToと呼ばれる条件付き拡散モデルを開発し、訓練する。
第3に、さまざまなオブジェクトやアクション上でGenHowToを評価し、既存のメソッドと比較して優れたパフォーマンスを示す。
特に,GenHowToが目に見えるインタラクションカテゴリで88%,目に見えないインタラクションカテゴリで74%を達成し,先行研究を大きなマージンで上回る定量的評価を行った。
関連論文リスト
- Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching [19.730504197461144]
本稿では,RGB画像のみを用いてオブジェクトのポーズを決定するために,新しい一般化可能なオブジェクトポーズ推定手法を提案する。
本手法は,オブジェクトの参照画像1枚で操作し,3次元オブジェクトモデルやオブジェクトの複数ビューの必要性を解消する。
論文 参考訳(メタデータ) (2024-11-24T14:31:50Z) - ObjectStitch: Generative Object Compositing [43.206123360578665]
本研究では,条件付き拡散モデルを用いたオブジェクト合成のための自己教師型フレームワークを提案する。
我々のフレームワークは、手動ラベリングを必要とせず、生成したオブジェクトの視点、幾何学、色、影を変換することができる。
本手法は, 実世界の様々な画像に対するユーザ研究において, 合成結果画像の写実性と忠実性の両方において, 関連ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-12-02T02:15:13Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z) - Multi-Class Multi-Instance Count Conditioned Adversarial Image
Generation [9.560980936110234]
与えられたクラスから定義された数のオブジェクトを持つ画像を生成する条件付きジェネレーティブ・アドバーサリ・ネットワーク(GAN)を提案する。
これは(1)複雑な制約により高品質な画像を生成することができ、(2)与えられた画像内のクラスごとにオブジェクトインスタンスを数えることができるという2つの基本的な能力を伴う。
3つの異なるデータセットの実験において、複雑な背景が存在する場合でも、提案モデルが与えられた多重クラスカウント条件に従って画像を生成することを学習することを示す。
論文 参考訳(メタデータ) (2021-03-31T04:06:11Z) - Shelf-Supervised Mesh Prediction in the Wild [54.01373263260449]
本研究では,物体の3次元形状とポーズを1つの画像から推定する学習手法を提案する。
まず、カメラのポーズとともに、標準フレーム内の体積表現を推定する。
粗い体積予測はメッシュベースの表現に変換され、予測されたカメラフレームでさらに洗練される。
論文 参考訳(メタデータ) (2021-02-11T18:57:10Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。