論文の概要: Chop & Learn: Recognizing and Generating Object-State Compositions
- arxiv url: http://arxiv.org/abs/2309.14339v1
- Date: Mon, 25 Sep 2023 17:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 12:37:41.292089
- Title: Chop & Learn: Recognizing and Generating Object-State Compositions
- Title(参考訳): chop & learn: オブジェクトの状態合成の認識と生成
- Authors: Nirat Saini, Hanyu Wang, Archana Swaminathan, Vinoj Jayasundara, Bo
He, Kamal Gupta, Abhinav Shrivastava
- Abstract要約: 異なるスタイルでオブジェクトを切断する作業と、その結果のオブジェクト状態の変化について検討する。
我々は、学習対象と異なるカットスタイルのニーズを満たすために、新しいベンチマークスイートChop & Learnを提案する。
また、学習したカットスタイルを異なるオブジェクトに転送できる合成画像生成の新しいタスクを提案する。
- 参考スコア(独自算出の注目度): 34.24234005325618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing and generating object-state compositions has been a challenging
task, especially when generalizing to unseen compositions. In this paper, we
study the task of cutting objects in different styles and the resulting object
state changes. We propose a new benchmark suite Chop & Learn, to accommodate
the needs of learning objects and different cut styles using multiple
viewpoints. We also propose a new task of Compositional Image Generation, which
can transfer learned cut styles to different objects, by generating novel
object-state images. Moreover, we also use the videos for Compositional Action
Recognition, and show valuable uses of this dataset for multiple video tasks.
Project website: https://chopnlearn.github.io.
- Abstract(参考訳): オブジェクト状態合成の認識と生成は、特に見当たらない合成に一般化する場合、難しい課題だった。
本稿では,異なるスタイルのオブジェクトを切断する作業と,その結果のオブジェクト状態の変化について検討する。
複数の視点から学習対象と異なるカットスタイルのニーズを満たすために,新しいベンチマークスイートChop & Learnを提案する。
また,新しいオブジェクト状態画像を生成することにより,学習したカットスタイルを異なるオブジェクトに転送できる合成画像生成の新しいタスクを提案する。
さらに,映像を合成行動認識に利用し,このデータセットを複数のビデオタスクに有意義に活用することを示す。
プロジェクトウェブサイト: https://chopnlearn.github.io
関連論文リスト
- Computer User Interface Understanding. A New Dataset and a Learning Framework [2.4473568032515147]
コンピュータUI理解の難しい課題を紹介します。
ユーザがアクションのシーケンスを実行しているビデオのセットでデータセットを提示し、各画像はその時点のデスクトップコンテンツを表示する。
また,データセットに関連する特徴を付加する合成サンプル生成パイプラインを構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-15T10:26:52Z) - Few-Shot In-Context Imitation Learning via Implicit Graph Alignment [15.215659641228655]
オブジェクトのグラフ表現間の条件付きアライメント問題として模倣学習を定式化する。
この条件付けにより、ロボットがデモ直後に新しいオブジェクトのセット上でタスクを実行できる、コンテキスト内学習が可能となることを示す。
論文 参考訳(メタデータ) (2023-10-18T18:26:01Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - Is an Object-Centric Video Representation Beneficial for Transfer? [86.40870804449737]
トランスアーキテクチャ上にオブジェクト中心のビデオ認識モデルを導入する。
対象中心モデルが先行映像表現より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-20T17:59:44Z) - Bringing Image Scene Structure to Video via Frame-Clip Consistency of
Object Tokens [93.98605636451806]
StructureViTは、トレーニング中にのみ利用可能な少数の画像の構造を利用することで、ビデオモデルを改善する方法を示している。
SViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2022-06-13T17:45:05Z) - LayoutBERT: Masked Language Layout Model for Object Insertion [3.4806267677524896]
本稿では,オブジェクト挿入タスクのためのレイアウトBERTを提案する。
これは、新しい自己監督型マスク付き言語モデルと双方向多頭部自己注意を用いている。
各種ドメインからのデータセットの質的および定量的評価を行う。
論文 参考訳(メタデータ) (2022-04-30T21:35:38Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。