論文の概要: Exploring the GLIDE model for Human Action-effect Prediction
- arxiv url: http://arxiv.org/abs/2208.01136v1
- Date: Mon, 1 Aug 2022 20:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 12:50:40.786370
- Title: Exploring the GLIDE model for Human Action-effect Prediction
- Title(参考訳): ヒト行動効果予測のためのGLIDEモデルの検討
- Authors: Fangjun Li, David C. Hogg, Anthony G. Cohn
- Abstract要約: 世界の初期状態を描いた画像とテキストで表現されたアクションが与えられたとき、アクションに続く世界の状態を描いた画像を予測する。
本稿では,最近提案されたGLIDEモデルを用いて課題を遂行する。
- 参考スコア(独自算出の注目度): 6.302434563135217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the following action-effect prediction task. Given an image
depicting an initial state of the world and an action expressed in text,
predict an image depicting the state of the world following the action. The
prediction should have the same scene context as the input image. We explore
the use of the recently proposed GLIDE model for performing this task. GLIDE is
a generative neural network that can synthesize (inpaint) masked areas of an
image, conditioned on a short piece of text. Our idea is to mask-out a region
of the input image where the effect of the action is expected to occur. GLIDE
is then used to inpaint the masked region conditioned on the required action.
In this way, the resulting image has the same background context as the input
image, updated to show the effect of the action. We give qualitative results
from experiments using the EPIC dataset of ego-centric videos labelled with
actions.
- Abstract(参考訳): 以下の行動効果予測課題に対処する。
世界の初期状態を表す画像と、テキストで表現された動作とを与えられた場合、その動作に続く世界の状態を表す画像を予測する。
予測は入力画像と同じシーンコンテキストを持つべきである。
本稿では,最近提案されたGLIDEモデルを用いて課題を遂行する。
GLIDEは、画像の(塗装された)マスキング領域を合成し、短いテキストに条件付けする生成ニューラルネットワークである。
我々の考えは、アクションの効果が期待される入力画像の領域をマスクアウトすることである。
GLIDEは、必要なアクションで条件付けられたマスクされた領域を塗り付けるために使用される。
このようにして、得られた画像は入力画像と同じ背景コンテキストを持ち、アクションの効果を示すように更新される。
アクションをラベル付けしたエゴ中心ビデオのEPICデータセットを用いた実験の質的な結果を示す。
関連論文リスト
- ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions [66.20773952864802]
我々は8.5k画像と59.3k画像に接地されたアクションに関する59.3kの推論からなるデータセットを開発する。
本稿では、提供された視覚入力に特有の言語モデルに存在する知識を識別するフレームワークであるActionCOMETを提案する。
論文 参考訳(メタデータ) (2024-10-17T15:22:57Z) - Event-based Vision for Early Prediction of Manipulation Actions [0.7699714865575189]
ニューロモルフィック視覚センサー(Neuromorphic visual sensor)は、シーンの明るさが変化したときの事象の出力をシーケンスする人工網膜である。
本研究では,微粒な操作動作に関するイベントベースデータセットを提案する。
また,事象を伴う行動予測にトランスフォーマーを用いることについて実験的に検討した。
論文 参考訳(メタデータ) (2023-07-26T17:50:17Z) - Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-07-13T02:22:09Z) - Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。
提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文 参考訳(メタデータ) (2022-12-07T03:36:37Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - Conditional Temporal Variational AutoEncoder for Action Video Prediction [66.63038712306606]
ACT-VAEは、単一の入力画像からアクションクリップのポーズシーケンスを予測する。
プラグアンドプレイのP2Iネットワークに接続すると、ACT-VAEは画像シーケンスを合成できる。
論文 参考訳(メタデータ) (2021-08-12T10:59:23Z) - Learning Semantic-Aware Dynamics for Video Prediction [68.04359321855702]
非閉塞を明示的にモデル化して,映像フレームを予測するためのアーキテクチャとトレーニング方式を提案する。
シーンの外観は、コ・ヴィジュアブル領域の予測された動きを用いて過去のフレームから歪められる。
論文 参考訳(メタデータ) (2021-04-20T05:00:24Z) - Object and Relation Centric Representations for Push Effect Prediction [18.990827725752496]
プッシュは、プレグレープ操作からシーンアレンジメントまでのタスクに使用される、非包括的操作スキルである。
本稿では,プッシュ動作の効果予測とパラメータ推定のためのグラフニューラルネットワークに基づくフレームワークを提案する。
本フレームワークは,異なる種類の接合体と異なる質量を有する物体を介して接続された異なる形状の多部オブジェクトを含む実環境と模擬環境の両方で検証される。
論文 参考訳(メタデータ) (2021-02-03T15:09:12Z) - Action Image Representation: Learning Scalable Deep Grasping Policies
with Zero Real World Data [12.554739620645917]
Action Imageは画像としてグリップの提案を表し、深い畳み込みネットワークを使用してグリップ品質を推測する。
この表現は、色画像(RGB)、深度画像(D)、組み合わせ色深度(RGB-D)など様々な入力に作用することを示す。
論文 参考訳(メタデータ) (2020-05-13T21:40:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。