論文の概要: Affordance Grounding from Demonstration Video to Target Image
- arxiv url: http://arxiv.org/abs/2303.14644v1
- Date: Sun, 26 Mar 2023 07:02:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 18:30:18.326684
- Title: Affordance Grounding from Demonstration Video to Target Image
- Title(参考訳): デモ映像からターゲット画像へのグラウンディング
- Authors: Joya Chen, Difei Gao, Kevin Qinghong Lin, Mike Zheng Shou
- Abstract要約: Affordance Transformer (Afformer) と Mask Affordance Hand (MaskAHand) を紹介する。
Afformerは、精細なトランスフォーマーベースのデコーダを備えており、徐々に手頃なグラウンドを洗練している。
MaskAHandは、ビデオ画像データを合成し、コンテキスト変化をシミュレートするための自己教師付き事前学習技術である。
- 参考スコア(独自算出の注目度): 6.283277544438936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans excel at learning from expert demonstrations and solving their own
problems. To equip intelligent robots and assistants, such as AR glasses, with
this ability, it is essential to ground human hand interactions (i.e.,
affordances) from demonstration videos and apply them to a target image like a
user's AR glass view. The video-to-image affordance grounding task is
challenging due to (1) the need to predict fine-grained affordances, and (2)
the limited training data, which inadequately covers video-image discrepancies
and negatively impacts grounding. To tackle them, we propose Affordance
Transformer (Afformer), which has a fine-grained transformer-based decoder that
gradually refines affordance grounding. Moreover, we introduce Mask Affordance
Hand (MaskAHand), a self-supervised pre-training technique for synthesizing
video-image data and simulating context changes, enhancing affordance grounding
across video-image discrepancies. Afformer with MaskAHand pre-training achieves
state-of-the-art performance on multiple benchmarks, including a substantial
37% improvement on the OPRA dataset. Code is made available at
https://github.com/showlab/afformer.
- Abstract(参考訳): 人間は専門家のデモンストレーションから学び、自分の問題を解決するのが得意です。
インテリジェントなロボットやarメガネなどのアシスタントをこの能力で装備するには、デモビデオから人間の手とのインタラクション(つまり、アプライアンス)を接地し、ユーザーのarグラスビューのようなターゲット画像に適用することが不可欠である。
1) 微粒度予測の必要性, (2) 映像不一致を不適切にカバーし, 接地に悪影響を及ぼす限られた訓練データなどにより, 映像対画像の接地作業は困難である。
そこで本研究では,より細粒度なトランスベースのデコーダを備えたAffordance Transformer (Afformer)を提案する。
さらに,ビデオ画像データの合成と文脈変化のシミュレーションを行う自己指導型事前学習技術であるMask Affordance Hand(MaskAHand)を導入する。
MaskAHandによる事前トレーニングは、OPRAデータセットの大幅な37%の改善を含む、複数のベンチマークで最先端のパフォーマンスを達成する。
コードはhttps://github.com/showlab/afformerで入手できる。
関連論文リスト
- Data Collection-free Masked Video Modeling [6.641717260925999]
静的な画像を活用してコストを低減したビデオのための効果的な自己教師型学習フレームワークを提案する。
これらの擬似モーションビデオは、マスク付きビデオモデリングに活用される。
提案手法は合成画像にも適用可能であり,ビデオ学習をデータ収集から完全に解放することは,実際のデータに対する他の懸念も伴う。
論文 参考訳(メタデータ) (2024-09-10T17:34:07Z) - Reframe Anything: LLM Agent for Open World Video Reframing [0.8424099022563256]
ビデオリフレーミングのためのビジュアルコンテンツを再構成するAIベースのエージェントであるReframe Any Video Agent (RAVA)を紹介する。
RAVAは、ユーザーの指示やビデオコンテンツを解釈する知覚、アスペクト比やフレーミング戦略を決定する計画、最終映像を作成するための編集ツールを呼び出す実行の3段階からなる。
我々の実験は、AIを利用したビデオ編集ツールとしての可能性を実証し、ビデオの有能なオブジェクト検出と現実世界のリフレーミングタスクにおけるRAVAの有効性を検証した。
論文 参考訳(メタデータ) (2024-03-10T03:29:56Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - Copy Motion From One to Another: Fake Motion Video Generation [53.676020148034034]
人工知能の魅力的な応用は、任意の所望の動作を行う対象者のビデオを生成することである。
現在の手法では、通常、生成されたビデオの信頼性を評価するために、L2損失のGANを用いる。
本稿では,ポーズから前景画像へのマッピングの学習を容易にする理論的動機付け型Gromov-Wasserstein損失を提案する。
本手法は,人物の複雑な動きを忠実にコピーすることで,現実的な人物映像を生成できる。
論文 参考訳(メタデータ) (2022-05-03T08:45:22Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z) - Watching the World Go By: Representation Learning from Unlabeled Videos [78.22211989028585]
近年の単一画像教師なし表現学習技術は,様々なタスクにおいて顕著な成功を収めている。
本稿では,この自然な拡張を無償で提供することを論じる。
そこで本稿では,ビデオノイズコントラスト推定(Voice Noise Contrastive Estimation)を提案する。
論文 参考訳(メタデータ) (2020-03-18T00:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。