論文の概要: Learning Visual Affordance Grounding from Demonstration Videos
- arxiv url: http://arxiv.org/abs/2108.05675v1
- Date: Thu, 12 Aug 2021 11:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 21:52:53.341093
- Title: Learning Visual Affordance Grounding from Demonstration Videos
- Title(参考訳): デモ映像からの視力グラウンドの学習
- Authors: Hongchen Luo, Wei Zhai, Jing Zhang, Yang Cao, Dacheng Tao
- Abstract要約: Affordance Groundingは、画像/ビデオから人とオブジェクト間のすべての可能な相互作用領域を分割することを目的としている。
実演ビデオにおける手の位置と動作から得られる手掛かりを活用できる,手支援型住宅地すべりネットワーク(HAGNet)を提案する。
- 参考スコア(独自算出の注目度): 76.46484684007706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual affordance grounding aims to segment all possible interaction regions
between people and objects from an image/video, which is beneficial for many
applications, such as robot grasping and action recognition. However, existing
methods mainly rely on the appearance feature of the objects to segment each
region of the image, which face the following two problems: (i) there are
multiple possible regions in an object that people interact with; and (ii)
there are multiple possible human interactions in the same object region. To
address these problems, we propose a Hand-aided Affordance Grounding Network
(HAGNet) that leverages the aided clues provided by the position and action of
the hand in demonstration videos to eliminate the multiple possibilities and
better locate the interaction regions in the object. Specifically, HAG-Net has
a dual-branch structure to process the demonstration video and object image.
For the video branch, we introduce hand-aided attention to enhance the region
around the hand in each video frame and then use the LSTM network to aggregate
the action features. For the object branch, we introduce a semantic enhancement
module (SEM) to make the network focus on different parts of the object
according to the action classes and utilize a distillation loss to align the
output features of the object branch with that of the video branch and transfer
the knowledge in the video branch to the object branch. Quantitative and
qualitative evaluations on two challenging datasets show that our method has
achieved stateof-the-art results for affordance grounding. The source code will
be made available to the public.
- Abstract(参考訳): 視覚的アベイランスグラウンドティングは、人間とオブジェクト間のすべての可能な相互作用領域を画像/ビデオから分割することを目的としており、ロボットの把握や行動認識といった多くのアプリケーションに有用である。
しかし、既存の手法は主に画像の各領域を分割するオブジェクトの外観的特徴に依存しており、これは次の2つの問題に直面している: (i) 人間が対話するオブジェクトには複数の可能な領域があり、 (ii) 同一のオブジェクト領域に複数の人間的相互作用が存在する。
そこで,本研究では,実演ビデオにおいて手の位置と動作によって提供される支援手掛かりを活用し,複数の可能性を排除し,対象のインタラクション領域をよりよく特定する,手持ち手当接地ネットワーク(hagnet)を提案する。
具体的には、HAG-Netはデモビデオとオブジェクト画像を処理するデュアルブランチ構造を持つ。
ビデオ・ブランチでは、各ビデオ・フレーム内の手まわりの領域を拡大し、LSTMネットワークを用いてアクション・フィーチャを集約する。
オブジェクトブランチに対して、アクションクラスに応じて、ネットワークがオブジェクトの異なる部分にフォーカスするようにセマンティックエンハンスメントモジュール(SEM)を導入し、蒸留損失を利用して、オブジェクトブランチの出力特徴とビデオブランチの出力特徴を一致させ、ビデオブランチの知識をオブジェクトブランチに転送する。
2つの挑戦的データセットの定量的および定性的な評価は、我々の手法がアベイランスグラウンドティングの最先端の結果を得たことを示している。
ソースコードは一般公開される予定だ。
関連論文リスト
- VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - CML-MOTS: Collaborative Multi-task Learning for Multi-Object Tracking
and Segmentation [31.167405688707575]
ビデオフレーム上でのインスタンスレベルの視覚分析のためのフレームワークを提案する。
オブジェクト検出、インスタンスセグメンテーション、マルチオブジェクトトラッキングを同時に行うことができる。
提案手法は, KITTI MOTS と MOTS Challenge のデータセットを用いて広範に評価する。
論文 参考訳(メタデータ) (2023-11-02T04:32:24Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Co-segmentation Inspired Attention Module for Video-based Computer
Vision Tasks [11.61956970623165]
本稿では,コセグメンテーション・モジュール・アクティベーション(COSAM)と呼ばれる汎用モジュールを提案する。
ビデオベースタスクにおけるCOSAMの適用例として,1)ビデオベースの人物再ID,2)ビデオキャプション,3)ビデオアクション分類の3つを挙げる。
論文 参考訳(メタデータ) (2021-11-14T15:35:37Z) - The Emergence of Objectness: Learning Zero-Shot Segmentation from Videos [59.12750806239545]
動画は移動成分によって同じシーンを異なる視点で見ることができ、適切な領域分割と領域フローは相互のビュー合成を可能にする。
モデルでは,1枚の画像に対して特徴に基づく領域分割を出力する出現経路と,1枚の画像に対して動作特徴を出力する動き経路の2つの経路から開始する。
セグメントフローに基づく視線合成誤差を最小限に抑えるためにモデルを訓練することにより、我々の外観経路と運動経路は、それぞれ低レベルのエッジや光フローから構築することなく、領域のセグメンテーションとフロー推定を自動的に学習する。
論文 参考訳(メタデータ) (2021-11-11T18:59:11Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。