論文の概要: Learning Higher-order Object Interactions for Keypoint-based Video
Understanding
- arxiv url: http://arxiv.org/abs/2305.09539v1
- Date: Tue, 16 May 2023 15:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 14:20:05.903335
- Title: Learning Higher-order Object Interactions for Keypoint-based Video
Understanding
- Title(参考訳): キーポイント映像理解のための高次オブジェクトインタラクション学習
- Authors: Yi Huang, Asim Kadav, Farley Lai, Deep Patel, Hans Peter Graf
- Abstract要約: 本稿では、キーポイントデータのみをトラッキングとアクション認識に使用するアクションローカライズ手法であるKeyNetについて述べる。
KeyNetは、人間のアクションをわずか5FPSで追跡し分類することができます。
- 参考スコア(独自算出の注目度): 15.52736059969859
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Action recognition is an important problem that requires identifying actions
in video by learning complex interactions across scene actors and objects.
However, modern deep-learning based networks often require significant
computation, and may capture scene context using various modalities that
further increases compute costs. Efficient methods such as those used for AR/VR
often only use human-keypoint information but suffer from a loss of scene
context that hurts accuracy. In this paper, we describe an action-localization
method, KeyNet, that uses only the keypoint data for tracking and action
recognition. Specifically, KeyNet introduces the use of object based keypoint
information to capture context in the scene. Our method illustrates how to
build a structured intermediate representation that allows modeling
higher-order interactions in the scene from object and human keypoints without
using any RGB information. We find that KeyNet is able to track and classify
human actions at just 5 FPS. More importantly, we demonstrate that object
keypoints can be modeled to recover any loss in context from using keypoint
information over AVA action and Kinetics datasets.
- Abstract(参考訳): アクション認識は、シーンアクターとオブジェクト間の複雑な相互作用を学習することで、ビデオ内のアクションを識別する必要がある重要な問題である。
しかし、現代のディープラーニングベースのネットワークは、しばしばかなりの計算を必要とし、計算コストをさらに高める様々なモダリティを用いてシーンコンテキストをキャプチャする。
AR/VRで使用されるような効率的な方法はしばしば人間のキーポイント情報のみを使用するが、精度を損なうシーンコンテキストの喪失に悩まされる。
本稿では,キーポイントデータのみを用いて追跡と行動認識を行うアクションローカライズ手法であるkeynetについて述べる。
具体的には、KeyNetはオブジェクトベースのキーポイント情報を使用してシーンのコンテキストをキャプチャする。
提案手法は,RGB情報を用いることなく,オブジェクトと人間のキーポイントからの高次相互作用をモデル化可能な構造化中間表現の構築方法を示す。
KeyNetは、人間のアクションをわずか5FPSで追跡し分類することができます。
さらに重要なことは、AVAアクションとKineeticsデータセット上のキーポイント情報を使用して、オブジェクトキーポイントをモデル化してコンテキストの損失を回復できることである。
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - Interacting Hand-Object Pose Estimation via Dense Mutual Attention [97.26400229871888]
3Dハンドオブジェクトのポーズ推定は多くのコンピュータビジョンアプリケーションの成功の鍵となる。
本研究では,手と物体間の微粒な依存関係をモデル化できる新しい相互注意機構を提案する。
提案手法は,高品質かつリアルタイムな推論速度で,物理的に妥当なポーズを生成できる。
論文 参考訳(メタデータ) (2022-11-16T10:01:33Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - End-to-End Learning of Keypoint Representations for Continuous Control
from Images [84.8536730437934]
教師なしの事前学習、デコーダ、追加の損失を必要とせずに、エンドツーエンドで効率的なキーポイント表現を学習できることが示される。
提案アーキテクチャは,ソフトアクター・クリティカルエージェントに直接座標を供給するキーポイント抽出器で構成されている。
論文 参考訳(メタデータ) (2021-06-15T09:17:06Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z) - Unsupervised Object Keypoint Learning using Local Spatial Predictability [10.862430265350804]
オブジェクトキーポイントに基づく表現学習のための新しいアプローチであるPermaKeyを提案する。
AtariにおけるPermaKeyの有効性を実証し、最も顕著なオブジェクト部分に対応するキーポイントを学習し、特定の視覚的障害に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2020-11-25T18:27:05Z) - S3K: Self-Supervised Semantic Keypoints for Robotic Manipulation via
Multi-View Consistency [11.357804868755155]
視覚的表現として意味的な3Dキーポイントを提唱し,半教師あり学習目標を示す。
局所的なテクスチャベースのアプローチとは異なり、我々のモデルは広い領域からコンテキスト情報を統合する。
意味的キーポイントを特定することで、人間の理解可能な行動の高レベルなスクリプティングが可能になることを実証する。
論文 参考訳(メタデータ) (2020-09-30T14:44:54Z) - CoKe: Localized Contrastive Learning for Robust Keypoint Detection [24.167397429511915]
特徴空間における3種類の距離を最適化するためにキーポイントカーネルを選択することができることを示す。
我々は、教師付きコントラスト学習を含むフレームワーク内で、この最適化プロセスを定式化する。
CoKeは、すべてのキーポイントを論理的に共同で表現するアプローチと比較して、最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T16:00:43Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。