論文の概要: Region-aware Image-based Human Action Retrieval with Transformers
- arxiv url: http://arxiv.org/abs/2407.09924v2
- Date: Mon, 29 Jul 2024 03:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 20:41:58.233046
- Title: Region-aware Image-based Human Action Retrieval with Transformers
- Title(参考訳): 変圧器を用いた領域認識画像に基づく人間行動検索
- Authors: Hongsong Wang, Jianhua Zhao, Jie Gui,
- Abstract要約: 我々は,画像に基づく行動検索において,無視されるが重要な課題に焦点をあてる。
3つの側面からリッチなアクション表現を学習するエンド・ツー・エンドのモデルを提案する。
Stanford-40 と PASCAL VOC 2012 Action データセットの実験では、提案手法が従来の手法よりも大幅に優れていたことが示されている。
- 参考スコア(独自算出の注目度): 13.075620765136778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human action understanding is a fundamental and challenging task in computer vision. Although there exists tremendous research on this area, most works focus on action recognition, while action retrieval has received less attention. In this paper, we focus on the neglected but important task of image-based action retrieval which aims to find images that depict the same action as a query image. We establish benchmarks for this task and set up important baseline methods for fair comparison. We present an end-to-end model that learns rich action representations from three aspects: the anchored person, contextual regions, and the global image. A novel fusion transformer module is designed to model the relationships among different features and effectively fuse them into an action representation. Experiments on the Stanford-40 and PASCAL VOC 2012 Action datasets show that the proposed method significantly outperforms previous approaches for image-based action retrieval.
- Abstract(参考訳): 人間の行動理解はコンピュータビジョンの基本的な課題である。
この分野には膨大な研究があるが、ほとんどの研究は行動認識に焦点をあてているが、アクション検索はあまり注目されていない。
本稿では,検索画像と同一の動作を表現した画像を見つけることを目的とした,画像に基づく行動検索において,無視されるが重要な課題に焦点をあてる。
我々は,このタスクのベンチマークを作成し,公正な比較のための重要なベースライン手法を構築した。
本稿では,3つの側面からリッチな行動表現を学習するエンド・ツー・エンド・モデルを提案する。
新たな融合トランスモジュールは、異なる特徴間の関係をモデル化し、それらをアクション表現に効果的に融合するように設計されている。
Stanford-40 と PASCAL VOC 2012 Action データセットを用いた実験により,提案手法は従来の画像に基づく行動検索手法よりも有意に優れていた。
関連論文リスト
- ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions [66.20773952864802]
我々は8.5k画像と59.3k画像に接地されたアクションに関する59.3kの推論からなるデータセットを開発する。
本稿では、提供された視覚入力に特有の言語モデルに存在する知識を識別するフレームワークであるActionCOMETを提案する。
論文 参考訳(メタデータ) (2024-10-17T15:22:57Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Transformer based Multitask Learning for Image Captioning and Object
Detection [13.340784876489927]
本研究は,画像キャプションとオブジェクト検出を結合モデルに組み合わせた,新しいマルチタスク学習フレームワークを提案する。
我々は,2つのタスクを共同で訓練するためのTICOD, Transformer-based Image Captioning, Object Detectionモデルを提案する。
我々のモデルはBERTScoreの3.65%の改善によって、画像キャプション文学のベースラインを上回ります。
論文 参考訳(メタデータ) (2024-03-10T19:31:13Z) - Foveation in the Era of Deep Learning [6.602118206533142]
本稿では,グラフ畳み込みネットワークを利用してフェーブ化された画像を処理する,エンドツーエンドで微分可能なアクティブ・ビジョン・アーキテクチャを提案する。
我々のモデルは、分類に関連する画像の領域に反復的に出席することを学ぶ。
我々のモデルは最先端のCNNと、同等のパラメータと与えられたピクセルや予算の視覚アーキテクチャより優れています。
論文 参考訳(メタデータ) (2023-12-03T16:48:09Z) - Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。
提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文 参考訳(メタデータ) (2022-12-07T03:36:37Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - Hand Image Understanding via Deep Multi-Task Learning [34.515382305252814]
単一のRGB画像から手動物体の包括的情報を抽出する新しい手動画像理解(HIU)フレームワークを提案する。
提案手法は, 様々な広く使用されているデータセットに対する最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-24T16:28:06Z) - A Grid-based Representation for Human Action Recognition [12.043574473965318]
ビデオにおけるヒューマンアクション認識(HAR)は、コンピュータビジョンにおける基本的な研究課題である。
本稿では,行動の最も識別性の高い外観情報を効率的に符号化する行動認識手法を提案する。
提案手法は, モデルが人間の行動を正確に認識できることを示すために, いくつかのベンチマークデータセットで検証される。
論文 参考訳(メタデータ) (2020-10-17T18:25:00Z) - Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter [62.26677215668959]
本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
論文 参考訳(メタデータ) (2020-08-10T07:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。