Fugu-MT 論文翻訳(概要): Improvement of Human-Object Interaction Action Recognition Using Scene Information and Multi-Task Learning Approach

論文の概要: Improvement of Human-Object Interaction Action Recognition Using Scene Information and Multi-Task Learning Approach

arxiv url: http://arxiv.org/abs/2509.09067v1
Date: Thu, 11 Sep 2025 00:14:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-12 16:52:24.177219
Title: Improvement of Human-Object Interaction Action Recognition Using Scene Information and Multi-Task Learning Approach
Title（参考訳）: シーン情報とマルチタスク学習アプローチを用いたヒューマンオブジェクトインタラクション行動認識の改善
Authors: Hesham M. Shehata, Mohammad Abdolrahmani,
Abstract要約: 本研究では,環境中の固定オブジェクト情報を考慮し,人間の行動認識性能を活用する手法を提案する。マルチタスク学習アプローチは、相互作用領域の情報とともに、99.25%の精度で研究された相互作用と非相互作用行動を認識することに成功している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent graph convolutional neural networks (GCNs) have shown high performance in the field of human action recognition by using human skeleton poses. However, it fails to detect human-object interaction cases successfully due to the lack of effective representation of the scene information and appropriate learning architectures. In this context, we propose a methodology to utilize human action recognition performance by considering fixed object information in the environment and following a multi-task learning approach. In order to evaluate the proposed method, we collected real data from public environments and prepared our data set, which includes interaction classes of hands-on fixed objects (e.g., ATM ticketing machines, check-in/out machines, etc.) and non-interaction classes of walking and standing. The multi-task learning approach, along with interaction area information, succeeds in recognizing the studied interaction and non-interaction actions with an accuracy of 99.25%, outperforming the accuracy of the base model using only human skeleton poses by 2.75%.
Abstract（参考訳）: 最近のグラフ畳み込みニューラルネットワーク(GCN)は、人間の骨格のポーズを用いて、人間の行動認識の分野で高い性能を示している。しかし、シーン情報や適切な学習アーキテクチャの効果的な表現が欠如しているため、人間と物体の相互作用をうまく検出できない。本研究では,環境中の固定された対象情報を考慮し,マルチタスク学習アプローチに従うことで,人間の行動認識性能を活用する手法を提案する。提案手法を評価するため,公共環境から実データを収集し,手持ち固定オブジェクト(ATM券売機,チェックイン・アウト機など)のインタラクションクラスと歩行・立ち上がりの非インタラクションクラスを含むデータセットを作成した。マルチタスク学習アプローチは、相互作用領域の情報とともに、研究された相互作用と非相互作用のアクションを99.25%の精度で認識し、人間の骨格のみを使用してベースモデルの精度を2.75%向上させることに成功した。

関連論文リスト

Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文参考訳（メタデータ） (2024-10-15T07:35:51Z)
The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks [4.971065912401385]
ゼロショットマルチラベル動作認識のための統一的なアプローチであるDual-VCLIPを提案する。 Dual-VCLIPは、マルチラベル画像分類のためのDualCoOp法を用いて、ゼロショット動作認識法であるVCLIPを強化する。オブジェクトベースのアクションの大部分を含むCharadesデータセット上で,本手法の有効性を検証する。
論文参考訳（メタデータ） (2024-05-14T15:28:48Z)
InterTracker: Discovering and Tracking General Objects Interacting with Hands in the Wild [40.489171608114574]
既存の方法は相互作用する物体を見つけるためにフレームベースの検出器に依存している。本稿では,対話オブジェクトの追跡に手動オブジェクトのインタラクションを活用することを提案する。提案手法は最先端の手法よりも優れている。
論文参考訳（メタデータ） (2023-08-06T09:09:17Z)
Skeleton-Based Mutually Assisted Interacted Object Localization and Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文参考訳（メタデータ） (2021-10-28T10:09:34Z)
DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文参考訳（メタデータ） (2020-08-26T17:59:40Z)
Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文参考訳（メタデータ） (2020-07-07T17:19:56Z)
Attention-Oriented Action Recognition for Real-Time Human-Robot Interaction [11.285529781751984]
本稿では,リアルタイムインタラクションの必要性に応えるために,アテンション指向のマルチレベルネットワークフレームワークを提案する。具体的には、プレアテンションネットワークを使用して、低解像度でシーン内のインタラクションに大まかにフォーカスする。他のコンパクトCNNは、抽出されたスケルトンシーケンスをアクション認識用の入力として受信する。
論文参考訳（メタデータ） (2020-07-02T12:41:28Z)
Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。 V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文参考訳（メタデータ） (2020-03-31T08:42:06Z)
Simultaneous Learning from Human Pose and Object Cues for Real-Time Activity Recognition [11.290467061493189]
本研究では,人間の行動にかかわるポーズや物体の観察から同時に学習することで,人間の行動認識に対する新しいアプローチを提案する。提案手法は従来の手法より優れ,104Hzの処理速度で人間の行動認識のリアルタイム性能を得る。
論文参考訳（メタデータ） (2020-03-26T22:04:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。