Fugu-MT 論文翻訳(概要): SASI: Leveraging Sub-Action Semantics for Robust Early Action Recognition in Human-Robot Interaction

論文の概要: SASI: Leveraging Sub-Action Semantics for Robust Early Action Recognition in Human-Robot Interaction

arxiv url: http://arxiv.org/abs/2604.27508v1
Date: Thu, 30 Apr 2026 06:57:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-01 16:31:53.965584
Title: SASI: Leveraging Sub-Action Semantics for Robust Early Action Recognition in Human-Robot Interaction
Title（参考訳）: SASI:人間-ロボットインタラクションにおけるロバスト早期行動認識のためのサブアクションセマンティクスの活用
Authors: Yongpeng Cao, Masahiro Hirano, Hyuno Kim, Yuji Yamakawa,
Abstract要約: SASI(Sub-Action Semantics Integrated Cross-modal fusion)は、既存のグラフ畳み込みネットワークとサブアクションセマンティクスを融合する新しいフレームワークである。従来のスケルトンベースのグラフ畳み込みネットワークによるセグメンテーションモデルを利用して、きめ細かいサブアクションセマンティクスと全体空間コンテキストの両方をキャプチャする。部分的な動作シーケンスを理解する上で優れたパフォーマンスを実現し、早期認識の能力を明らかにしている。
参考スコア（独自算出の注目度）: 1.8665975431697432
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding human actions is critical for advancing behavior analysis in human-robot interaction. Particularly in tasks that demand quick and proactive feedback, robots must recognize human actions as early as possible from incomplete observations. \textit{Sub-actions} offer the semantic and hierarchical cues needed for this, since human actions are inherently structured and can be decomposed into smaller, meaningful units. However, conventional approaches focus primarily on holistic actions and often overlook the rich semantic structure embedded in sub-actions, making them poorly suited for early recognition. To address this gap, we introduce SASI (Sub-Action Semantics Integrated cross-modal fusion), a novel framework that integrates existing graph convolution networks to fuse spatiotemporal features with sub-action semantics. SASI exploits a segmentation model with a traditional skeleton-based graph convolution network, capturing both fine-grained sub-action semantics and overall spatial context, while operating in real-time at 29 Hz. Experiments on BABEL, a skeleton-based dataset with frame-level annotations, demonstrate that our method improves recognition accuracy over conventional approaches, with additional gains expected as the quality of sub-action segmentation improves. Notably, SASI also achieves superior performance in understanding partial action sequences, revealing its capability for early recognition, which is essential for proactive and seamless Human-Robot Interaction (HRI). Code is available at https://anonymous.4open.science/r/SASI .
Abstract（参考訳）: 人間の行動を理解することは、人間とロボットの相互作用における行動分析を促進するために重要である。特に、迅速で積極的なフィードバックを必要とするタスクでは、ロボットは不完全な観察からできるだけ早く人間の行動を認識する必要がある。 \textit{Sub-actions} は、人間の行動は本質的に構造化されており、より小さく、意味のある単位に分解できるため、これに必要な意味的および階層的な手がかりを提供する。しかし、従来のアプローチは主に全体論的行動に焦点を当てており、しばしばサブアクションに埋め込まれたリッチなセマンティック構造を見落とし、早期認識には適さない。このギャップに対処するために,既存のグラフ畳み込みネットワークを統合し,時空間の特徴をサブアクションセマンティクスと融合する新たなフレームワークであるSASI(Sub-Action Semantics Integrated Cross-modal fusion)を導入する。 SASIは、従来のスケルトンベースのグラフ畳み込みネットワークによるセグメンテーションモデルを利用して、29Hzでリアルタイムに動作しながら、細粒度のサブアクションセマンティクスと全体空間コンテキストの両方をキャプチャする。フレームレベルのアノテーションを用いたスケルトンベースのデータセットであるBABELの実験により,本手法は従来の手法よりも認識精度が向上し,サブアクションセグメンテーションの品質が向上すると予想される。特に、SASIは部分的な動作シーケンスの理解において優れたパフォーマンスを達成し、その早期認識能力を明らかにし、これは能動的かつシームレスなヒューマンロボットインタラクション(HRI)に必須である。コードはhttps://anonymous.4open.science/r/SASI で公開されている。

関連論文リスト

SocialMirror: Reconstructing 3D Human Interaction Behaviors from Monocular Videos with Semantic and Geometric Guidance [49.69016078147708]
密接な相互作用シナリオにおける人間の行動の正確な再構築は、拡張現実における現実的な仮想インタラクションの実現に不可欠である。本稿では,これらの問題に効果的に対処するための意味的および幾何学的手がかりを統合する拡散ベースのフレームワークであるSocialMirrorを提案する。 SocialMirrorはインタラクティブなヒューマンメッシュを再構築する上で,最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2026-04-15T07:41:52Z)
TATIC: Task-Aware Temporal Learning for Human Intent Inference from Physical Corrections in Human-Robot Collaboration [3.4672098154671995]
ヒューマンロボットコラボレーション(HRC)では、ロボットは動的タスクの制約にオンラインで適応し、人間の意図を進化させなければならない。本稿では,トルクベース接触力推定とタスク対応時間畳み込みネットワーク(TCN)を利用した個別タスクレベルの意図を推定する統合フレームワークTATICを提案する。実験は意図認識において0.904 Macro-F1のスコアを獲得し、ハードウェアの検証に成功した。
論文参考訳（メタデータ） (2026-03-10T21:19:25Z)
Zero-Shot Open-Vocabulary Human Motion Grounding with Test-Time Training [39.7658823121591]
ZOMGは、アノテーションや微調整を必要とせずに、動作シーケンスを意味のあるサブアクションに分割するフレームワークである。 ZOMGは(1)言語セマンティックパーティションを統合し、大きな言語モデルを利用して命令を順序付けられたサブアクション単位に分解し、(2)ソフトマスキング最適化を行う。 3つのモーション言語データセットの実験では、HumanML3Dベンチマークにおいて、先行手法を+8.7%mAPで上回る、動作グラウンド性能の最先端の有効性と効率が示されている。
論文参考訳（メタデータ） (2025-11-19T12:11:36Z)
Human Scanpath Prediction in Target-Present Visual Search with Semantic-Foveal Bayesian Attention [49.99728312519117]
SemBA-FASTは、ターゲットの視覚検索における人間の視覚的注意を予測するためのトップダウンフレームワークである。我々は、COCO-Search18ベンチマークデータセット上でSemBA-FASTを評価し、その性能を他のスキャンパス予測モデルと比較した。これらの知見は、人間のような注意モデリングのためのセマンティック・フレーバー・確率的フレームワークの能力に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2025-07-24T15:19:23Z)
Neuron: Learning Context-Aware Evolving Representations for Zero-Shot Skeleton Action Recognition [64.56321246196859]
本稿では,dUalスケルトン・セマンティック・セマンティック・セマンティック・セマンティック・シンジスティック・フレームワークを提案する。まず、時空間進化型マイクロプロトタイプを構築し、動的コンテキスト認識側情報を統合する。本研究では,空間的圧縮と時間的記憶機構を導入し,空間的時間的マイクロプロトタイプの成長を導く。
論文参考訳（メタデータ） (2024-11-18T05:16:11Z)
Skeleton-Based Mutually Assisted Interacted Object Localization and Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文参考訳（メタデータ） (2021-10-28T10:09:34Z)
Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文参考訳（メタデータ） (2021-04-23T10:08:15Z)
Attention-Oriented Action Recognition for Real-Time Human-Robot Interaction [11.285529781751984]
本稿では,リアルタイムインタラクションの必要性に応えるために,アテンション指向のマルチレベルネットワークフレームワークを提案する。具体的には、プレアテンションネットワークを使用して、低解像度でシーン内のインタラクションに大まかにフォーカスする。他のコンパクトCNNは、抽出されたスケルトンシーケンスをアクション認識用の入力として受信する。
論文参考訳（メタデータ） (2020-07-02T12:41:28Z)
Human Action Recognition and Assessment via Deep Neural Network Self-Organization [0.0]
本章では,深度マップとRGB画像からの行動の学習と認識のための階層モデルを紹介する。これらのモデルの特徴は、非定常分布に迅速に適応する自己組織化ネットワークの利用である。
論文参考訳（メタデータ） (2020-01-04T15:58:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。