論文の概要: Beyond Sequences: A Benchmark for Atomic Hand-Object Interaction Using a Static RNN Encoder
- arxiv url: http://arxiv.org/abs/2512.09626v1
- Date: Wed, 10 Dec 2025 13:11:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.530544
- Title: Beyond Sequences: A Benchmark for Atomic Hand-Object Interaction Using a Static RNN Encoder
- Title(参考訳): Beyond Sequences: 静的RNNエンコーダを用いたアトミックハンドオブジェクトインタラクションのベンチマーク
- Authors: Yousef Azizi Movahed, Fatemeh Ziaeetabar,
- Abstract要約: 我々は、MANIACデータセットから生動画を27,476の統計力学的特徴ベクトルに変換する構造化データエンジニアリングプロセスを導入する。
我々のモデルは、バランスの取れたF1スコア0.90を達成することで、最も困難な移行クラスである「グラビング」を乗り越えることに成功した。
これらの結果は、構造化された、解釈可能な特徴と軽量アーキテクチャを用いた、低レベルの手オブジェクト間相互作用認識のための新しいベンチマークを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliably predicting human intent in hand-object interactions is an open challenge for computer vision. Our research concentrates on a fundamental sub-problem: the fine-grained classification of atomic interaction states, namely 'approaching', 'grabbing', and 'holding'. To this end, we introduce a structured data engineering process that converts raw videos from the MANIAC dataset into 27,476 statistical-kinematic feature vectors. Each vector encapsulates relational and dynamic properties from a short temporal window of motion. Our initial hypothesis posited that sequential modeling would be critical, leading us to compare static classifiers (MLPs) against temporal models (RNNs). Counter-intuitively, the key discovery occurred when we set the sequence length of a Bidirectional RNN to one (seq_length=1). This modification converted the network's function, compelling it to act as a high-capacity static feature encoder. This architectural change directly led to a significant accuracy improvement, culminating in a final score of 97.60%. Of particular note, our optimized model successfully overcame the most challenging transitional class, 'grabbing', by achieving a balanced F1-score of 0.90. These findings provide a new benchmark for low-level hand-object interaction recognition using structured, interpretable features and lightweight architectures.
- Abstract(参考訳): 手動物体の相互作用における人間の意図を確実に予測することは、コンピュータビジョンにとってオープンな課題である。
我々の研究は、原子間相互作用状態のきめ細かい分類、すなわち、"アパッチング"、"グラビング"、"ホールディング"の基本的なサブプロブレムに焦点を当てている。
そこで本研究では,MANIACデータセットからの生動画を27,476の統計的特徴ベクトルに変換する構造化データエンジニアリングプロセスを提案する。
各ベクトルは、短い時間的動きの窓から関係性と動的特性をカプセル化する。
最初の仮説はシーケンシャルなモデリングが重要であると仮定し、静的分類器(MLP)と時間的モデル(RNN)を比較した。
反対に、鍵発見は、双方向RNNのシーケンス長を1(seq_length=1)に設定したときに発生した。
この変更はネットワークの機能を変え、高容量の静的特徴エンコーダとして機能するように促した。
このアーキテクチャの変更により精度が向上し、最終的なスコアは97.60%に達した。
特に、最適化されたモデルでは、バランスの取れたF1スコアの0.90を達成することで、最も困難な移行クラスである「グラビング」を乗り越えることに成功した。
これらの結果は、構造化された、解釈可能な特徴と軽量アーキテクチャを用いた、低レベルの手オブジェクト間相互作用認識のための新しいベンチマークを提供する。
関連論文リスト
- URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - TRACE: Learning to Compute on Graphs [15.34239150750753]
アーキテクチャ的に健全なバックボーンと原則学習目標に基づいて構築された新しいパラダイムである textbfTRACE を紹介する。
まず、TRACEは階層変換器を使用し、計算のステップバイステップフローを反映する。
第2に、学習問題を分離する新しい目的であるtextbffunction shift learningを導入する。
論文 参考訳(メタデータ) (2025-09-26T05:22:32Z) - PESTO: Real-Time Pitch Estimation with Self-supervised Transposition-equivariant Objective [28.829305407116962]
PESTOは単ピッチ推定のための自己教師付き学習手法である。
キャッシュ型畳み込みを用いたストリーム可能なVQT実装を開発した。
論文 参考訳(メタデータ) (2025-08-02T21:00:55Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Higher-Order Convolution Improves Neural Predictivity in the Retina [0.7916635054977068]
畳み込みニューラルネットワーク(CNN)に直接高次操作を組み込むニューラルレスポンス予測への新しいアプローチを提案する。
我々のモデルは、畳み込み演算子自体に高次演算を組み込むことで、従来の3次元CNNを拡張します。
自然界に対するサラマンデル網膜神経節細胞 (RGC) 応答と, 制御された幾何学的変換に対するマウスRGC応答の新しいデータセットの2つの異なるデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-05-12T14:43:32Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。