論文の概要: Learning Action Hierarchies via Hybrid Geometric Diffusion
- arxiv url: http://arxiv.org/abs/2601.01914v1
- Date: Mon, 05 Jan 2026 08:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.923983
- Title: Learning Action Hierarchies via Hybrid Geometric Diffusion
- Title(参考訳): ハイブリッド幾何拡散による学習行動階層
- Authors: Arjun Ramesh Kaushik, Nalini K. Ratha, Venu Govindaraju,
- Abstract要約: 時間的アクションセグメンテーション(英: Temporal action segmentation)は、ビデオ理解において重要なタスクであり、ビデオの各フレームにアクションラベルを割り当てることが目的である。
拡散モデルにユークリッドと双曲幾何学のハイブリッドを組み込んだフレームワークであるHybridTASを提案する。
提案手法は, 時間的動作分割タスクに対する双曲誘導復調の有効性を検証し, 最先端性能を実現する。
- 参考スコア(独自算出の注目度): 10.176137688183575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal action segmentation is a critical task in video understanding, where the goal is to assign action labels to each frame in a video. While recent advances leverage iterative refinement-based strategies, they fail to explicitly utilize the hierarchical nature of human actions. In this work, we propose HybridTAS - a novel framework that incorporates a hybrid of Euclidean and hyperbolic geometries into the denoising process of diffusion models to exploit the hierarchical structure of actions. Hyperbolic geometry naturally provides tree-like relationships between embeddings, enabling us to guide the action label denoising process in a coarse-to-fine manner: higher diffusion timesteps are influenced by abstract, high-level action categories (root nodes), while lower timesteps are refined using fine-grained action classes (leaf nodes). Extensive experiments on three benchmark datasets, GTEA, 50Salads, and Breakfast, demonstrate that our method achieves state-of-the-art performance, validating the effectiveness of hyperbolic-guided denoising for the temporal action segmentation task.
- Abstract(参考訳): 時間的アクションセグメンテーション(英: Temporal action segmentation)は、ビデオ理解において重要なタスクであり、ビデオの各フレームにアクションラベルを割り当てることが目的である。
近年の進歩は反復的洗練に基づく戦略を活用するが、人間の行動の階層的な性質を明示的に活用することはできなかった。
本研究では、ユークリッドと双曲幾何学のハイブリッドを融合した新しいフレームワークであるHybridTASを提案する。
高拡散タイムステップは抽象的かつ高レベルなアクションカテゴリ(ルートノード)の影響を受け、低拡散タイムステップは細粒度なアクションクラス(リーフノード)によって洗練される。
GTEA,50Salads,Breakfastの3つのベンチマークデータセットに対する広範囲な実験により,この手法が最先端性能を実現し,時間的動作分割タスクに対する双曲誘導復調の有効性を検証した。
関連論文リスト
- Multi-Modal Graph Convolutional Network with Sinusoidal Encoding for Robust Human Action Segmentation [10.122882293302787]
人間の行動の時間的セグメンテーションは 知的ロボットにとって 協調的な環境において 不可欠です
本稿では,低フレームレート(例えば1fps)の視覚データと高フレームレート(例えば30fps)のモーションデータを統合するマルチモーダルグラフ畳み込みネットワーク(MMGCN)を提案する。
我々の手法は、特にアクションセグメンテーションの精度において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-07-01T13:55:57Z) - BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation [48.08416841005715]
両面操作に適したキーポーズ条件の整合性ポリシーを導入する。
階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。
シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。
論文 参考訳(メタデータ) (2024-06-14T14:49:12Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Hierarchical Modeling for Task Recognition and Action Segmentation in
Weakly-Labeled Instructional Videos [6.187780920448871]
本稿では,弱いラベル付き指導ビデオにおけるタスク認識とアクションセグメンテーションに焦点を当てた。
本稿では,意味的階層と時間的階層を利用して指導ビデオの上位レベルタスクを認識できる2ストリームフレームワークを提案する。
提案手法では, 微粒な動作系列の推論を制約するために, 予測タスクを用いる。
論文 参考訳(メタデータ) (2021-10-12T02:32:15Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。