論文の概要: Hierarchical Action Learning for Weakly-Supervised Action Segmentation
- arxiv url: http://arxiv.org/abs/2602.24275v1
- Date: Fri, 27 Feb 2026 18:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.569632
- Title: Hierarchical Action Learning for Weakly-Supervised Action Segmentation
- Title(参考訳): 弱スーパービジョンアクションセグメンテーションのための階層的行動学習
- Authors: Junxian Huang, Ruichu Cai, Hao Zhu, Juntao Fang, Boyan Xu, Weilin Chen, Zijian Li, Shenghua Gao,
- Abstract要約: 弱教師付きアクションセグメンテーションのための階層的アクション学習(textbfHAL)モデルを提案する。
提案手法では,階層的な因果データ生成プロセスを導入し,低レベル視覚特徴のダイナミクスを高レベル潜在動作が支配する。
実験結果から, TextbfHAL モデルでは, 動作セグメンテーションにおける既存手法よりも有意に優れていた。
- 参考スコア(独自算出の注目度): 43.688046710022626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans perceive actions through key transitions that structure actions across multiple abstraction levels, whereas machines, relying on visual features, tend to over-segment. This highlights the difficulty of enabling hierarchical reasoning in video understanding. Interestingly, we observe that lower-level visual and high-level action latent variables evolve at different rates, with low-level visual variables changing rapidly, while high-level action variables evolve more slowly, making them easier to identify. Building on this insight, we propose the Hierarchical Action Learning (\textbf{HAL}) model for weakly-supervised action segmentation. Our approach introduces a hierarchical causal data generation process, where high-level latent action governs the dynamics of low-level visual features. To model these varying timescales effectively, we introduce deterministic processes to align these latent variables over time. The \textbf{HAL} model employs a hierarchical pyramid transformer to capture both visual features and latent variables, and a sparse transition constraint is applied to enforce the slower dynamics of high-level action variables. This mechanism enhances the identification of these latent variables over time. Under mild assumptions, we prove that these latent action variables are strictly identifiable. Experimental results on several benchmarks show that the \textbf{HAL} model significantly outperforms existing methods for weakly-supervised action segmentation, confirming its practical effectiveness in real-world applications.
- Abstract(参考訳): 人間は、複数の抽象レベルにわたってアクションを構成するキートランジションを通じてアクションを知覚するが、マシンは視覚的特徴に依存し、過度に分離する傾向がある。
これは、ビデオ理解において階層的推論を可能にすることの難しさを強調している。
興味深いことに、低レベルな視覚的・高レベルな行動潜伏変数は異なる速度で進化し、低レベルな視覚的変数は急速に変化し、高レベルな行動変数はよりゆっくりと進化し、識別しやすくなる。
この知見に基づいて、弱教師付きアクションセグメンテーションのための階層的アクション学習(\textbf{HAL})モデルを提案する。
提案手法では,階層的な因果データ生成プロセスを導入し,低レベル視覚特徴のダイナミクスを高レベル潜在動作が支配する。
これらの様々な時間スケールを効果的にモデル化するために、時間とともにこれらの潜伏変数を整列させる決定論的プロセスを導入する。
textbf{HAL}モデルは、階層的なピラミッドトランスフォーマーを使用して視覚特徴と潜伏変数の両方をキャプチャし、スパース遷移制約を適用して、ハイレベルなアクション変数の遅いダイナミクスを強制する。
このメカニズムは、時間とともにこれらの潜伏変数の識別を強化する。
軽微な仮定の下では、これらの潜伏作用変数が厳密に識別可能であることを証明している。
いくつかのベンチマークによる実験結果から, 従来の動作セグメンテーション法に比べて, 従来の動作セグメンテーション法よりも有意に優れており, 実世界の応用における実用性が確認されている。
関連論文リスト
- \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - Learning Action Hierarchies via Hybrid Geometric Diffusion [10.176137688183575]
時間的アクションセグメンテーション(英: Temporal action segmentation)は、ビデオ理解において重要なタスクであり、ビデオの各フレームにアクションラベルを割り当てることが目的である。
拡散モデルにユークリッドと双曲幾何学のハイブリッドを組み込んだフレームワークであるHybridTASを提案する。
提案手法は, 時間的動作分割タスクに対する双曲誘導復調の有効性を検証し, 最先端性能を実現する。
論文 参考訳(メタデータ) (2026-01-05T08:59:07Z) - Structured Agent Distillation for Large Language Model [56.38279355868093]
本研究では,LLMをベースとした大規模エージェントを小さな学生モデルに圧縮するフレームワークであるStructured Agent Distillationを提案する。
提案手法は, [REASON] と [ACT] にトラジェクトリを分割し, 各コンポーネントを教師の行動に合わせるためにセグメント特異的な損失を適用した。
ALFWorld、HotPotQA-ReAct、WebShopの実験は、我々のアプローチがトークンレベルと模倣学習のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-20T02:01:55Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Capturing Rich Behavior Representations: A Dynamic Action Semantic-Aware Graph Transformer for Video Captioning [13.411096520754507]
既存のビデオキャプション手法は、単にオブジェクトの振舞いの浅いあるいは単純化した表現を提供するだけである。
本稿では,オブジェクトの振る舞いの本質を包括的に把握する動的アクション意味認識グラフ変換器を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:16:47Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization [26.506893363676678]
本稿ではPseudo-label Oriented Transformerを提案する。
POTLocは、自己学習戦略を通じて、継続的なアクション構造を特定し、追跡するように設計されている。
THUMOS'14とActivityNet-v1.2データセットでは、最先端のポイント管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-20T15:28:06Z) - Learning Efficient Abstract Planning Models that Choose What to Predict [28.013014215441505]
多くのロボティクス分野において,既存の記号演算子学習アプローチが不足していることが示されている。
これは主に、抽象状態におけるすべての観測された変化を正確に予測する演算子を学習しようとするためである。
我々は,特定の目標を達成するための抽象的計画に必要な変化をモデル化するだけで,「予測すべきものを選択する」演算子を学習することを提案する。
論文 参考訳(メタデータ) (2022-08-16T13:12:59Z) - Semi-Supervised Few-Shot Atomic Action Recognition [59.587738451616495]
半教師付き数発のアトミック・アクション認識のための新しいモデルを提案する。
我々のモデルは、教師なしおよびコントラスト付きビデオ埋め込み、ゆるやかなアクションアライメント、マルチヘッド特徴比較、アテンションベースのアグリゲーションを特徴としている。
実験により,本モデルは,それぞれの最先端の分類精度よりも高い精度を全監督条件下で達成できることが確認された。
論文 参考訳(メタデータ) (2020-11-17T03:59:05Z) - Augmented Skeleton Based Contrastive Action Learning with Momentum LSTM
for Unsupervised Action Recognition [16.22360992454675]
近年では3Dスケルトンデータによる行動認識が重要視されている。
本稿では,AS-CALという対照的な行動学習パラダイムを初めて提案する。
提案手法は,従来の手作り手法を10~50%の精度で改善する。
論文 参考訳(メタデータ) (2020-08-01T06:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。