論文の概要: Generalized Event Partonomy Inference with Structured Hierarchical Predictive Learning
- arxiv url: http://arxiv.org/abs/2512.04219v1
- Date: Wed, 03 Dec 2025 19:41:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.845986
- Title: Generalized Event Partonomy Inference with Structured Hierarchical Predictive Learning
- Title(参考訳): 階層型予測学習を用いた一般化事象分節推論
- Authors: Zhou Chen, Joe Lin, Sathyanarayanan N. Aakur\\,
- Abstract要約: 本稿では、ストリーミングビデオから直接マルチスケールイベント構造を監視せずに学習する統合フレームワークPARSEを紹介する。
PARSEは,時間的アライメントと構造的整合性の両方において,ストリーミング手法と競合するオフラインベースラインの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 9.874456616326274
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humans naturally perceive continuous experience as a hierarchy of temporally nested events, fine-grained actions embedded within coarser routines. Replicating this structure in computer vision requires models that can segment video not just retrospectively, but predictively and hierarchically. We introduce PARSE, a unified framework that learns multiscale event structure directly from streaming video without supervision. PARSE organizes perception into a hierarchy of recurrent predictors, each operating at its own temporal granularity: lower layers model short-term dynamics while higher layers integrate longer-term context through attention-based feedback. Event boundaries emerge naturally as transient peaks in prediction error, yielding temporally coherent, nested partonomies that mirror the containment relations observed in human event perception. Evaluated across three benchmarks, Breakfast Actions, 50 Salads, and Assembly 101, PARSE achieves state-of-the-art performance among streaming methods and rivals offline baselines in both temporal alignment (H-GEBD) and structural consistency (TED, hF1). The results demonstrate that predictive learning under uncertainty provides a scalable path toward human-like temporal abstraction and compositional event understanding.
- Abstract(参考訳): 人間は自然に、時間的にネストした出来事の階層として、粗いルーチンに埋め込まれたきめ細かいアクションとして、継続的な経験を知覚する。
この構造をコンピュータビジョンで再現するには、振り返りだけでなく、予測的かつ階層的にビデオを分割できるモデルが必要である。
本稿では、ストリーミングビデオから直接マルチスケールイベント構造を監視せずに学習する統合フレームワークPARSEを紹介する。
PARSEはリカレント予測器の階層化を組織し、それぞれが時間的粒度で動作している: 下位層は短期的ダイナミクスをモデル化し、上位層は注意に基づくフィードバックを通じて長期的コンテキストを統合する。
事象境界は、予測誤差の過渡ピークとして自然に出現し、人間の事象知覚で観測される包摂関係を反映した、時間的に一貫性のあるネストされたパーティノミが生じる。
Breakfast Actions、50 Salads、Ambly 101の3つのベンチマークで評価されたPARSEは、ストリーミングメソッド間の最先端のパフォーマンスを実現し、時間的アライメント(H-GEBD)と構造的一貫性(TED、hF1)の両方においてオフラインベースラインと競合する。
その結果、不確実性下での予測学習は、人間のような時間的抽象と構成事象理解へのスケーラブルな道を提供することを示した。
関連論文リスト
- Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Triplet Attention Transformer for Spatiotemporal Predictive Learning [9.059462850026216]
本稿では,フレーム間動的特徴とフレーム内静的特徴の両方を捉えるために,革新的な三重項注意変換器を提案する。
このモデルはトリプレット・アテンション・モジュール(TAM)を組み込んだもので、時間、空間、チャネル次元における自己アテンションのメカニズムを探求することで、従来のリカレント・ユニットを置き換える。
論文 参考訳(メタデータ) (2023-10-28T12:49:33Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Graph-based Time Series Clustering for End-to-End Hierarchical Forecasting [18.069747511100132]
時系列間の関係は、効果的な予測モデル学習における帰納バイアスとして利用することができる。
本稿では,関係性および階層的帰納バイアスを統一するグラフベースの手法を提案する。
論文 参考訳(メタデータ) (2023-05-30T16:27:25Z) - Long-horizon video prediction using a dynamic latent hierarchy [1.2891210250935146]
遅延状態の階層としてビデオを表現する潜在モデルである動的遅延(DLH)を紹介する。
DLHはその階層をまたいで表現を歪めることを学ぶ。
ビデオ予測において,DLHが最先端のベンチマークより優れていることを示す。
論文 参考訳(メタデータ) (2022-12-29T17:19:28Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - An Empirical Study: Extensive Deep Temporal Point Process [61.14164208094238]
本稿では,非同期イベントシーケンスを時間的プロセスでモデル化することの課題と最近の研究を概観する。
本稿では,多種類のイベント間の関係を生かしたGranger因果発見フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-19T10:15:00Z) - Joint Constrained Learning for Event-Event Relation Extraction [94.3499255880101]
本稿では,イベント・イベント関係をモデル化するための制約付き協調学習フレームワークを提案する。
具体的には、このフレームワークは、複数の時間的および部分的関係内の論理的制約を強制する。
我々は,共同学習手法が,共同ラベル付きデータの欠如を効果的に補うことを示す。
論文 参考訳(メタデータ) (2020-10-13T22:45:28Z) - Learning to Abstract and Predict Human Actions [60.85905430007731]
ビデオにおける人間の活動の階層構造をモデル化し,行動予測におけるそのような構造の効果を実証する。
イベントの部分的階層を観察し、その構造を複数の抽象化レベルで将来の予測にロールアウトすることで、人間の活動の構造を学習できる階層型ニューラルネットワークであるHierarchical-Refresher-Anticipatorを提案する。
論文 参考訳(メタデータ) (2020-08-20T23:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。