論文の概要: A Stitch in Time: Learning Procedural Workflow via Self-Supervised Plackett-Luce Ranking
- arxiv url: http://arxiv.org/abs/2511.17805v1
- Date: Fri, 21 Nov 2025 21:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.437387
- Title: A Stitch in Time: Learning Procedural Workflow via Self-Supervised Plackett-Luce Ranking
- Title(参考訳): A Stitch in Time: 自己監督型Pockett-Luceランキングによる手続き的ワークフローの学習
- Authors: Chengan Che, Chao Wang, Xinyue Chen, Sophia Tsoka, Luis C. Garcia-Peraza-Herrera,
- Abstract要約: 手続き的活動は、特定の時間的順序で実行される一連の行動として高度に構造化されている。
現在の自己教師型学習手法は、そのような活動を支える手続き的な性質を見落としていることが多い。
本稿では,映像フレームの時間的順序を強力な監視信号として活用する自己教師型フレームワークPL-Stitchを提案する。
- 参考スコア(独自算出の注目度): 11.039713164587456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Procedural activities, ranging from routine cooking to complex surgical operations, are highly structured as a set of actions conducted in a specific temporal order. Despite their success on static images and short clips, current self-supervised learning methods often overlook the procedural nature that underpins such activities. We expose the lack of procedural awareness in current SSL methods with a motivating experiment: models pretrained on forward and time-reversed sequences produce highly similar features, confirming that their representations are blind to the underlying procedural order. To address this shortcoming, we propose PL-Stitch, a self-supervised framework that harnesses the inherent temporal order of video frames as a powerful supervisory signal. Our approach integrates two novel probabilistic objectives based on the Plackett-Luce (PL) model. The primary PL objective trains the model to sort sampled frames chronologically, compelling it to learn the global workflow progression. The secondary objective, a spatio-temporal jigsaw loss, complements the learning by capturing fine-grained, cross-frame object correlations. Our approach consistently achieves superior performance across five surgical and cooking benchmarks. Specifically, PL-Stitch yields significant gains in surgical phase recognition (e.g., +11.4 pp k-NN accuracy on Cholec80) and cooking action segmentation (e.g., +5.7 pp linear probing accuracy on Breakfast), demonstrating its effectiveness for procedural video representation learning.
- Abstract(参考訳): 定期的な調理から複雑な外科手術まで、手続き的な活動は、特定の時間的順序で実行される一連の行動として高度に構造化されている。
静的画像やショートクリップでの成功にもかかわらず、現在の自己教師型学習手法は、そのような活動を支える手続き的な性質を無視することが多い。
我々は、現在のSSLメソッドにおける手続き的認識の欠如をモチベーション実験で明らかにする: 前方および時間反転シーケンスで事前訓練されたモデルは、非常に類似した特徴を生み出し、それらの表現が、下層の手続き的順序に盲目であることを確認する。
この欠点に対処するために,ビデオフレーム固有の時間順序を強力な監視信号として活用する自己教師型フレームワークPL-Stitchを提案する。
提案手法は,Plockett-Luce(PL)モデルに基づく2つの新しい確率的目的を統合する。
PLの主な目的は、サンプルフレームを時系列的にソートするようにモデルを訓練し、グローバルなワークフローの進捗を学ぶように促す。
二次目的である時空間的ジグソー損失は、粒度の細かいクロスフレームオブジェクト相関を捉えることによって学習を補完する。
本手法は,5つの外科的および調理的ベンチマークにおいて,常に優れた性能を達成している。
具体的には、PL-Stitchは、外科的位相認識(例えば、Colec80における+11.4 pp k-NNの精度)と調理行動セグメンテーション(eg、+5.7 ppのBreakfastにおける線形プローブの精度)において大きな利益をもたらし、プロシージャビデオ表現学習の有効性を示す。
関連論文リスト
- AnaCP: Toward Upper-Bound Continual Learning via Analytic Contrastive Projection [11.750791465488438]
本稿では,CIL(Class-Incremental Learning)の問題について考察する。
事前訓練モデル(PTM)を使わない従来のCIL法は、破滅的忘れ(CF)に苦しむ
本稿では,AnaCPを提案する。AnaCPは解析的分類器の効率を保ちつつ,段階的特徴適応を実現し,勾配に基づく学習を行なわない新しい手法である。
論文 参考訳(メタデータ) (2025-11-17T19:56:15Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation [48.08416841005715]
両面操作に適したキーポーズ条件の整合性ポリシーを導入する。
階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。
シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。
論文 参考訳(メタデータ) (2024-06-14T14:49:12Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - Hierarchically Self-Supervised Transformer for Human Skeleton
Representation Learning [45.13060970066485]
階層型トランスフォーマーベーススケルトンシーケンスエンコーダ(Hi-TRS)に組み込まれた自己教師型階層型事前学習方式を提案する。
教師付き評価プロトコルと半教師付き評価プロトコルの両方で,本手法は最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-20T04:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。