論文の概要: REALIGN: Regularized Procedure Alignment with Matching Video Embeddings via Partial Gromov-Wasserstein Optimal Transport
- arxiv url: http://arxiv.org/abs/2509.24382v1
- Date: Mon, 29 Sep 2025 07:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.818504
- Title: REALIGN: Regularized Procedure Alignment with Matching Video Embeddings via Partial Gromov-Wasserstein Optimal Transport
- Title(参考訳): REALIGN: 部分Gromov-Wasserstein Optimal Transportによるビデオ埋め込みによる正規化プロシージャアライメント
- Authors: Soumyadeep Chandra, Kaushik Roy,
- Abstract要約: 実世界の命令データには、しばしばバックグラウンドセグメント、繰り返しアクション、順番に示されるステップが含まれている。
正規化部分グロモフ・ワッサースタイン最適輸送(R-FPGWOT)に基づく手続き学習のための自己指導型フレームワークREALIGNを紹介する。
KOTとは対照的に、我々の定式化は部分的なアライメントスキームの下で視覚的対応と時間的関係を共同でモデル化する。
- 参考スコア(独自算出の注目度): 7.952582509792969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from procedural videos remains a core challenge in self-supervised representation learning, as real-world instructional data often contains background segments, repeated actions, and steps presented out of order. Such variability violates the strong monotonicity assumptions underlying many alignment methods. Prior state-of-the-art approaches, such as OPEL, leverage Kantorovich Optimal Transport (KOT) to build frame-to-frame correspondences, but rely solely on feature similarity and fail to capture the higher-order temporal structure of a task. In this paper, we introduce REALIGN, a self-supervised framework for procedure learning based on Regularized Fused Partial Gromov-Wasserstein Optimal Transport (R-FPGWOT). In contrast to KOT, our formulation jointly models visual correspondences and temporal relations under a partial alignment scheme, enabling robust handling of irrelevant frames, repeated actions, and non-monotonic step orders common in instructional videos. To stabilize training, we integrate FPGWOT distances with inter-sequence contrastive learning, avoiding the need for multiple regularizers and preventing collapse to degenerate solutions. Across egocentric (EgoProceL) and third-person (ProceL, CrossTask) benchmarks, REALIGN achieves up to 18.9% average F1-score improvements and over 30% temporal IoU gains, while producing more interpretable transport maps that preserve key-step orderings and filter out noise.
- Abstract(参考訳): プロシージャビデオからの学習は、実世界の教育データは、しばしば背景セグメント、繰り返しアクション、順番に提示されたステップを含むため、自己教師付き表現学習において依然として重要な課題である。
このような変動性は、多くのアライメント法に基づく強い単調性仮定に反する。
OPELのような従来の最先端のアプローチでは、KOT(Kanroovich Optimal Transport)を利用してフレーム間通信を構築するが、特徴的類似性にのみ依存し、タスクの高次の時間構造を捉えることができない。
本稿では,正規化部分グロモフ・ワッサースタイン最適輸送(R-FPGWOT)に基づく手続き学習のための自己指導型フレームワークREALIGNを紹介する。
KOTとは対照的に、我々の定式化は、部分的なアライメントスキームの下で視覚的対応と時間的関係を共同でモデル化し、無関係なフレーム、繰り返し動作、および命令ビデオに共通する非単調なステップオーダーのロバスト処理を可能にする。
トレーニングを安定させるために、FPGWOT距離とシーケンス間のコントラスト学習を統合し、複数の正規化器の必要性を回避し、解の退化を防止した。
エゴセントリック(EgoProceL)とサードパーソン(ProceL、CrossTask)のベンチマークで、REALIGNは平均18.9%のF1スコアの改善と30%以上の時間的IoUゲインを達成する。
関連論文リスト
- Procedure Learning via Regularized Gromov-Wasserstein Optimal Transport [5.80788851503526]
本稿では,自己指導型プロシージャ学習の課題について検討し,重要なステップを発見し,未ラベルプロシージャビデオからの注文を確定する。
従来のプロシージャ学習手法は、通常、重要なステップと順番を決定する前に、ビデオ間のフレーム間対応を学習する。
融合したGromov-Wasserstein最適輸送定式化を利用した自己教師付き手続き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-21T12:09:12Z) - OptiCorNet: Optimizing Sequence-Based Context Correlation for Visual Place Recognition [2.3093110834423616]
本稿では,新しいシーケンスモデリングフレームワークOptiCorNetを提案する。
空間的特徴抽出と時間的差分を微分可能でエンドツーエンドのトレーニング可能なモジュールに統一する。
本手法は,季節的・視点的な変化に挑戦し,最先端のベースラインよりも優れる。
論文 参考訳(メタデータ) (2025-07-19T04:29:43Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Temporal-Viewpoint Transportation Plan for Skeletal Few-shot Action
Recognition [38.27785891922479]
Joint tEmporalとcAmera viewpoiNt alIgnmEntによる3Dスケルトンに基づく動作認識のためのFew-shot Learning Pipeline
論文 参考訳(メタデータ) (2022-10-30T11:46:38Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。