論文の概要: Procedure Learning via Regularized Gromov-Wasserstein Optimal Transport
- arxiv url: http://arxiv.org/abs/2507.15540v1
- Date: Mon, 21 Jul 2025 12:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.38221
- Title: Procedure Learning via Regularized Gromov-Wasserstein Optimal Transport
- Title(参考訳): 正規化Gromov-Wasserstein最適輸送による手続き学習
- Authors: Syed Ahmed Mahmood, Ali Shah Ali, Umer Ahmed, Fawad Javed Fateh, M. Zeeshan Zia, Quoc-Huy Tran,
- Abstract要約: 本稿では,自己指導型プロシージャ学習の課題について検討し,重要なステップを発見し,未ラベルプロシージャビデオからの注文を確定する。
従来のプロシージャ学習手法は、通常、重要なステップと順番を決定する前に、ビデオ間のフレーム間対応を学習する。
融合したGromov-Wasserstein最適輸送定式化を利用した自己教師付き手続き学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.80788851503526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of self-supervised procedure learning, which discovers key steps and establishes their order from a set of unlabeled procedural videos. Previous procedure learning methods typically learn frame-to-frame correspondences between videos before determining key steps and their order. However, their performance often suffers from order variations, background/redundant frames, and repeated actions. To overcome these challenges, we propose a self-supervised procedure learning framework, which utilizes a fused Gromov-Wasserstein optimal transport formulation with a structural prior for computing frame-to-frame mapping between videos. However, optimizing exclusively for the above temporal alignment term may lead to degenerate solutions, where all frames are mapped to a small cluster in the embedding space and hence every video is associated with only one key step. To address that limitation, we further integrate a contrastive regularization term, which maps different frames to different points in the embedding space, avoiding the collapse to trivial solutions. Finally, we conduct extensive experiments on large-scale egocentric (i.e., EgoProceL) and third-person (i.e., ProceL and CrossTask) benchmarks to demonstrate superior performance by our approach against previous methods, including OPEL which relies on a traditional Kantorovich optimal transport formulation with an optimality prior.
- Abstract(参考訳): 本稿では,自己指導型プロシージャ学習の課題について考察し,重要なステップを発見し,未ラベルプロシージャビデオの集合からその順序を確定する。
従来のプロシージャ学習手法は、通常、重要なステップと順番を決定する前に、ビデオ間のフレーム間対応を学習する。
しかし、そのパフォーマンスは、注文のバリエーション、バックグラウンド/冗長フレーム、繰り返しアクションに悩まされることが多い。
これらの課題を克服するために、ビデオ間のフレーム間マッピングの計算に先立って、融合したGromov-Wasserstein最適トランスポート定式化を利用する自己教師付きプロシージャ学習フレームワークを提案する。
しかし、上記の時間的アライメント項にのみ最適化することは、すべてのフレームが埋め込み空間内の小さなクラスタにマッピングされ、したがってすべてのビデオが1つの重要なステップにのみ関連付けられているような、退化解につながる可能性がある。
この制限に対処するために、異なるフレームを埋め込み空間の異なる点にマッピングする対照的な正則化項をさらに統合し、その崩壊を自明な解に回避する。
最後に,従来の関東の最適輸送形式に依存したOPELを含む従来の手法に対して,大規模エゴセントリック(EgoProceL)と第三者(ProceLとCrossTask)ベンチマークを用いて,従来手法よりも優れた性能を示すため,大規模なエゴセントリック(EgoProceL)ベンチマークを広範囲に実施する。
関連論文リスト
- Joint Self-Supervised Video Alignment and Action Segmentation [6.734637459963131]
我々は,統合された最適なトランスポートフレームワークに基づく,自己監督型ビデオアライメントとアクションセグメンテーションを同時に行うための新しいアプローチを提案する。
まず, 自己監督型ビデオアライメントの実現に向けて, 構造的事前条件で, 融合したGromov-Wasserstein最適輸送定式化を開発する。
我々は、共同で監督されたビデオアライメントとアクションセグメンテーションのための統合された最適なトランスポートフレームワークを提案することによって、アプローチを拡張した。
論文 参考訳(メタデータ) (2025-03-21T04:02:00Z) - Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action Segmentation [31.622109513774635]
本稿では,長編未編集ビデオに対するアクションセグメンテーションタスクに対する新しいアプローチを提案する。
グロモフ・ワッサーシュタイン問題に先立って時間的一貫性を符号化することにより、時間的に一貫したセグメンテーションをデコードすることができる。
本手法では,ビデオの時間的整合性を達成するための動作順序を知る必要はない。
論文 参考訳(メタデータ) (2024-04-01T22:53:47Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Modelling Latent Dynamics of StyleGAN using Neural ODEs [52.03496093312985]
我々は、GANから独立に反転した潜在符号の軌跡を学習する。
学習した連続軌道により、無限のフレームと一貫したビデオ操作を行うことができる。
提案手法は最先端の性能を実現するが,計算量が少なくなる。
論文 参考訳(メタデータ) (2022-08-23T21:20:38Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - On Constraints in First-Order Optimization: A View from Non-Smooth
Dynamical Systems [99.59934203759754]
本稿では,スムーズな制約付き最適化のための一階法について紹介する。
提案手法の2つの特徴は、実現可能な集合全体の投影や最適化が避けられることである。
結果として得られるアルゴリズムの手順は、制約が非線形であっても簡単に実装できる。
論文 参考訳(メタデータ) (2021-07-17T11:45:13Z) - Learning by Aligning Videos in Time [10.075645944474287]
本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。
我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
論文 参考訳(メタデータ) (2021-03-31T17:55:52Z) - Deep Shells: Unsupervised Shape Correspondence with Optimal Transport [52.646396621449]
本稿では,3次元形状対応のための教師なし学習手法を提案する。
提案手法は,複数のデータセット上での最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-28T22:24:07Z) - Panoster: End-to-end Panoptic Segmentation of LiDAR Point Clouds [81.12016263972298]
我々は,LiDAR点雲のための提案不要なパノプティックセグメンテーション手法であるパノスターを提案する。
従来のアプローチとは異なり、Panosterでは、インスタンスを識別するための学習ベースのクラスタリングソリューションを組み込んだ、シンプルなフレームワークを提案している。
推論時に、これはクラスに依存しないセグメンテーションとして機能し、パノスターは高速で、精度の点で先行メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-10-28T18:10:20Z) - Memory Clustering using Persistent Homology for Multimodality- and
Discontinuity-Sensitive Learning of Optimal Control Warm-starts [24.576214898129823]
シューティング法は非線形最適制御問題の解法として効率的である。
最近の研究は、問題空間のオフライン探索中に生成されたサンプルに基づいてトレーニングされた学習モデルからの最初の推測を提供することに重点を置いている。
本研究では、代数的トポロジーからツールを適用し、解空間の基盤構造に関する情報を抽出する。
論文 参考訳(メタデータ) (2020-10-02T14:24:59Z) - Weakly supervised cross-domain alignment with optimal transport [102.8572398001639]
画像オブジェクトとテキストシーケンス間のクロスドメインアライメントは多くの視覚言語タスクの鍵となる。
本稿では,画像とテキスト間の微粒な意味的類似点の同定と最適化のための新しいアプローチについて検討する。
論文 参考訳(メタデータ) (2020-08-14T22:48:36Z) - Structure Adaptive Algorithms for Stochastic Bandits [22.871155520200773]
構造化多武装バンディット問題のクラスにおける報酬最大化について検討する。
平均的な武器の報酬は、与えられた構造的制約を満たす。
我々は、反復的なサドルポイントソルバを用いて、インスタンス依存の低バウンドからのアルゴリズムを開発する。
論文 参考訳(メタデータ) (2020-07-02T08:59:54Z) - FedSplit: An algorithmic framework for fast federated optimization [40.42352500741025]
本稿では,分散凸最小化を付加構造で解くアルゴリズムのクラスであるFedSplitを紹介する。
これらの手法は, 中間局所量の不正確な計算に対して, 確実に堅牢であることを示す。
論文 参考訳(メタデータ) (2020-05-11T16:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。