論文の概要: CLOT: Closed Loop Optimal Transport for Unsupervised Action Segmentation
- arxiv url: http://arxiv.org/abs/2507.03539v1
- Date: Fri, 04 Jul 2025 12:42:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.77074
- Title: CLOT: Closed Loop Optimal Transport for Unsupervised Action Segmentation
- Title(参考訳): CLOT:unsupervised Action Segmentationのための閉ループ最適輸送
- Authors: Elena Bueno-Benito, Mariella Dimiccoli,
- Abstract要約: 教師なしのアクションセグメンテーションは、最近、最適なトランスポート(OT)ベースの方法であるASOTによってその限界を推し進めた。
マルチレベル循環型特徴学習機構を導入した新しいOTベースのフレームワークであるClosed Loop Optimal Transport (CLOT)を提案する。
- 参考スコア(独自算出の注目度): 4.880243880711163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised action segmentation has recently pushed its limits with ASOT, an optimal transport (OT)-based method that simultaneously learns action representations and performs clustering using pseudo-labels. Unlike other OT-based approaches, ASOT makes no assumptions on the action ordering, and it is able to decode a temporally consistent segmentation from a noisy cost matrix between video frames and action labels. However, the resulting segmentation lacks segment-level supervision, which limits the effectiveness of the feedback between frames and action representations. To address this limitation, we propose Closed Loop Optimal Transport (CLOT), a novel OT-based framework that introduces a multi-level cyclic feature learning mechanism. Leveraging its encoder-decoder architecture, CLOT learns pseudo-labels alongside frame and segment embeddings by solving two separate OT problems. It then refines both frame embeddings and pseudo-labels through cross-attention between the learned frame and segment embeddings, integrating a third OT problem. Experimental results on four benchmark datasets demonstrate the benefits of cyclical learning for unsupervised action segmentation.
- Abstract(参考訳): 非教師なしアクションセグメンテーションは、アクション表現を同時に学習し、擬似ラベルを使用してクラスタリングを実行する最適なトランスポート(OT)ベースのメソッドであるASOTによって、その限界を推し進めた。
他のOTベースのアプローチとは異なり、ASOTはアクション順序付けを仮定せず、ビデオフレームとアクションラベルの間のノイズの多いコスト行列から時間的に一貫したセグメンテーションをデコードすることができる。
しかし、結果として生じるセグメンテーションは、フレームとアクション表現の間のフィードバックの有効性を制限するセグメンテーションレベルの監督を欠いている。
この制限に対処するため,マルチレベル循環型特徴学習機構を導入した新しいOTベースのフレームワークであるClosed Loop Optimal Transport (CLOT)を提案する。
エンコーダ・デコーダアーキテクチャを活用することで、CLOTは2つの異なるOT問題を解くことで、フレームとセグメントの埋め込みと共に擬似ラベルを学ぶ。
フレーム埋め込みと擬似ラベルの両方を、学習したフレームとセグメント埋め込みの間のクロスアテンションを通じて洗練し、第3のOT問題を統合する。
4つのベンチマークデータセットの実験結果は、教師なしアクションセグメンテーションにおける循環学習の利点を示している。
関連論文リスト
- SMC-NCA: Semantic-guided Multi-level Contrast for Semi-supervised Temporal Action Segmentation [53.010417880335424]
半教師付き時間的アクションセグメンテーション(SS-TA)は、長編ビデオにおいてフレームワイズ分類を行うことを目的としている。
近年の研究では、教師なし表現学習におけるコントラスト学習の可能性が示されている。
本稿では,SMC-NCA(Neighbourhood-Consistency-Aware Unit)を用いたセマンティック誘導型マルチレベルコントラスト方式を提案する。
論文 参考訳(メタデータ) (2023-12-19T17:26:44Z) - BIT: Bi-Level Temporal Modeling for Efficient Supervised Action
Segmentation [34.88225099758585]
教師付きアクションセグメンテーションは、ビデオを重複しないセグメントに分割することを目的としており、それぞれが異なるアクションを表す。
最近の研究は、高い計算コストを被るフレームレベルでの時間的モデリングを行うためにトランスフォーマーを適用している。
本稿では,アクションセグメントを表現するために明示的なアクショントークンを学習する,BIレベルの効率的な時間モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-28T20:59:15Z) - Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文 参考訳(メタデータ) (2023-03-08T04:59:43Z) - Timestamp-Supervised Action Segmentation from the Perspective of
Clustering [12.661218632080207]
既存のほとんどの手法は、各ビデオ内のすべてのフレームに対して擬似ラベルを生成し、セグメンテーションモデルを訓練する。
本稿では,クラスタリングの観点から,以下の2つの部分を含む新しいフレームワークを提案する。
反復クラスタリングは、クラスタリングによって擬似ラベルをあいまいな間隔に反復的に伝播し、擬似ラベルシーケンスを更新してモデルをトレーニングする。
論文 参考訳(メタデータ) (2022-12-22T13:35:00Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Few-Shot Action Recognition with Compromised Metric via Optimal
Transport [31.834843714684343]
少数の画像分類の広い研究にもかかわらず、少数のアクション認識はまだ成熟していません。
これらのアルゴリズムをアクション認識に適用する主な障害の1つは、ビデオの複雑な構造です。
これら2つのソリューションの利点を組み合わせるために、CMOT(Compromised Metric via Optimal Transport)を提案します。
論文 参考訳(メタデータ) (2021-04-08T12:42:05Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - Learning Motion Flows for Semi-supervised Instrument Segmentation from
Robotic Surgical Video [64.44583693846751]
本研究は,スパースアノテーションを用いたロボット手術ビデオから半教師楽器のセグメンテーションについて検討する。
生成されたデータペアを利用することで、我々のフレームワークはトレーニングシーケンスの時間的一貫性を回復し、強化することができます。
その結果,本手法は最先端の半教師あり手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-06T02:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。