論文の概要: Drop-DTW: Aligning Common Signal Between Sequences While Dropping
Outliers
- arxiv url: http://arxiv.org/abs/2108.11996v1
- Date: Thu, 26 Aug 2021 18:52:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:15:50.282714
- Title: Drop-DTW: Aligning Common Signal Between Sequences While Dropping
Outliers
- Title(参考訳): Drop-DTW:アウトリーチを落としてシーケンス間の共通信号を調整する
- Authors: Nikita Dvornik and Isma Hadji and Konstantinos G. Derpanis and Animesh
Garg and Allan D. Jepson
- Abstract要約: そこで本研究では,一致から外れ値要素を自動的に削除しながら,シーケンス間の共通信号を整列する新しいアルゴリズムDrop-DTWを提案する。
実験の結果,Drop-DTWはシーケンス検索に頑健な類似性尺度であり,多様なアプリケーションに対するトレーニング損失としての有効性を示した。
- 参考スコア(独自算出の注目度): 33.174893836302005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we consider the problem of sequence-to-sequence alignment for
signals containing outliers. Assuming the absence of outliers, the standard
Dynamic Time Warping (DTW) algorithm efficiently computes the optimal alignment
between two (generally) variable-length sequences. While DTW is robust to
temporal shifts and dilations of the signal, it fails to align sequences in a
meaningful way in the presence of outliers that can be arbitrarily interspersed
in the sequences. To address this problem, we introduce Drop-DTW, a novel
algorithm that aligns the common signal between the sequences while
automatically dropping the outlier elements from the matching. The entire
procedure is implemented as a single dynamic program that is efficient and
fully differentiable. In our experiments, we show that Drop-DTW is a robust
similarity measure for sequence retrieval and demonstrate its effectiveness as
a training loss on diverse applications. With Drop-DTW, we address temporal
step localization on instructional videos, representation learning from noisy
videos, and cross-modal representation learning for audio-visual retrieval and
localization. In all applications, we take a weakly- or unsupervised approach
and demonstrate state-of-the-art results under these settings.
- Abstract(参考訳): 本研究では,異常値を含む信号のシーケンス列アライメントの問題を考える。
標準動的時間ウォーピング(DTW)アルゴリズムは、外れ値がないと仮定すると、2つの(一般に)可変長列間の最適アライメントを効率的に計算する。
dtwは信号の時間的シフトや拡張に頑健であるが、列に任意に散在できる外れ値が存在する場合、シーケンスを有意義な方法で整列することができない。
この問題に対処するため,提案アルゴリズムは,一致から外れ値要素を自動的に取り除きながら,シーケンス間の共通信号を整列する新しいアルゴリズムであるDrop-DTWを導入する。
手順全体は、効率的で完全に微分可能な単一の動的プログラムとして実装されている。
実験の結果,Drop-DTWはシーケンス検索に頑健な類似性尺度であり,多様なアプリケーションに対するトレーニング損失としての有効性を示した。
drop-dtwでは,授業映像の時間的局所化,ノイズ映像からの表現学習,視聴覚検索と局所化のためのクロスモーダル表現学習を行う。
すべてのアプリケーションにおいて、弱いあるいは教師なしのアプローチを採用し、これらの設定の下で最先端の結果を示す。
関連論文リスト
- Self-Supervised Contrastive Learning for Videos using Differentiable Local Alignment [3.2873782624127834]
時間的映像系列の整列に基づく自己教師付き表現学習法を提案する。
局所的アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント(LAC)・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・
学習した表現は、既存の行動認識タスクにおける最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-06T20:32:53Z) - Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - TheGlueNote: Learned Representations for Robust and Flexible Note Alignment [3.997809845676912]
変換器エンコーダネットワークであるTheGlueNoteが,2つの512音列のペア音符類似度を予測する方法を示す。
我々のアプローチは、ノートアライメントの正確さの観点から、最先端の手法と同等に動作し、バージョンミスマッチに対してかなり堅牢であり、MIDIファイルの任意のペアで直接動作する。
論文 参考訳(メタデータ) (2024-08-08T08:42:30Z) - Deep Declarative Dynamic Time Warping for End-to-End Learning of
Alignment Paths [54.53208538517505]
本稿では、動的時間ワープ(DTW)による時間的アライメントステップを含む時系列データのエンドツーエンド学習モデルについて述べる。
そこで我々は,2レベル最適化とDecDTWと呼ばれる深層宣言ネットワークに基づくDTW層を提案する。
この特性は、下流損失関数が最適アライメントパス自身で定義されるアプリケーションに特に有用であることを示す。
論文 参考訳(メタデータ) (2023-03-19T21:58:37Z) - Approximating DTW with a convolutional neural network on EEG data [9.409281517596396]
動的時間ラッピング(DTW)の高速かつ微分可能な近似法を提案する。
提案手法は,計算効率が向上した他のDTW主近似と同等以上の精度が得られることを示す。
論文 参考訳(メタデータ) (2023-01-30T13:27:47Z) - Scaling Multimodal Pre-Training via Cross-Modality Gradient
Harmonization [68.49738668084693]
自己教師付き事前学習は、最近、大規模マルチモーダルデータで成功している。
クロスモダリティアライメント(CMA)は、弱くノイズの多い監視である。
CMAは、モダリティ間の衝突や偏見を引き起こす可能性がある。
論文 参考訳(メタデータ) (2022-11-03T18:12:32Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Learning to Align Sequential Actions in the Wild [123.62879270881807]
本研究では,多様な時間的変動を伴う野生における逐次行動の整合性を示すアプローチを提案する。
我々のモデルは単調列と非単調列の両方を考慮に入れている。
自己教師型シーケンシャルな行動表現学習において,我々のアプローチは一貫して最先端の行動表現学習に勝っていることを示す。
論文 参考訳(メタデータ) (2021-11-17T18:55:36Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Representation Learning via Global Temporal Alignment and
Cycle-Consistency [20.715813546383178]
時間列の整合に基づく表現学習のための弱教師付き手法を提案する。
従来方式に比べて大幅な性能向上を報告しています。
さらに、時間アライメントフレームワークの2つのアプリケーション、すなわち3Dポーズ再構築ときめ細かいオーディオ/ビジュアル検索を報告します。
論文 参考訳(メタデータ) (2021-05-11T17:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。