論文の概要: Few-Shot Action Recognition with Compromised Metric via Optimal
Transport
- arxiv url: http://arxiv.org/abs/2104.03737v1
- Date: Thu, 8 Apr 2021 12:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 19:58:39.580304
- Title: Few-Shot Action Recognition with Compromised Metric via Optimal
Transport
- Title(参考訳): 最適移動によるコンロミゼーションメトリックによるFew-Shot行動認識
- Authors: Su Lu, Han-Jia Ye, De-Chuan Zhan
- Abstract要約: 少数の画像分類の広い研究にもかかわらず、少数のアクション認識はまだ成熟していません。
これらのアルゴリズムをアクション認識に適用する主な障害の1つは、ビデオの複雑な構造です。
これら2つのソリューションの利点を組み合わせるために、CMOT(Compromised Metric via Optimal Transport)を提案します。
- 参考スコア(独自算出の注目度): 31.834843714684343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although vital to computer vision systems, few-shot action recognition is
still not mature despite the wide research of few-shot image classification.
Popular few-shot learning algorithms extract a transferable embedding from seen
classes and reuse it on unseen classes by constructing a metric-based
classifier. One main obstacle to applying these algorithms in action
recognition is the complex structure of videos. Some existing solutions sample
frames from a video and aggregate their embeddings to form a video-level
representation, neglecting important temporal relations. Others perform an
explicit sequence matching between two videos and define their distance as
matching cost, imposing too strong restrictions on sequence ordering. In this
paper, we propose Compromised Metric via Optimal Transport (CMOT) to combine
the advantages of these two solutions. CMOT simultaneously considers semantic
and temporal information in videos under Optimal Transport framework, and is
discriminative for both content-sensitive and ordering-sensitive tasks. In
detail, given two videos, we sample segments from them and cast the calculation
of their distance as an optimal transport problem between two segment
sequences. To preserve the inherent temporal ordering information, we
additionally amend the ground cost matrix by penalizing it with the positional
distance between a pair of segments. Empirical results on benchmark datasets
demonstrate the superiority of CMOT.
- Abstract(参考訳): コンピュータビジョンシステムでは必須であるが、少数ショット画像分類の広範な研究にもかかわらず、少数ショット動作認識はまだ成熟していない。
一般的な数ショット学習アルゴリズムは、見知らぬクラスから移動可能な埋め込みを抽出し、メトリックベースの分類器を構築することで、見知らぬクラスで再利用する。
これらのアルゴリズムをアクション認識に適用する際の大きな障害は、ビデオの複雑な構造である。
既存のソリューションでは、ビデオからフレームをサンプリングし、埋め込みを集約してビデオレベルの表現を形成し、重要な時間的関係を無視している。
2つのビデオ間の明示的なシーケンスマッチングを実行し、それらの距離をマッチングコストとして定義し、シーケンス順序に過度な制限を課す。
本稿では,この2つのソリューションの利点を組み合わせるために,CMOT(Compromized Metric via Optimal Transport)を提案する。
CMOT は Optimal Transport フレームワークの下でビデオのセマンティック情報と時間情報を同時に検討し、コンテンツに敏感なタスクと順序に敏感なタスクを区別する。
詳しくは、2つのビデオからセグメントをサンプリングし、2つのセグメントシーケンス間の最適な輸送問題としてそれらの距離を計算する。
時間的順序付け情報を保存するため,一対のセグメント間の位置距離で補償することにより,地価行列を補正する。
ベンチマークデータセットの実証結果はCMOTの優位性を示している。
関連論文リスト
- MEGA: Multimodal Alignment Aggregation and Distillation For Cinematic
Video Segmentation [10.82074185158027]
撮影用長ビデオセグメンテーションのためのマルチモーダルアライメント(MultimodalalignedmEnt aGregation and distillAtion,MEGA)を提案する。
可変長と異なるモードの入力をアライメント位置符号化で粗いアライメントする。
MEGAは、モダリティ間でラベルを同期し、転送するために、新しい対照的な損失を採用しており、ビデオショット上のラベル付きシナプス文からのアクセグメンテーションを可能にしている。
論文 参考訳(メタデータ) (2023-08-22T04:23:59Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - A Closer Look at Temporal Ordering in the Segmentation of Instructional
Videos [17.712793578388126]
本稿では,PSS(Process and Summarization)を概観し,現在の手法に対する3つの根本的な改善を提案する。
セグメントの順序を考慮に入れた動的プログラミングに基づく新しいセグメンテーション指標を提案する。
本稿では,セグメントマッピングの時間的順序を制約するマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T14:44:19Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文 参考訳(メタデータ) (2021-08-08T16:25:48Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。