論文の概要: CARLOR @ Ego4D Step Grounding Challenge: Bayesian temporal-order priors for test time refinement
- arxiv url: http://arxiv.org/abs/2406.09575v1
- Date: Thu, 13 Jun 2024 20:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 17:14:47.038620
- Title: CARLOR @ Ego4D Step Grounding Challenge: Bayesian temporal-order priors for test time refinement
- Title(参考訳): CARLOR @ Ego4D Step Grounding Challenge: テスト時間改善のためのベイズ時間順序先行
- Authors: Carlos Plou, Lorenzo Mur-Labadia, Ruben Martinez-Cantin, Ana C. Murillo,
- Abstract要約: ステップグラウンディングタスクの目的は、自然言語の記述に基づく活動の時間的境界を見つけることである。
この技術的レポートでは、ベイジアンVSLNetを導入し、長い、トリミングされていないエゴセントリックなビデオでそのような時間セグメントを特定するという課題に対処する。
- 参考スコア(独自算出の注目度): 9.309476681743101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of the Step Grounding task is to locate temporal boundaries of activities based on natural language descriptions. This technical report introduces a Bayesian-VSLNet to address the challenge of identifying such temporal segments in lengthy, untrimmed egocentric videos. Our model significantly improves upon traditional models by incorporating a novel Bayesian temporal-order prior during inference, enhancing the accuracy of moment predictions. This prior adjusts for cyclic and repetitive actions within videos. Our evaluations demonstrate superior performance over existing methods, achieving state-of-the-art results on the Ego4D Goal-Step dataset with a 35.18 Recall Top-1 at 0.3 IoU and 20.48 Recall Top-1 at 0.5 IoU on the test set.
- Abstract(参考訳): ステップグラウンディングタスクの目的は、自然言語の記述に基づく活動の時間的境界を見つけることである。
この技術報告では、ベイジアンVSLNetを導入し、長い、トリミングされていないエゴセントリックなビデオでそのような時間セグメントを特定するという課題に対処する。
提案モデルでは,推論中に新しいベイズ時間順序を組み込むことで従来のモデルを大幅に改善し,モーメント予測の精度を向上する。
この前は、ビデオ内の循環的かつ反復的なアクションを調整します。
Ego4D Goal-Stepデータセットでは, 0.3 IoUで35.18 Recall Top-1, 0.5 IoUで20.48 Recall Top-1, 0.5 IoUで20.48 Recall Top-1が得られた。
関連論文リスト
- Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - ZARRIO @ Ego4D Short Term Object Interaction Anticipation Challenge: Leveraging Affordances and Attention-based models for STA [10.144283429670807]
STA(Short-Term Object-Interaction Precipation)は、次のアクティブなオブジェクトの位置、対話の名詞と動詞のカテゴリ、および自我中心のビデオの観察から接触する時間を検出することで構成される。
STAformerは、フレーム誘導時間プーリング、デュアルイメージビデオアテンション、マルチスケール機能融合を統合し、画像入力ビデオペアからのSTA予測をサポートする新しいアテンションベースアーキテクチャである。
論文 参考訳(メタデータ) (2024-07-05T09:16:30Z) - ObjectNLQ @ Ego4D Episodic Memory Challenge 2024 [51.57555556405898]
本稿では,CVPR 2024におけるEgo4D Episodic Memory Benchmarkの自然言語クエリトラックとゴールステップトラックについて紹介する。
どちらの課題も、テキストクエリを使って長いビデオシーケンス内のアクションをローカライズする必要がある。
我々は、オブジェクトブランチを組み込んだ新しいアプローチObjectNLQを導入し、ビデオ表現を詳細なオブジェクト情報で拡張する。
論文 参考訳(メタデータ) (2024-06-22T07:57:58Z) - Boundary-Denoising for Video Activity Localization [57.9973253014712]
本稿では,映像活動のローカライゼーション問題について,認知的視点から検討する。
具体的には,DenoiseLocというエンコーダデコーダモデルを提案する。
実験によると、DenoiseLocはいくつかのビデオアクティビティ理解タスクで%前進している。
論文 参考訳(メタデータ) (2023-04-06T08:48:01Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z) - Localizing Moments in Long Video Via Multimodal Guidance [51.72829274071017]
本研究では,非記述可能なウィンドウを識別し,抽出することにより,長いビデオにおける自然言語グラウンドリングの性能を向上させる手法を提案する。
実験の結果,提案手法はMADが4.1%,Ego4Dが4.52%,最先端モデルが4.1%向上することがわかった。
論文 参考訳(メタデータ) (2023-02-26T18:19:24Z) - Sequence-to-Sequence Modeling for Action Identification at High Temporal
Resolution [9.902223920743872]
高時間分解能でラベル付けされた微妙な短時間動作を含む新しい行動認識ベンチマークを導入する。
セグメント化に基づく現在の最先端モデルでは,これらのデータに適用した場合,ノイズの予測が可能であることを示す。
本稿では,音声認識技術に触発された高精度な行動識別手法を提案する。
論文 参考訳(メタデータ) (2021-11-03T21:06:36Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。