論文の概要: Enhancing Weakly Supervised Video Grounding via Diverse Inference Strategies for Boundary and Prediction Selection
- arxiv url: http://arxiv.org/abs/2503.23181v1
- Date: Sat, 29 Mar 2025 18:33:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:35:56.893781
- Title: Enhancing Weakly Supervised Video Grounding via Diverse Inference Strategies for Boundary and Prediction Selection
- Title(参考訳): 境界・予測選択のための逆推論手法による弱監視映像のグラウンド化
- Authors: Sunoh Kim, Daeho Um,
- Abstract要約: 弱教師付きビデオグラウンドティングは、与えられたクエリに関連する時間的境界を、明示的な基底的時間的境界なしにローカライズすることを目的としている。
複数のガウスから多様な境界を捉えるための新しい境界予測手法を提案する。
また、提案品質を考慮した新しい選択手法も導入する。
- 参考スコア(独自算出の注目度): 2.1592777170316375
- License:
- Abstract: Weakly supervised video grounding aims to localize temporal boundaries relevant to a given query without explicit ground-truth temporal boundaries. While existing methods primarily use Gaussian-based proposals, they overlook the importance of (1) boundary prediction and (2) top-1 prediction selection during inference. In their boundary prediction, boundaries are simply set at half a standard deviation away from a Gaussian mean on both sides, which may not accurately capture the optimal boundaries. In the top-1 prediction process, these existing methods rely heavily on intersections with other proposals, without considering the varying quality of each proposal. To address these issues, we explore various inference strategies by introducing (1) novel boundary prediction methods to capture diverse boundaries from multiple Gaussians and (2) new selection methods that take proposal quality into account. Extensive experiments on the ActivityNet Captions and Charades-STA datasets validate the effectiveness of our inference strategies, demonstrating performance improvements without requiring additional training.
- Abstract(参考訳): 弱教師付きビデオグラウンドティングは、与えられたクエリに関連する時間的境界を、明示的な基底的時間的境界なしにローカライズすることを目的としている。
既存の手法はガウスに基づく提案を主に用いているが、(1)境界予測と(2)予測中のトップ-1予測の選択の重要性を見落としている。
境界予測では、境界は両辺のガウス平均から半基準偏差に設定されているだけで、最適境界を正確に捉えることはできない。
トップ1の予測プロセスでは、これらの既存の手法は他の提案との交差に大きく依存しており、それぞれの提案の様々な品質を考慮しない。
これらの課題に対処するために,(1)複数のガウスから多様な境界を捉える新しい境界予測手法を導入すること,(2)提案品質を考慮した新しい選択手法を提案する。
ActivityNet CaptionsとCharades-STAデータセットに関する大規模な実験は、推論戦略の有効性を検証し、追加のトレーニングを必要とせずにパフォーマンスの改善を実証します。
関連論文リスト
- Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Be Aware of the Neighborhood Effect: Modeling Selection Bias under Interference [50.95521705711802]
従来の研究では、予測モデルの偏りのない学習を実現するために、選択バイアスに対処することに注力してきた。
本稿では、因果推論の観点から、近隣効果を干渉問題として公式に定式化する。
本稿では,近隣効果の存在下で選択バイアスに対処できる新しい理想的損失を提案する。
論文 参考訳(メタデータ) (2024-04-30T15:20:41Z) - Predictive Inference in Multi-environment Scenarios [18.324321417099394]
有効な信頼区間を構築するという課題に対処し、複数の環境にまたがる予測の問題に対処する。
我々は、非伝統的で階層的なデータ生成シナリオにおいて、分散のないカバレッジを得る方法を示すために、Jackknifeとsplit-conformalメソッドを拡張します。
コントリビューションには、非実測値応答の設定の拡張、これらの一般的な問題における予測推論の一貫性の理論、条件付きカバレッジの限界に関する洞察が含まれる。
論文 参考訳(メタデータ) (2024-03-25T00:21:34Z) - Distribution-Free Conformal Joint Prediction Regions for Neural Marked Temporal Point Processes [4.324839843326325]
我々は、共形予測の枠組みを用いて、ニューラルTPPモデルにおける不確実性に対するより信頼性の高い手法を開発した。
主な目的は、イベントの到着時刻とマークに対する分布自由な共同予測領域を生成し、有限サンプルの限界カバレッジを保証することである。
論文 参考訳(メタデータ) (2024-01-09T15:28:29Z) - Bridging the Gap Between Multi-Step and One-Shot Trajectory Prediction
via Self-Supervision [2.365702128814616]
正確な車両軌道予測は、自動運転における未解決の問題である。
本稿では,複数の軌道セグメントを連結した中間層を提案する。
提案するマルチブランチ・セルフスーパービジョン予測器は,中間将来のセグメントから始まる新しい予測について追加の訓練を受ける。
論文 参考訳(メタデータ) (2023-06-06T02:46:28Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Point-Level Temporal Action Localization: Bridging Fully-supervised
Proposals to Weakly-supervised Losses [84.2964408497058]
point-level temporal action localization (ptal) は、各アクションインスタンスに対して1つのタイムスタンプアノテーションで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
既存の手法ではフレームレベルの予測パラダイムを採用し、スパース単一フレームラベルから学習する。
本稿では,ポイントレベルアノテーションの提案に基づく予測パラダイムを検討する。
論文 参考訳(メタデータ) (2020-12-15T12:11:48Z) - Semi-Supervised Learning with Variational Bayesian Inference and Maximum
Uncertainty Regularization [62.21716612888669]
半教師付き学習(SSL)を改善するための2つの一般的な方法を提案する。
第一に、重量摂動(WP)を既存のCR(Consistency regularization)ベースの手法に統合する。
第2の手法は「最大不確実性正規化(MUR)」と呼ばれる新しい整合性損失を提案する。
論文 参考訳(メタデータ) (2020-12-03T09:49:35Z) - Boundary Uncertainty in a Single-Stage Temporal Action Localization
Network [12.364819165688628]
両方の不確実性モデリング手法により,mAP@tIoU=0.5で1.5%以上の検出性能が向上することを示す。
提案する単純な1段ネットワークは,より複雑な1段ネットワークと2段ネットワークに近接して動作する。
論文 参考訳(メタデータ) (2020-08-25T17:04:39Z) - DeepStrip: High Resolution Boundary Refinement [60.00241966809684]
関心領域をストリップ画像に変換し、ストリップ領域の境界予測を計算することを提案する。
対象境界を検出するために,2つの予測層を持つフレームワークを提案する。
我々は、誤報を減らすために、整合性とC0連続性正規化をネットワークに強制する。
論文 参考訳(メタデータ) (2020-03-25T22:44:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。