論文の概要: Finding Optimal Video Moment without Training: Gaussian Boundary Optimization for Weakly Supervised Video Grounding
- arxiv url: http://arxiv.org/abs/2602.03071v2
- Date: Wed, 04 Feb 2026 02:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.803663
- Title: Finding Optimal Video Moment without Training: Gaussian Boundary Optimization for Weakly Supervised Video Grounding
- Title(参考訳): トレーニングなしの最適動画モーメントの発見:弱教師付き映像グラウンドのガウス境界最適化
- Authors: Sunoh Kim, Kimin Yun, Daeho Um,
- Abstract要約: 弱教師付き時間的ビデオグラウンドティングは、ビデオ文ペアのみを使用して、未トリミングビデオ内のクエリ関連セグメントをローカライズすることを目的としている。
本稿では,原理化された最適化問題を解くことによってセグメント境界を予測できる新しい推論フレームワークを提案する。
実験の結果,GBOはローカライゼーションを大幅に改善し,標準ベンチマーク全体にわたって最先端の結果が得られた。
- 参考スコア(独自算出の注目度): 8.372059389430403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly supervised temporal video grounding aims to localize query-relevant segments in untrimmed videos using only video-sentence pairs, without requiring ground-truth segment annotations that specify exact temporal boundaries. Recent approaches tackle this task by utilizing Gaussian-based temporal proposals to represent query-relevant segments. However, their inference strategies rely on heuristic mappings from Gaussian parameters to segment boundaries, resulting in suboptimal localization performance. To address this issue, we propose Gaussian Boundary Optimization (GBO), a novel inference framework that predicts segment boundaries by solving a principled optimization problem that balances proposal coverage and segment compactness. We derive a closed-form solution for this problem and rigorously analyze the optimality conditions under varying penalty regimes. Beyond its theoretical foundations, GBO offers several practical advantages: it is training-free and compatible with both single-Gaussian and mixture-based proposal architectures. Our experiments show that GBO significantly improves localization, achieving state-of-the-art results across standard benchmarks. Extensive experiments demonstrate the efficiency and generalizability of GBO across various proposal schemes. The code is available at https://github.com/sunoh-kim/gbo.
- Abstract(参考訳): 弱教師付き時間的ビデオグラウンドニングは、正確な時間的境界を規定する接地的セグメントアノテーションを必要とせず、ビデオ文ペアのみを使用して、未トリミングビデオのクエリ関連セグメントをローカライズすることを目的としている。
近年のアプローチでは,クエリ関連セグメントを表現するためにガウスに基づく時間的提案を利用することで,この問題に対処している。
しかし、それらの推論戦略はガウスのパラメータからセグメント境界へのヒューリスティックな写像に依存しており、その結果、準最適ローカライゼーション性能がもたらされる。
この問題に対処するために,提案のカバレッジとセグメントのコンパクトさを両立させる原理的最適化問題を解くことでセグメント境界を予測する新しい推論フレームワークであるガウス境界最適化(GBO)を提案する。
この問題に対するクローズドな解法を導出し、様々な罰則の下で最適条件を厳格に分析する。
GBOは、その理論的基盤の他に、トレーニングフリーで、単一ガウスと混合ベースの提案アーキテクチャの両方と互換性がある、いくつかの実用的な利点を提供している。
実験の結果,GBOはローカライゼーションを大幅に改善し,標準ベンチマーク全体にわたって最先端の結果が得られた。
広範囲な実験は、様々な提案スキームにおけるGBOの効率性と一般化性を実証している。
コードはhttps://github.com/sunoh-kim/gbo.comで公開されている。
関連論文リスト
- Optimal Transportation and Alignment Between Gaussian Measures [80.4634530260329]
最適なトランスポート(OT)とGromov-Wasserstein(GW)アライメントは、データセットの解釈可能な幾何学的フレームワークを提供する。
これらのフレームワークは計算コストが高いため、大規模アプリケーションは2次コストでガウス分布の閉形式解に依存することが多い。
この研究は、ガウス的、二次的コスト OT と内部積 GW (IGW) のアライメントを包括的に扱い、文学におけるいくつかのギャップを埋めて適用性を広げる。
論文 参考訳(メタデータ) (2025-12-03T09:01:48Z) - Learning Regions of Interest for Bayesian Optimization with Adaptive
Level-Set Estimation [84.0621253654014]
本稿では,高信頼領域を適応的にフィルタするBALLETというフレームワークを提案する。
理論的には、BALLETは探索空間を効率的に縮小することができ、標準BOよりも厳密な後悔を示すことができる。
論文 参考訳(メタデータ) (2023-07-25T09:45:47Z) - Smoothing the Edges: Smooth Optimization for Sparse Regularization using Hadamard Overparametrization [10.009748368458409]
本稿では、(構造化された)空間性に対して、明示的に正規化された目的を円滑に最適化するためのフレームワークを提案する。
提案手法は,完全微分可能近似自由最適化を実現し,深層学習におけるユビキタス勾配降下パラダイムと互換性がある。
論文 参考訳(メタデータ) (2023-07-07T13:06:12Z) - G-TRACER: Expected Sharpness Optimization [1.2183405753834562]
G-TRACERは、平坦なミニマムを求めることによって一般化を促進し、一般化ベイズ目標の自然な漸進的な降下に基づく最適化への近似として音理論的基礎を持つ。
本手法は,非正規化対象の局所最小値近傍に収束し,多数のベンチマークコンピュータビジョンとNLPデータセット上での競合性能を示す。
論文 参考訳(メタデータ) (2023-06-24T09:28:49Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Learning Representation for Bayesian Optimization with Collision-free
Regularization [13.476552258272402]
大規模、高次元、非定常的なデータセットは現実世界のシナリオでは一般的である。
最近の研究は、古典的なガウス過程に先立ってニューラルネットワークを適用して潜在表現を学習することで、そのような入力を処理しようとしている。
適切なネットワーク設計であっても、そのような学習された表現は、しばしば潜在空間における衝突を引き起こすことを示す。
本稿では,学習された潜伏空間における衝突を低減するために,新しい正則化器を用いた効率的な深度ベイズ最適化フレームワークであるLOCoを提案する。
論文 参考訳(メタデータ) (2022-03-16T14:44:16Z) - Adaptive Proposal Generation Network for Temporal Sentence Localization
in Videos [58.83440885457272]
ビデオ(TSLV)における時間文ローカライゼーションの問題に対処する。
従来のメソッドは、事前に定義されたセグメントの提案でターゲットセグメントをローカライズするトップダウンフレームワークに従っている。
本稿では,効率を向上しつつセグメントレベルの相互作用を維持するための適応提案生成ネットワーク(APGN)を提案する。
論文 参考訳(メタデータ) (2021-09-14T02:02:36Z) - The Minimax Complexity of Distributed Optimization [0.0]
分散最適化に適用可能な古典的なオラクルフレームワークの拡張である「グラフオラクルモデル」を紹介します。
私は「間欠的コミュニケーション設定」の具体例に焦点をあてる
コンベックス設定におけるSGD(Local Descent)アルゴリズムの理論的特性を解析する。
論文 参考訳(メタデータ) (2021-09-01T15:18:33Z) - Parameter-free Locally Accelerated Conditional Gradients [91.19349793915615]
私たちは小説を紹介します。
自由局所加速cg(pf-lacg)アルゴリズムは,厳密な収束保証を提供する。
我々の理論結果は,局所加速度を実証し,非加速アルゴリズムに対するPF-LaCGの実用的改善を示す数値実験によって補完される。
論文 参考訳(メタデータ) (2021-02-12T22:50:01Z) - Making Affine Correspondences Work in Camera Geometry Computation [62.7633180470428]
局所的な特徴は、ポイント・ツー・ポイント対応ではなく、リージョン・ツー・リージョンを提供する。
本稿では,全モデル推定パイプラインにおいて,地域間マッチングを効果的に活用するためのガイドラインを提案する。
実験により、アフィンソルバはより高速な実行時にポイントベースソルバに匹敵する精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-07-20T12:07:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。