Fugu-MT 論文翻訳(概要): ClipTBP: Clip-Pair based Temporal Boundary Prediction with Boundary-Aware Learning for Moment Retrieval

論文の概要: ClipTBP: Clip-Pair based Temporal Boundary Prediction with Boundary-Aware Learning for Moment Retrieval

arxiv url: http://arxiv.org/abs/2604.27591v1
Date: Thu, 30 Apr 2026 08:41:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-01 16:31:54.000504
Title: ClipTBP: Clip-Pair based Temporal Boundary Prediction with Boundary-Aware Learning for Moment Retrieval
Title（参考訳）: ClipTBP: モーメント検索のための境界学習を用いたClip-Pairに基づく時間境界予測
Authors: Ji-Hyeon Kim, Ho-Joong Kim, Seong-Whan Lee,
Abstract要約: 境界認識学習に基づくクリップペア時間境界予測フレームワークであるClipTBPを提案する。我々は,ClipTBPが既存モデルに適用された場合,一貫した性能向上を実現し,あいまいなクエリシナリオにおいても,より堅牢な境界予測性能を示すことを示す。
参考スコア（独自算出の注目度）: 56.989259812432
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video moment retrieval is the task of retrieving specific segments of a video corresponding to a given text query. Recent studies have been conducted to improve multimodal alignment performance through visual-linguistic similarity learning at the snippet-level and transformer-based temporal boundary regression. However, existing models do not calculate similarity by considering the relationships between multiple answer segments that match the query. Therefore, existing models are easily influenced by visually similar segments in the surrounding context. Existing models calculate similarity at the snippet-level and ignore the relationships between multiple answer segments corresponding to a single query. Therefore, they struggle to exclude segments irrelevant to the query. To address this issues, we propose ClipTBP, a clip-pair temporal boundary prediction framework based on boundary-aware learning. ClipTBP introduces a clip-level alignment loss for explicitly learning the semantic relationship between answer segments. ClipTBP also predicts accurate temporal boundaries by applying both main boundary loss and auxiliary boundary loss. ClipTBP consistently improves performance when applied to various existing models and demonstrates more robust boundary prediction performance even in ambiguous query scenarios.
Abstract（参考訳）: ビデオモーメント検索は、与えられたテキストクエリに対応するビデオの特定のセグメントを検索するタスクである。近年,スニペットレベルおよびトランスフォーマーベース時間境界回帰における視覚言語的類似性学習による多モーダルアライメント性能の向上が研究されている。しかし、既存のモデルは、クエリにマッチする複数の応答セグメント間の関係を考慮することで類似性を計算しない。したがって、既存のモデルは周囲の状況において視覚的に類似したセグメントの影響を受けやすい。既存のモデルはスニペットレベルで類似性を計算し、単一のクエリに対応する複数の応答セグメント間の関係を無視する。そのため、クエリに関係なくセグメントを除外することは困難である。そこで我々は,境界認識学習に基づくクリップペア時間境界予測フレームワークであるClipTBPを提案する。 ClipTBPは、回答セグメント間の意味的関係を明示的に学習するためのクリップレベルのアライメント損失を導入している。 ClipTBPはまた、主境界損失と補助境界損失の両方を適用して正確な時間境界を予測する。 ClipTBPは、様々な既存モデルに適用した場合のパフォーマンスを一貫して改善し、あいまいなクエリシナリオであっても、より堅牢な境界予測性能を示す。

関連論文リスト

Boundary-Centric Active Learning for Temporal Action Segmentation [0.34785805439031336]
B-ACTは,高平均境界領域に監督を明示的に割り当てる,クリップ予算のアクティブラーニングフレームワークである。 B-ACTは階層的な2段階のループで動作し、 (i) 予測の不確実性を用いてラベル付きビデオのランク付けとクエリを行い、 (ii) 選択されたビデオの中からトップ$K$境界を選択する。
論文参考訳（メタデータ） (2026-04-16T15:50:21Z)
CRISP: Contrastive Residual Injection and Semantic Prompting for Continual Video Instance Segmentation [22.488935184542154]
CRISP(Contrastive Residual Injection and Semantic Prompting)を紹介する。 CRISPは、連続的なビデオインスタンスセグメンテーションにおけるインスタンスワイド、カテゴリワイド、タスクワイドの混乱に対処することを目的としている。長期連続ビデオインスタンスセグメンテーションタスクにおいて、既存の連続的なセグメンテーション手法を著しく上回っている。
論文参考訳（メタデータ） (2025-08-14T08:06:01Z)
Improving action segmentation via explicit similarity measurement [5.303583360581161]
本稿では,セグメント化精度を高めるために,フレーム間および予測間の明らかな類似性評価を提案する。教師付き学習アーキテクチャでは,トランスフォーマーエンコーダへの入力として,フレームレベルのマルチレゾリューション機能を利用する。本稿では,連続フレーム間の特徴類似性に基づいた境界補正アルゴリズムを提案する。また,非教師付き境界検出補正を提案する。
論文参考訳（メタデータ） (2025-02-15T08:02:38Z)
Transform-Equivariant Consistency Learning for Temporal Sentence Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文参考訳（メタデータ） (2023-05-06T19:29:28Z)
Video Activity Localisation with Uncertainties in Temporal Boundary [74.7263952414899]
時間とともにビデオ活動のローカライゼーションを行う方法は、時間的境界が決定され正確であると暗黙的に仮定する。無記述の自然ビデオでは、異なるアクティビティがスムーズに移動するため、アクティビティの開始と終了が時間とともに正確にラベル付けされることは本質的に曖昧である。フレキシブルかつ適応的な活動時間境界に対応するための弾性モーメントバウンディング(EMB)を導入する。
論文参考訳（メタデータ） (2022-06-26T16:45:56Z)
Active Boundary Loss for Semantic Segmentation [58.72057610093194]
本稿では,セマンティックセグメンテーションのための新しいアクティブ境界損失を提案する。エンド・ツー・エンドのトレーニングにおいて、予測境界とグランド・トゥルース・バウンダリのアライメントを徐々に促進することができる。実験結果から, アクティブ境界損失によるトレーニングは, 境界Fスコアと平均インターセクションオーバ・ユニオンを効果的に改善できることが示された。
論文参考訳（メタデータ） (2021-02-04T15:47:54Z)
Boundary-sensitive Pre-training for Temporal Localization in Videos [124.40788524169668]
本稿では,時間的局所化のためのモデル事前学習について,新しい境界感性プレテキスト(BSP)タスクを導入して検討する。合成された境界により、BSPは境界型を分類することで簡単に実行できる。大規模な実験により、提案したBSPは既存の行動分類に基づく事前学習法よりも優れ、相補的であることが示された。
論文参考訳（メタデータ） (2020-11-21T17:46:24Z)
Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文参考訳（メタデータ） (2020-09-22T10:25:41Z)
Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文参考訳（メタデータ） (2020-02-26T12:24:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。