論文の概要: EtC: Temporal Boundary Expand then Clarify for Weakly Supervised Video
Grounding with Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2312.02483v1
- Date: Tue, 5 Dec 2023 04:15:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 17:05:20.366837
- Title: EtC: Temporal Boundary Expand then Clarify for Weakly Supervised Video
Grounding with Multimodal Large Language Model
- Title(参考訳): etc: 時間境界拡大によるマルチモーダル大言語モデルによる弱教師付きビデオグラウンドの明確化
- Authors: Guozhang Li, Xinpeng Ding, De Cheng, Jie Li, Nannan Wang and Xinbo Gao
- Abstract要約: 不完全な境界を拡大する上で、より価値のある情報を導入しながら、元の時間的内容の整合性を維持する新しい視点を提案する。
ビデオの連続性、すなわち隣接するフレーム間の視覚的類似性により、我々は、初期擬似境界内で各フレームにアノテートするために強力なマルチモーダル大言語モデル(MLLM)を使用する。
- 参考スコア(独自算出の注目度): 63.93372634950661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Early weakly supervised video grounding (WSVG) methods often struggle with
incomplete boundary detection due to the absence of temporal boundary
annotations. To bridge the gap between video-level and boundary-level
annotation, explicit-supervision methods, i.e., generating pseudo-temporal
boundaries for training, have achieved great success. However, data
augmentations in these methods might disrupt critical temporal information,
yielding poor pseudo boundaries. In this paper, we propose a new perspective
that maintains the integrity of the original temporal content while introducing
more valuable information for expanding the incomplete boundaries. To this end,
we propose EtC (Expand then Clarify), first use the additional information to
expand the initial incomplete pseudo boundaries, and subsequently refine these
expanded ones to achieve precise boundaries. Motivated by video continuity,
i.e., visual similarity across adjacent frames, we use powerful multimodal
large language models (MLLMs) to annotate each frame within initial pseudo
boundaries, yielding more comprehensive descriptions for expanded boundaries.
To further clarify the noise of expanded boundaries, we combine mutual learning
with a tailored proposal-level contrastive objective to use a learnable
approach to harmonize a balance between incomplete yet clean (initial) and
comprehensive yet noisy (expanded) boundaries for more precise ones.
Experiments demonstrate the superiority of our method on two challenging WSVG
datasets.
- Abstract(参考訳): 初期の弱い教師付きビデオグラウンドディング(WSVG)法は、時間境界アノテーションがないために不完全な境界検出に苦慮することが多い。
ビデオレベルのアノテーションと境界レベルのアノテーションのギャップを埋めるために、トレーニングのための擬似時間境界を生成する明示的なスーパービジョン手法は大きな成功を収めた。
しかし、これらの手法におけるデータ拡張は、重要な時間的情報を妨害し、擬似境界が貧弱になる可能性がある。
本稿では,不完全な境界を広げるためのより貴重な情報を導入しながら,元の時間的コンテンツの完全性を維持する新たな視点を提案する。
この目的のためにEtC(Expand then Clarify)を提案し、まず追加情報を用いて初期不完全な擬似境界を拡張し、その後、拡張された境界を洗練して正確な境界を達成する。
ビデオの連続性、すなわち、隣接するフレーム間の視覚的類似性により、我々は、初期擬似境界内で各フレームに注釈を付けるために強力なマルチモーダル大言語モデル(MLLM)を使用する。
拡張境界の雑音をより明確にするために、我々は相互学習と、学習可能なアプローチを用いて、不完全でクリーンな(初期)境界と包括的でノイズの多い(拡張)境界とのバランスをより正確なものに調和させる。
2つの挑戦的なWSVGデータセットに対して,本手法の優位性を示す実験を行った。
関連論文リスト
- Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Temporal Perceiver: A General Architecture for Arbitrary Boundary
Detection [48.33132632418303]
ジェネリック境界検出(GBD)は、動画をセマンティック・コヒーレントと分類なしの単位に分割する一般的な境界を特定することを目的としている。
従来の研究では、単純なCNNからLSTMまでの複雑なディープネットワークの設計で、これらの異なるレベルの汎用境界を別々に扱っていた。
本稿では,Transformer を用いた汎用アーキテクチャである Temporal Perceiver について述べる。
論文 参考訳(メタデータ) (2022-03-01T09:31:30Z) - Boundary Guided Context Aggregation for Semantic Segmentation [23.709865471981313]
我々は、画像の全体的意味理解を促進するために、コンテキストアグリゲーションのための重要なガイダンスとして境界を利用する。
我々はCityscapesとADE20Kデータベースに関する広範な実験を行い、最先端の手法で同等の結果を得る。
論文 参考訳(メタデータ) (2021-10-27T17:04:38Z) - Internal Video Inpainting by Implicit Long-range Propagation [39.89676105875726]
本稿では,内部学習戦略を取り入れた映像インパインティングのための新しいフレームワークを提案する。
畳み込みニューラルネットワークを既知の領域に適合させることにより、暗黙的に実現可能であることを示す。
提案手法を別の課題に拡張する: 4Kビデオの1フレームに1つの物体マスクを与えるビデオから物体を除去する学習。
論文 参考訳(メタデータ) (2021-08-04T08:56:28Z) - Boundary-sensitive Pre-training for Temporal Localization in Videos [124.40788524169668]
本稿では,時間的局所化のためのモデル事前学習について,新しい境界感性プレテキスト(BSP)タスクを導入して検討する。
合成された境界により、BSPは境界型を分類することで簡単に実行できる。
大規模な実験により、提案したBSPは既存の行動分類に基づく事前学習法よりも優れ、相補的であることが示された。
論文 参考訳(メタデータ) (2020-11-21T17:46:24Z) - Reinforcement Learning for Weakly Supervised Temporal Grounding of
Natural Language in Untrimmed Videos [134.78406021194985]
我々は、時間境界のない粗いビデオレベルの言語記述アノテーションにのみアクセス可能な、このタスクの弱教師付き設定に焦点を当てる。
本稿では,時間境界を段階的に洗練する過程を指導するために,強化学習を利用したemphBoundary Adaptive Refinement(BAR)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-18T03:32:47Z) - Flow-edge Guided Video Completion [66.49077223104533]
従来のフローコンプリート法は、しばしば運動境界のシャープさを維持することができない。
提案手法は,まず動きエッジを抽出し,その後,鋭いエッジで平滑な流れ完了を導出する。
論文 参考訳(メタデータ) (2020-09-03T17:59:42Z) - Video Region Annotation with Sparse Bounding Boxes [29.323784279321337]
対象領域の少ない注釈付き境界ボックスから、ビデオのすべてのフレームの領域境界を自動的に生成することを学ぶ。
本稿では,領域境界上のキーポイントを反復的に見つけることを学習するVGCN(Volumetric Graph Convolutional Network)を用いてこれを実現している。
論文 参考訳(メタデータ) (2020-08-17T01:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。