論文の概要: Contextual Self-paced Learning for Weakly Supervised Spatio-Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2501.17053v3
- Date: Sun, 16 Mar 2025 05:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:56.368275
- Title: Contextual Self-paced Learning for Weakly Supervised Spatio-Temporal Video Grounding
- Title(参考訳): 弱教師付き時空間ビデオグラウンディングのための文脈的セルフペースト学習
- Authors: Akash Kumar, Zsolt Kira, Yogesh Singh Rawat,
- Abstract要約: Weakly Supervised S-Temporal Video Grounding (WSTVG) に注目した。
まず、WSTVGの最先端オブジェクト検出モデルの可能性について検討する。
頑丈なゼロショット機能にもかかわらず、我々の適応には大きな制限がある。
本稿では,これらの制約を克服するための新しいアプローチであるCoSPaLを提案する。
- 参考スコア(独自算出の注目度): 24.650102499933514
- License:
- Abstract: In this work, we focus on Weakly Supervised Spatio-Temporal Video Grounding (WSTVG). It is a multimodal task aimed at localizing specific subjects spatio-temporally based on textual queries without bounding box supervision. Motivated by recent advancements in multi-modal foundation models for grounding tasks, we first explore the potential of state-of-the-art object detection models for WSTVG. Despite their robust zero-shot capabilities, our adaptation reveals significant limitations, including inconsistent temporal predictions, inadequate understanding of complex queries, and challenges in adapting to difficult scenarios. We propose CoSPaL (Contextual Self-Paced Learning), a novel approach which is designed to overcome these limitations. CoSPaL integrates three core components: (1) Tubelet Phrase Grounding (TPG), which introduces spatio-temporal prediction by linking textual queries to tubelets; (2) Contextual Referral Grounding (CRG), which improves comprehension of complex queries by extracting contextual information to refine object identification over time; and (3) Self-Paced Scene Understanding (SPS), a training paradigm that progressively increases task difficulty, enabling the model to adapt to complex scenarios by transitioning from coarse to fine-grained understanding.
- Abstract(参考訳): 本稿では,Weakly Supervised Spatio-Temporal Video Grounding (WSTVG)に着目した。
ボックスの監督を伴わないテキストクエリに基づいて,特定の被験者の時空間的局所化を目的としたマルチモーダルタスクである。
地上作業のためのマルチモーダル基礎モデルの最近の進歩に触発されて、WSTVGの最先端オブジェクト検出モデルの可能性について検討する。
頑健なゼロショット機能にもかかわらず、我々の適応は、矛盾する時間的予測、複雑なクエリの不十分な理解、困難なシナリオに適応する際の課題など、重大な制限を明らかにしている。
このような制約を克服するための新しいアプローチとして,CoSPaL(Contextual Self-Paced Learning)を提案する。
CoSPaLは,(1)テキストクエリをチューブレットにリンクすることで時空間的予測を導入するチューブレット・フレーズ・グラウンド(TPG),(2)コンテキスト参照グラウンド(CRG),(3)コンテキスト情報を抽出してオブジェクトの識別を洗練させることで複雑なクエリの理解を改善するコンテクスト・リファラル・グラウンド(CRG),(3)タスクの難易度を漸進的に向上するセルフパス・シーン理解(SPS)の3つのコアコンポーネントを統合する。
関連論文リスト
- STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - EasyST: A Simple Framework for Spatio-Temporal Prediction [18.291117879544945]
本稿では,時空間予測のための簡単なフレームワークであるEasySTパラダイムを提案する。
複雑な時間的GNNからの知識を蒸留することにより、軽量で堅牢なマルチ層パーセプトロン(MLP)の一般化を学習する。
EasySTは、効率と精度の点で最先端のアプローチを超越している。
論文 参考訳(メタデータ) (2024-09-10T11:40:01Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - RAG-based Crowdsourcing Task Decomposition via Masked Contrastive Learning with Prompts [21.69333828191263]
本稿では、自然言語理解の観点からタスク分解(TD)をイベント検出として再認識する、検索強化世代ベースのクラウドソーシングフレームワークを提案する。
本稿では,TD (PBCT) のための Prompt-based Contrastive Learning framework を提案する。
実験結果は,教師付きおよびゼロショット検出における本手法の競合性を実証した。
論文 参考訳(メタデータ) (2024-06-04T08:34:19Z) - Thread of Thought Unraveling Chaotic Contexts [133.24935874034782]
思考のスレッド(ThoT)戦略は、人間の認知プロセスからインスピレーションを得ている。
実験では、他のプロンプト技術と比較して、ThoTは推論性能を著しく改善する。
論文 参考訳(メタデータ) (2023-11-15T06:54:44Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video
Grounding [35.73830796500975]
本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。
このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。
提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
論文 参考訳(メタデータ) (2022-09-27T11:13:04Z) - Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。
以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T16:29:16Z) - Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文 参考訳(メタデータ) (2021-06-30T15:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。