論文の概要: Uncertainty-quantified Rollout Policy Adaptation for Unlabelled Cross-domain Temporal Grounding
- arxiv url: http://arxiv.org/abs/2508.06317v1
- Date: Fri, 08 Aug 2025 13:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.242246
- Title: Uncertainty-quantified Rollout Policy Adaptation for Unlabelled Cross-domain Temporal Grounding
- Title(参考訳): クロスドメイン型時間接地における不確実性定量ロールアウトポリシー適応
- Authors: Jian Hu, Zixu Cheng, Shaogang Gong, Isabel Guan, Jianye Hao, Jun Wang, Kun Shao,
- Abstract要約: Video Temporal Groundingは、長いビデオの中で自然言語の記述と一致するビデオセグメントを時間的に見つけることを目的としている。
本稿では,データ効率のよいクロスドメイン時間グラウンド法を提案する。
この方法では、ターゲットアノテーションの必要性を排除し、計算とストレージの両方のオーバーヘッドをリアルタイムで実行できるほど低く保つ。
- 参考スコア(独自算出の注目度): 59.09971455857609
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video Temporal Grounding (TG) aims to temporally locate video segments matching a natural language description (a query) in a long video. While Vision-Language Models (VLMs) are effective at holistic semantic matching, they often struggle with fine-grained temporal localisation. Recently, Group Relative Policy Optimisation (GRPO) reformulates the inference process as a reinforcement learning task, enabling fine-grained grounding and achieving strong in-domain performance. However, GRPO relies on labelled data, making it unsuitable in unlabelled domains. Moreover, because videos are large and expensive to store and process, performing full-scale adaptation introduces prohibitive latency and computational overhead, making it impractical for real-time deployment. To overcome both problems, we introduce a Data-Efficient Unlabelled Cross-domain Temporal Grounding method, from which a model is first trained on a labelled source domain, then adapted to a target domain using only a small number of unlabelled videos from the target domain. This approach eliminates the need for target annotation and keeps both computational and storage overhead low enough to run in real time. Specifically, we introduce. Uncertainty-quantified Rollout Policy Adaptation (URPA) for cross-domain knowledge transfer in learning video temporal grounding without target labels. URPA generates multiple candidate predictions using GRPO rollouts, averages them to form a pseudo label, and estimates confidence from the variance across these rollouts. This confidence then weights the training rewards, guiding the model to focus on reliable supervision. Experiments on three datasets across six cross-domain settings show that URPA generalises well using only a few unlabelled target videos. Codes will be released once published.
- Abstract(参考訳): Video Temporal Grounding (TG) は、長いビデオの中で自然言語記述(クエリ)と一致するビデオセグメントを時間的に特定することを目的としている。
VLM(Vision-Language Models)は、全体論的セマンティックマッチングに有効であるが、しばしば微細な時間的局所化に苦しむ。
近年、グループ相対政策最適化(GRPO)は、推論プロセスを強化学習タスクとして再編成し、きめ細かい接地を可能にし、ドメイン内での強いパフォーマンスを実現する。
しかし、GRPOはラベル付きデータに依存しており、重複しないドメインでは適さない。
さらに、ビデオの保存と処理には大きめで費用がかかるため、フルスケールのアダプションを実行すると、遅延や計算のオーバーヘッドが禁じられ、リアルタイムデプロイメントでは実用的ではない。
両問題を解決するために,ラベル付きソースドメイン上でモデルをトレーニングし,ターゲットドメインからの少数の未ラベルビデオのみを用いてターゲットドメインに適応する,データ効率のよいクロスドメインの時間的接地手法を提案する。
このアプローチは、ターゲットアノテーションの必要性を排除し、計算オーバーヘッドとストレージオーバーヘッドの両方をリアルタイムで実行するのに十分低くする。
特に紹介する。
目標ラベルを使わずに時間的グラウンド学習におけるドメイン間知識伝達のための不確実性定量ロールアウトポリシー適応(URPA)
URPAはGRPOロールアウトを用いて複数の候補予測を生成し、それらを平均して擬似ラベルを作成し、これらのロールアウト間のばらつきから信頼度を推定する。
この自信はトレーニング報酬を重み付け、モデルを信頼できる監視に集中させる。
6つのクロスドメイン設定にまたがる3つのデータセットの実験では、URPAは、わずかにラップされていないターゲットビデオを使用して、うまく一般化している。
コードは一度公開される。
関連論文リスト
- Multi-Prompt Progressive Alignment for Multi-Source Unsupervised Domain Adaptation [73.40696661117408]
未ラベルの下流タスクにCLIPを適用するためのプログレッシブアライメント戦略を提案する。
私たちはアプローチをMP2Aと名付け、ImageCLEF、Office-Home、そして最も難しいDomainNetという3つの人気のあるUDAベンチマークでテストします。
実験によると、MP2Aは最新のCLIPベースのMS-UDAアプローチと比較して最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-31T09:42:42Z) - CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - Exploring Few-Shot Adaptation for Activity Recognition on Diverse Domains [46.26074225989355]
ドメイン適応は、さまざまな環境における正確で堅牢なパフォーマンスを保証するために、アクティビティ認識に不可欠である。
本研究では,FewShot Domain Adaptation for Activity Recognition (FSDA-AR) に焦点をあてる。
より多様で困難な領域への適応を考慮した5つの確立されたデータセットを用いた新しいFSDA-ARを提案する。
論文 参考訳(メタデータ) (2023-05-15T08:01:05Z) - Cross-Domain Video Anomaly Detection without Target Domain Adaptation [38.823721272155616]
ビデオ異常検出(VAD)作業は、ソースからターゲットドメインへの適応のために、少なくともタスク関連ターゲットドメイントレーニングデータが利用可能なことを前提としている。
このためには、最初から動作するシステムを好むエンドユーザによる厳格なモデルチューニングが必要です。
論文 参考訳(メタデータ) (2022-12-14T03:48:00Z) - Domain Adaptive Video Semantic Segmentation via Cross-Domain Moving
Object Mixing [15.823918683848877]
ソース・ドメイン・ビデオ・クリップにおいて、ハード・トゥ・トランスファー・クラスを含む複数のオブジェクトをカットするクロス・ドメイン移動オブジェクト・ミキシング(CMOM)を提案する。
画像レベルのドメイン適応とは異なり、時間的コンテキストは、動くオブジェクトを2つの異なるビデオに混ぜるために維持されるべきである。
さらに、ターゲット領域の特徴識別性を高めるために、時間的コンテキストによる特徴調整(FATC)を提案する。
論文 参考訳(メタデータ) (2022-11-04T08:10:33Z) - Continual Test-Time Domain Adaptation [94.51284735268597]
テスト時ドメイン適応は、ソースデータを使用しずに、ソース事前訓練されたモデルをターゲットドメインに適応することを目的としている。
CoTTAは実装が容易で、市販の事前訓練モデルに簡単に組み込むことができる。
論文 参考訳(メタデータ) (2022-03-25T11:42:02Z) - Self-supervised Autoregressive Domain Adaptation for Time Series Data [9.75443057146649]
教師なしドメイン適応(UDA)は、視覚アプリケーションにおけるドメインシフト問題にうまく対処している。
これらの手法は、以下の理由により時系列データのパフォーマンスが制限される可能性がある。
本稿では,これらの制約に対処するための自己監督型自己回帰ドメイン適応(SLARDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-29T08:17:23Z) - Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training
for Road Segmentation of Remote Sensing Images [93.50240389540252]
リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。
本稿では,この領域における領域シフト(DS)問題に対処するため,RoadDAと呼ばれる新たな段階的ドメイン適応モデルを提案する。
2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-08-28T09:29:14Z) - Unsupervised and self-adaptative techniques for cross-domain person
re-identification [82.54691433502335]
非重複カメラにおける人物再識別(ReID)は難しい課題である。
Unsupervised Domain Adaptation(UDA)は、ソースで訓練されたモデルから、IDラベルアノテーションなしでターゲットドメインへの機能学習適応を実行するため、有望な代替手段です。
本稿では,新しいオフライン戦略によって生成されたサンプルのトリプレットを利用する,UDAベースのReID手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。