論文の概要: Masked Diffusion Vision-Language Models for Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2605.29858v1
- Date: Thu, 28 May 2026 12:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.243208
- Title: Masked Diffusion Vision-Language Models for Temporal Action Localization
- Title(参考訳): 仮設拡散ビジョンランゲージモデルによる時間的行動位置推定
- Authors: Fengshun Wang, Zhengbo Zhang, Zhigang Tu,
- Abstract要約: テンポラルアクションローカライゼーション(TAL)では、ターゲットイベントを認識し、開始時刻と終了時刻を未トリミングビデオで正確にローカライズする必要がある。
最近の視覚言語定式化はセマンティック推論を改善し、言語条件付き出力をサポートするが、自動回帰デコーダは依然として左から右へトークンを生成する。
我々は視覚言語モデルをTALに適応させ、反復的復調を通して意味トークンと境界トークンを編集可能にした。
- 参考スコア(独自算出の注目度): 10.018515245238216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal action localization (TAL) requires recognizing the target event and localizing its start and end times precisely in untrimmed videos. Recent vision-language formulations improve semantic reasoning and support language-conditioned outputs, but their autoregressive decoders still generate tokens from left to right, preventing later semantic evidence from revising earlier timestamp predictions. We adapt masked diffusion vision-language models (MDVLMs) to TAL so that semantic tokens and boundary tokens remain editable throughout iterative denoising with bidirectional attention, allowing temporal boundaries and semantic content to be refined jointly. Direct adaptation, however, creates two TAL-specific mismatches: standard masked diffusion training corrupts all positions uniformly at random, but the time tokens are more reliable when enough semantic context is available; and token-level cross-entropy does not reflect temporal IoU. To address these mismatches, we introduce a Planned Training Objective that uses boundary-aware masking and step-weighted reconstruction to rehearse the late recovery of time tokens, together with a Step-Level IoU Reward that provides overlap-aware supervision during denoising. A standard sequence-level cross-entropy term provides the base reconstruction signal. Experiments on ActivityNet-RTL, ActivityNet-1.3, and THUMOS-14 show that MDVLM-TAL improves both temporal reasoning and boundary localization over autoregressive vision-language baselines, with especially strong gains under stricter temporal IoU criteria.
- Abstract(参考訳): テンポラルアクションローカライゼーション(TAL)では、ターゲットイベントを認識し、開始時刻と終了時刻を未トリミングビデオで正確にローカライズする必要がある。
最近の視覚言語定式化は意味論的推論を改善し、言語条件付き出力をサポートするが、自己回帰デコーダは依然として左から右にトークンを生成し、後続のセマンティックエビデンスによって初期のタイムスタンプ予測が修正されるのを防ぐ。
マスク付き拡散視覚言語モデル(MDVLM)をTALに適応することにより、双方向の注意で反復的に意味トークンと境界トークンを編集可能とし、時間境界と意味コンテンツを共同で洗練する。
標準的なマスク拡散訓練は、すべての位置をランダムにランダムに破壊するが、時間トークンは十分な意味的コンテキストが利用可能であればより信頼性が高く、トークンレベルのクロスエントロピーは時間的IoUを反映しない。
これらのミスマッチに対処するために、境界対応マスキングとステップ重み付き再構築を用いて、時間トークンの遅延回復をリハーサルするPlanned Training Objectiveと、デノナイズ時に重複認識の監視を提供するStep-Level IoU Rewardを紹介する。
標準シーケンスレベルのクロスエントロピー項は、ベース再構成信号を提供する。
ActivityNet-RTL、ActivityNet-1.3、THUMOS-14の実験では、MDVLM-TALは自己回帰的視覚言語ベースラインよりも時間的推論と境界ローカライゼーションの両方を改善し、特により厳密な時間的IoU基準下での強い利得を示している。
関連論文リスト
- Mitigating Mask Prior Drift and Positional Attention Collapse in Large Diffusion Vision-Language Models [7.964052580720558]
LDVLMは反復的な生成と劣化した視覚的接地に悩まされている。
本研究では,Mask Prior Suppression と Monotonic RoPE Scaling を導入したトレーニングフリーアプローチを提案する。
以上の結果から,これらの障害は軽量なプラグアンドプレイ戦略によって効果的に対処できることが示唆された。
論文 参考訳(メタデータ) (2026-05-14T08:11:32Z) - Evading Visual Aphasia: Contrastive Adaptive Semantic Token Pruning for Vision-Language Models [52.78477729846771]
本稿では,COAST(Contrastive Adaptive Semantic Token Pruning)について紹介する。
COASTはトークン予算をまたいだ強力なプルーニングベースラインを一貫して上回り、複数のLVLMファミリをまたいだ一般化を実現している。
論文 参考訳(メタデータ) (2026-05-10T09:07:04Z) - 1 + 1 > 2: Detector-Empowered Video Large Language Model for Spatio-Temporal Grounding and Reasoning [53.28271278708241]
本稿では,DEViL の略である Detector-Empowered Video LLM を提案する。
DEViLはオープンボキャブラリ検出器(OVD)とビデオLLMを結合する
単に空間的なプロンプトやセグメンタスイッチとして機能するトークンとは異なり、RTTは制御信号とOVDのテキスト埋め込みの置き換えの両方として機能する。
論文 参考訳(メタデータ) (2025-12-07T06:11:15Z) - Empower Words: DualGround for Structured Phrase and Sentence-Level Temporal Grounding [30.223279362023337]
Video Grounding(VTG)は、時間セグメントを、与えられた自然言語クエリと一致した、長い、トリミングされていないビデオにローカライズすることを目的としている。
既存のアプローチは、すべてのテキストトークンを、異なる意味的役割を無視して、クロスモーダルな注意の中で均一に扱うのが一般的である。
グローバルとローカルのセマンティクスを明確に分離するデュアルブランチアーキテクチャであるDualGroundを提案する。
論文 参考訳(メタデータ) (2025-10-23T05:53:01Z) - Temporal Grounding as a Learning Signal for Referring Video Object Segmentation [29.646697516547558]
Referring Video Object (RVOS)は、自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションと追跡を目的としており、ビジュアルコンテンツとテキストクエリの正確なアライメントを必要とする。
既存の手法は、主に訓練中にフレームサンプリングとすべての可視物体の監督が区別できないため、意味的ミスアライメントに悩まされることが多い。
私たちは、MeViSベンチマークに基づいて構築されたデータセットであるMeViS-Mを紹介します。
論文 参考訳(メタデータ) (2025-08-16T07:34:43Z) - From Values to Tokens: An LLM-Driven Framework for Context-aware Time Series Forecasting via Symbolic Discretization [21.8427780153806]
時系列予測は、エネルギー、医療、金融など、幅広い重要な応用において意思決定を支援する上で重要な役割を担っている。
我々は,言語に基づく記号表現を文脈対応時系列予測のための統合仲介手段として活用する,LLM駆動のフレームワークであるTokenCastを提案する。
具体的には、TokenCastは離散トークン化器を使用して、連続する数値列を時間トークンに変換し、言語ベースの入力と構造的アライメントを可能にする。
論文 参考訳(メタデータ) (2025-08-08T03:51:08Z) - Collaborative Temporal Consistency Learning for Point-supervised Natural Language Video Localization [129.43937834515688]
我々は,ビデオ言語アライメントを強化するために,新しいコラボラティブ・テンポラル・コンポジション・ラーニング(COTEL)フレームワークを提案する。
具体的には、まずフレームとセグメントレベルの時間一貫性学習(TCL)モジュールを設計し、フレームサリエンシと文-モーメントペア間のセマンティックアライメントをモデル化する。
論文 参考訳(メタデータ) (2025-03-22T05:04:12Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文 参考訳(メタデータ) (2021-06-30T15:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。