論文の概要: MASRA: MLLM-Assisted Semantic-Relational Consistent Alignment for Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2605.03398v1
- Date: Tue, 05 May 2026 06:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.795896
- Title: MASRA: MLLM-Assisted Semantic-Relational Consistent Alignment for Video Temporal Grounding
- Title(参考訳): MASRA:ビデオ時間グラウンドのためのMLLM支援セマンティック・リレーショナル・一貫性アライメント
- Authors: Ran Ran, Jiwei Wei, Shuchang Zhou, Yitong Qin, Shiyuan He, Zeyu Ma, Yuyang Zhou, Yang Yang,
- Abstract要約: Video Temporal Grounding (VTG) はクロスモーダルなセマンティックギャップに直面しており、多くの場合、バックグラウンドがクエリと誤って一致している。
VTGのための訓練時間MLLMに基づく最適化フレームワークであるMLLM-Assisted Semantic-Relational Consistent Alignment (MASRA)を提案する。
- 参考スコア(独自算出の注目度): 21.833707346184386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Temporal Grounding (VTG) faces a cross-modal semantic gap that often leads to background features being incorrectly aligned with the query, while directly matching the query to moments results in insufficient discriminability and consistency of temporal semantics. To address this issue, we propose MLLM-Assisted Semantic-Relational Consistent Alignment (MASRA), a training-time MLLM-based optimization framework for VTG. MASRA leverages an MLLM during training to produce two forms of textual priors, namely event-level descriptions with temporal spans and clip-level captions, and instantiates two MLLM-assisted alignments. Event Semantic Temporal Alignment (ESTA) aligns temporal context with event semantics to explicitly strengthen the correspondence between semantics and temporal events and improve span-level separability. Local Relational Consistency Alignment (LRCA) constructs a textual relation matrix derived from clip-level captions and aligns it with the temporal feature similarity matrix in the model, enhancing temporal consistency while capturing local structural information. MASRA includes two simple supporting modules, semantic-guided enhancement and second-order relational attention, to better utilize the learned semantic context and relational structure. Moreover, we introduce Decoupled Alignment Interaction (DAI) with a context-aware codebook to adaptively absorb query-irrelevant semantics and alleviate the cross-modal gap. The MLLM is only invoked during training and is not used at inference. Extensive experiments show that MASRA outperforms existing methods, and ablation studies validate its effectiveness.
- Abstract(参考訳): Video Temporal Grounding (VTG) は、しばしばクエリと正しく一致しないバックグラウンド特徴に繋がるクロスモーダルなセマンティックギャップに直面し、クエリをモーメントに直接マッチングすることで、時間的セマンティクスの識別性と一貫性が不十分になる。
本稿では,VTGの学習時間に基づく最適化フレームワークであるMLLM-Assisted Semantic-Relational Consistent Alignment (MASRA)を提案する。
MASRAは、トレーニング中にMLLMを活用して、2種類のテキスト先行、すなわち時間的なスパンとクリップレベルのキャプションを持つイベントレベルの記述を生成し、2つのMLLMアシストアライメントをインスタンス化する。
イベントセマンティック・テンポラルアライメント(ESTA)は、時間的コンテキストとイベントセマンティクスを整合させ、セマンティクスと時間的イベントの対応を明確に強化し、スパンレベルの分離性を改善する。
LRCA(Local Relational Consistency Alignment)は、クリップレベルのキャプションから派生したテキスト関係行列を構築し、それをモデル内の時間的特徴類似性行列と整合させ、局所構造情報を取り込みながら時間的一貫性を高める。
MASRAには2つの単純なサポートモジュール、セマンティック誘導強化と2階関係注意が含まれており、学習されたセマンティックコンテキストとリレーショナル構造をよりよく活用する。
さらに、DAI(Decoupled Alignment Interaction)とコンテキスト対応のコードブックを導入し、クエリ非関連セマンティクスを適応的に吸収し、モーダル間ギャップを軽減する。
MLLMはトレーニング中にのみ起動され、推論では使用されない。
大規模な実験により、MASRAは既存の方法より優れており、アブレーション研究はその効果が検証されている。
関連論文リスト
- Bridging Time and Space: Decoupled Spatio-Temporal Alignment for Video Grounding [6.673833357112721]
textbfBridge-STGは、意味的コヒーレンスを維持しながら時間的および空間的ローカライゼーションを分離するエンドツーエンドフレームワークである。
Bridge-STGはMLLM方式の最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-09T09:14:00Z) - From Consistency to Complementarity: Aligned and Disentangled Multi-modal Learning for Time Series Understanding and Reasoning [12.903267405917388]
マルチモーダル大規模言語モデル(MLLM)であるMADIを提案する。
合成および実世界のベンチマーク実験により、MADIは汎用LLMと時系列特化MLLMを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-29T09:13:46Z) - Guiding Cross-Modal Representations with MLLM Priors via Preference Alignment [15.51412479114864]
クロスモーダル表現学習を導く新しいフレームワークであるMAPLE(Modality-Aligned Preference Learning for Embeddings)を紹介する。
MaPLEは、学習過程を強化学習として定式化し、既成のMLLMを用いた自動選好データ構築と、新たなRPA(Relative Preference Alignment)損失という2つの重要な要素を定式化している。
実験結果から,我々の嗜好誘導アライメントは細粒度クロスモーダル検索において著しく向上することが示された。
論文 参考訳(メタデータ) (2025-06-08T02:33:35Z) - LLaFEA: Frame-Event Complementary Fusion for Fine-Grained Spatiotemporal Understanding in LMMs [55.81291976637705]
大規模モデル(LMM)はシーン理解に優れるが、言語的表現と視覚的表現の微妙なアライメントのために微妙な時間的推論に苦慮する。
既存の方法は、フレームベースのビデオからテキストの位置と期間を視覚空間にマッピングするが、時間的調整を制限する時間的間隔に悩まされる。
LFEAを導入してイベントカメラを時間的に密集した認識とフレームイベント融合に活用する。
論文 参考訳(メタデータ) (2025-03-10T05:30:30Z) - TableTime: Reformulating Time Series Classification as Training-Free Table Understanding with Large Language Models [20.077169400691435]
大規模言語モデル (LLM) は多変量時系列分類において有効であることを示した。
LLM は LLM の潜在空間内の時系列の埋め込みを直接コードし、LLM の意味空間と一致させる。
MTSCを表理解タスクとして再編成するテーブルタイムを提案する。
論文 参考訳(メタデータ) (2024-11-24T07:02:32Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。