論文の概要: Augmenting Moment Retrieval: Zero-Dependency Two-Stage Learning
- arxiv url: http://arxiv.org/abs/2510.19622v1
- Date: Wed, 22 Oct 2025 14:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.92
- Title: Augmenting Moment Retrieval: Zero-Dependency Two-Stage Learning
- Title(参考訳): Augmenting Moment Retrieval: Zero-Dependency Two-Stage Learning
- Authors: Zhengxuan Wei, Jiajin Tang, Sibei Yang,
- Abstract要約: 局所最適化を克服するため、ゼロ外部依存性拡張モーメント検索フレームワークAMRを提案する。
AMRは、追加データなしで既存のアノテーションの曖昧な境界情報と意味的混乱を解決する。
AMRは従来の最先端のアプローチよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 33.16156949633519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Moment Retrieval methods face three critical bottlenecks: (1) data scarcity forces models into shallow keyword-feature associations; (2) boundary ambiguity in transition regions between adjacent events; (3) insufficient discrimination of fine-grained semantics (e.g., distinguishing ``kicking" vs. ``throwing" a ball). In this paper, we propose a zero-external-dependency Augmented Moment Retrieval framework, AMR, designed to overcome local optima caused by insufficient data annotations and the lack of robust boundary and semantic discrimination capabilities. AMR is built upon two key insights: (1) it resolves ambiguous boundary information and semantic confusion in existing annotations without additional data (avoiding costly manual labeling), and (2) it preserves boundary and semantic discriminative capabilities enhanced by training while generalizing to real-world scenarios, significantly improving performance. Furthermore, we propose a two-stage training framework with cold-start and distillation adaptation. The cold-start stage employs curriculum learning on augmented data to build foundational boundary/semantic awareness. The distillation stage introduces dual query sets: Original Queries maintain DETR-based localization using frozen Base Queries from the cold-start model, while Active Queries dynamically adapt to real-data distributions. A cross-stage distillation loss enforces consistency between Original and Base Queries, preventing knowledge forgetting while enabling real-world generalization. Experiments on multiple benchmarks show that AMR achieves improved performance over prior state-of-the-art approaches.
- Abstract(参考訳): 既存のモーメント検索手法では、3つの重要なボトルネックに直面している。(1) データ不足によりモデルが浅いキーワード-機能関係に強制される、(2) 隣接するイベント間の遷移領域の境界曖昧さ、(3) きめ細かいセマンティクス(例えば、'kicking' と 'throwing' を区別する)の識別が不十分である。
本稿では,データアノテーションが不十分なことと,ロバストな境界やセマンティックな識別能力の欠如によって生じる局所最適性を克服するために設計された,ゼロ外部依存性拡張モーメント検索フレームワークであるAMRを提案する。
AMRは,(1)付加データのない既存のアノテーションにおける曖昧な境界情報と意味的混乱を解消し,(2)実世界のシナリオに一般化しながら,トレーニングによって強化された境界および意味的識別能力を保存し,性能を著しく向上させる。
さらに,冷間始動・蒸留適応型2段階トレーニングフレームワークを提案する。
コールドスタート段階は、基礎的境界/意味的認識を構築するために、拡張データにカリキュラム学習を採用する。
オリジナルクエリーは、コールドスタートモデルから凍結されたベースクエリーを使用してDETRベースのローカライゼーションを維持し、アクティブクエリーは実データ分布に動的に適応する。
クロスステージ蒸留損失は、オリジナルとベースクエリ間の一貫性を強制し、現実世界の一般化を可能にしながら、知識の忘れを防ぎます。
複数のベンチマークの実験では、AMRは従来の最先端のアプローチよりもパフォーマンスが向上している。
関連論文リスト
- GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement [24.929199892659636]
Temporal Forgery Localizationは、ビデオやオーディオストリーム内で操作されたセグメントを正確に識別することを目的としており、マルチメディアの法医学とセキュリティの解釈可能な証拠を提供する。
しかし、Wakly Supervised TFL (WS-TFL) は、バイナリビデオレベルラベルからのみ学習することでラベリングコストを削減する。
GEM-TFLは,学習と推論の監督のギャップを効果的に埋める2段階の分類回帰フレームワークである。
論文 参考訳(メタデータ) (2026-03-05T12:07:26Z) - Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation [73.32435804067883]
Generalizable Knowledge Distillation (GKD)は、一般化を明示的に強化する多段階フレームワークである。
5つの領域一般化ベンチマークの実験は、GKDが既存のKD法を一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-03-03T03:18:12Z) - Enhancing Foundation VLM Robustness to Missing Modality: Scalable Diffusion for Bi-directional Feature Restoration [40.720288165545476]
本研究では,機能不足を効果的に回復するために,拡張拡散モデルをプラグ可能な中段階トレーニングモジュールとして導入する。
I)動的モダリティゲーティング(動的モダリティゲーティング)は、条件付き特徴を適応的に活用し、セマンティック一貫性のある特徴の生成を制御し、(II)双方向アライメントを実現するためにデュアルエンコーダのセマンティック空間をブリッジするクロスモーダル相互学習機構である。
論文 参考訳(メタデータ) (2026-02-03T06:06:35Z) - DIS2: Disentanglement Meets Distillation with Classwise Attention for Robust Remote Sensing Segmentation under Missing Modalities [28.992992584085787]
DIS2は、モダリティ共有機能依存からアクティブでガイド付き機能不足補償へ移行した新しいパラダイムである。
補償的特徴は、利用可能なモダリティの特徴と融合すると、フルモダリティの場合の理想的フューズド表現に近似する。
提案手法はベンチマーク間で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-01-20T01:33:54Z) - Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion [31.189038928192648]
Co2Sは半教師付きRSセグメンテーションフレームワークで、ビジョン言語モデルと自己教師型モデルとを融合する。
テキスト埋め込みと学習可能なクエリを利用した,明示的でシンプルなセマンティックコガイダンス機構が導入された。
6つの一般的なデータセットに対する実験は,提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2025-12-28T18:24:19Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - DE3S: Dual-Enhanced Soft-Sparse-Shape Learning for Medical Early Time-Series Classification [11.539700200482853]
ETSCは敗血症などの時間に敏感な医療応用において重要である。
正確さとイヤーラインの間には、本質的にトレードオフがある。
我々はこれらの課題を克服するためのフレームワークである textbfDE3S を提案する。
論文 参考訳(メタデータ) (2025-10-14T07:10:05Z) - Semantic-Inductive Attribute Selection for Zero-Shot Learning [4.083977531653519]
ゼロショット学習(ZSL)のための2つの相補的特徴選択戦略について検討する。
1つ目は、ZSLの要求に埋め込まれた特徴選択を適応させ、モデル駆動のランキングを意味のあるセマンティックプルーニングに変換する。
2つ目は、進化的計算を利用して属性部分集合の空間を直接探索する。
論文 参考訳(メタデータ) (2025-09-26T15:14:36Z) - Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - Forget Me Not: Fighting Local Overfitting with Knowledge Fusion and Distillation [6.7864586321550595]
検証データ上での深部モデルの忘れ度を計測する新しいスコアを導入する。
従来の過度な過度なオーバーフィッティングがなくても、局所的な過度な過度なオーバーフィッティングが発生することを示す。
次に、単一のモデルのトレーニング履歴を活用して、忘れられた知識を回復し、保持する2段階のアプローチを導入します。
論文 参考訳(メタデータ) (2025-07-11T15:37:24Z) - What Makes Local Updates Effective: The Role of Data Heterogeneity and Smoothness [5.357435119431715]
この論文は、異種環境における局所SGDの分析のための自己完結型ガイドに寄与する。
この論文はオンライン学習にも拡張され、ファーストオーダーとバンディットの両方のフィードバックの下で基本的な境界を提供する。
論文 参考訳(メタデータ) (2025-06-30T19:06:02Z) - Constrained Entropic Unlearning: A Primal-Dual Framework for Large Language Models [7.566515311806724]
大規模言語モデル(LLM)が現実の環境でデプロイされるようになると、機密性、時代遅れ、あるいはプロプライエタリな情報を漏らさなくてはならなくなる。
既存の未学習の手法は、忘れと保持を規則化されたトレードオフとして定式化し、両方の目的を1つのスカラー化された損失に組み合わせる。
制約付き最適化問題として,LLMアンラーニングの新たな定式化を提案する。
論文 参考訳(メタデータ) (2025-06-05T17:55:23Z) - Restoration Score Distillation: From Corrupted Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
Score Distillation (DSD) の原理的一般化である textitRestoration Score Distillation (RSD) を提案する。
RSDは、ぼやけた画像、不完全画像、低解像度画像など、広範囲の汚職タイプに対応している。
自然と科学の両方のデータセットの様々な復元作業において、教師モデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-19T17:21:03Z) - E2ED^2:Direct Mapping from Noise to Data for Enhanced Diffusion Models [15.270657838960114]
拡散モデルは、視覚的生成モデリングにおけるデファクト・プライマリ・パラダイムとして確立されてきた。
最終生成サンプルから初期雑音への直接最適化を実現する新しいエンドツーエンド学習パラダイムを提案する。
Fr'eche't Inception Distance (FID) と CLIP のスコアは,サンプリングステップが少なくても大幅に向上する。
論文 参考訳(メタデータ) (2024-12-30T16:06:31Z) - Breaking Determinism: Fuzzy Modeling of Sequential Recommendation Using Discrete State Space Diffusion Model [66.91323540178739]
シークエンシャルレコメンデーション(SR)は、ユーザーが過去の行動に基づいて興味を持つかもしれない項目を予測することを目的としている。
我々はSRを新しい情報理論の観点から再検討し、逐次モデリング手法がユーザの行動のランダム性と予測不可能性を適切に把握できないことを発見した。
ファジィ情報処理理論に触発された本論文では,制限を克服し,ユーザの関心事の進化をよりよく捉えるために,ファジィなインタラクションシーケンスの組を導入する。
論文 参考訳(メタデータ) (2024-10-31T14:52:01Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。