論文の概要: Augmenting Moment Retrieval: Zero-Dependency Two-Stage Learning
- arxiv url: http://arxiv.org/abs/2510.19622v1
- Date: Wed, 22 Oct 2025 14:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.92
- Title: Augmenting Moment Retrieval: Zero-Dependency Two-Stage Learning
- Title(参考訳): Augmenting Moment Retrieval: Zero-Dependency Two-Stage Learning
- Authors: Zhengxuan Wei, Jiajin Tang, Sibei Yang,
- Abstract要約: 局所最適化を克服するため、ゼロ外部依存性拡張モーメント検索フレームワークAMRを提案する。
AMRは、追加データなしで既存のアノテーションの曖昧な境界情報と意味的混乱を解決する。
AMRは従来の最先端のアプローチよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 33.16156949633519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Moment Retrieval methods face three critical bottlenecks: (1) data scarcity forces models into shallow keyword-feature associations; (2) boundary ambiguity in transition regions between adjacent events; (3) insufficient discrimination of fine-grained semantics (e.g., distinguishing ``kicking" vs. ``throwing" a ball). In this paper, we propose a zero-external-dependency Augmented Moment Retrieval framework, AMR, designed to overcome local optima caused by insufficient data annotations and the lack of robust boundary and semantic discrimination capabilities. AMR is built upon two key insights: (1) it resolves ambiguous boundary information and semantic confusion in existing annotations without additional data (avoiding costly manual labeling), and (2) it preserves boundary and semantic discriminative capabilities enhanced by training while generalizing to real-world scenarios, significantly improving performance. Furthermore, we propose a two-stage training framework with cold-start and distillation adaptation. The cold-start stage employs curriculum learning on augmented data to build foundational boundary/semantic awareness. The distillation stage introduces dual query sets: Original Queries maintain DETR-based localization using frozen Base Queries from the cold-start model, while Active Queries dynamically adapt to real-data distributions. A cross-stage distillation loss enforces consistency between Original and Base Queries, preventing knowledge forgetting while enabling real-world generalization. Experiments on multiple benchmarks show that AMR achieves improved performance over prior state-of-the-art approaches.
- Abstract(参考訳): 既存のモーメント検索手法では、3つの重要なボトルネックに直面している。(1) データ不足によりモデルが浅いキーワード-機能関係に強制される、(2) 隣接するイベント間の遷移領域の境界曖昧さ、(3) きめ細かいセマンティクス(例えば、'kicking' と 'throwing' を区別する)の識別が不十分である。
本稿では,データアノテーションが不十分なことと,ロバストな境界やセマンティックな識別能力の欠如によって生じる局所最適性を克服するために設計された,ゼロ外部依存性拡張モーメント検索フレームワークであるAMRを提案する。
AMRは,(1)付加データのない既存のアノテーションにおける曖昧な境界情報と意味的混乱を解消し,(2)実世界のシナリオに一般化しながら,トレーニングによって強化された境界および意味的識別能力を保存し,性能を著しく向上させる。
さらに,冷間始動・蒸留適応型2段階トレーニングフレームワークを提案する。
コールドスタート段階は、基礎的境界/意味的認識を構築するために、拡張データにカリキュラム学習を採用する。
オリジナルクエリーは、コールドスタートモデルから凍結されたベースクエリーを使用してDETRベースのローカライゼーションを維持し、アクティブクエリーは実データ分布に動的に適応する。
クロスステージ蒸留損失は、オリジナルとベースクエリ間の一貫性を強制し、現実世界の一般化を可能にしながら、知識の忘れを防ぎます。
複数のベンチマークの実験では、AMRは従来の最先端のアプローチよりもパフォーマンスが向上している。
関連論文リスト
- DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Semantic-Inductive Attribute Selection for Zero-Shot Learning [4.083977531653519]
ゼロショット学習(ZSL)のための2つの相補的特徴選択戦略について検討する。
1つ目は、ZSLの要求に埋め込まれた特徴選択を適応させ、モデル駆動のランキングを意味のあるセマンティックプルーニングに変換する。
2つ目は、進化的計算を利用して属性部分集合の空間を直接探索する。
論文 参考訳(メタデータ) (2025-09-26T15:14:36Z) - Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - Forget Me Not: Fighting Local Overfitting with Knowledge Fusion and Distillation [6.7864586321550595]
検証データ上での深部モデルの忘れ度を計測する新しいスコアを導入する。
従来の過度な過度なオーバーフィッティングがなくても、局所的な過度な過度なオーバーフィッティングが発生することを示す。
次に、単一のモデルのトレーニング履歴を活用して、忘れられた知識を回復し、保持する2段階のアプローチを導入します。
論文 参考訳(メタデータ) (2025-07-11T15:37:24Z) - What Makes Local Updates Effective: The Role of Data Heterogeneity and Smoothness [5.357435119431715]
この論文は、異種環境における局所SGDの分析のための自己完結型ガイドに寄与する。
この論文はオンライン学習にも拡張され、ファーストオーダーとバンディットの両方のフィードバックの下で基本的な境界を提供する。
論文 参考訳(メタデータ) (2025-06-30T19:06:02Z) - Constrained Entropic Unlearning: A Primal-Dual Framework for Large Language Models [7.566515311806724]
大規模言語モデル(LLM)が現実の環境でデプロイされるようになると、機密性、時代遅れ、あるいはプロプライエタリな情報を漏らさなくてはならなくなる。
既存の未学習の手法は、忘れと保持を規則化されたトレードオフとして定式化し、両方の目的を1つのスカラー化された損失に組み合わせる。
制約付き最適化問題として,LLMアンラーニングの新たな定式化を提案する。
論文 参考訳(メタデータ) (2025-06-05T17:55:23Z) - Restoration Score Distillation: From Corrupted Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
Score Distillation (DSD) の原理的一般化である textitRestoration Score Distillation (RSD) を提案する。
RSDは、ぼやけた画像、不完全画像、低解像度画像など、広範囲の汚職タイプに対応している。
自然と科学の両方のデータセットの様々な復元作業において、教師モデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-19T17:21:03Z) - E2ED^2:Direct Mapping from Noise to Data for Enhanced Diffusion Models [15.270657838960114]
拡散モデルは、視覚的生成モデリングにおけるデファクト・プライマリ・パラダイムとして確立されてきた。
最終生成サンプルから初期雑音への直接最適化を実現する新しいエンドツーエンド学習パラダイムを提案する。
Fr'eche't Inception Distance (FID) と CLIP のスコアは,サンプリングステップが少なくても大幅に向上する。
論文 参考訳(メタデータ) (2024-12-30T16:06:31Z) - Breaking Determinism: Fuzzy Modeling of Sequential Recommendation Using Discrete State Space Diffusion Model [66.91323540178739]
シークエンシャルレコメンデーション(SR)は、ユーザーが過去の行動に基づいて興味を持つかもしれない項目を予測することを目的としている。
我々はSRを新しい情報理論の観点から再検討し、逐次モデリング手法がユーザの行動のランダム性と予測不可能性を適切に把握できないことを発見した。
ファジィ情報処理理論に触発された本論文では,制限を克服し,ユーザの関心事の進化をよりよく捉えるために,ファジィなインタラクションシーケンスの組を導入する。
論文 参考訳(メタデータ) (2024-10-31T14:52:01Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。