論文の概要: Adaptive Evidential Learning for Temporal-Semantic Robustness in Moment Retrieval
- arxiv url: http://arxiv.org/abs/2512.00953v1
- Date: Sun, 30 Nov 2025 16:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.515627
- Title: Adaptive Evidential Learning for Temporal-Semantic Robustness in Moment Retrieval
- Title(参考訳): モーメント検索における時間的セマンティックロバストネスの適応的エビデンシャル学習
- Authors: Haojian Huang, Kaijing Ma, Jin Chen, Haodong Chen, Zhou Wu, Xianghao Zang, Han Fang, Chao Ban, Hao Sun, Mulin Chen, Zhongjiang He,
- Abstract要約: Debiased Evidential Learning for Moment Retrieval (DEMR)は、クロスモーダルアライメントのための反射Flipped Fusion(RFF)ブロックを組み込んだ新しいフレームワークである。
我々は,不確実性予測を洗練し,困難なモーメントと適応的なアライメントを実現し,精度を向上するGeom-regularizerを提案する。
- 参考スコア(独自算出の注目度): 39.603000380180774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the domain of moment retrieval, accurately identifying temporal segments within videos based on natural language queries remains challenging. Traditional methods often employ pre-trained models that struggle with fine-grained information and deterministic reasoning, leading to difficulties in aligning with complex or ambiguous moments. To overcome these limitations, we explore Deep Evidential Regression (DER) to construct a vanilla Evidential baseline. However, this approach encounters two major issues: the inability to effectively handle modality imbalance and the structural differences in DER's heuristic uncertainty regularizer, which adversely affect uncertainty estimation. This misalignment results in high uncertainty being incorrectly associated with accurate samples rather than challenging ones. Our observations indicate that existing methods lack the adaptability required for complex video scenarios. In response, we propose Debiased Evidential Learning for Moment Retrieval (DEMR), a novel framework that incorporates a Reflective Flipped Fusion (RFF) block for cross-modal alignment and a query reconstruction task to enhance text sensitivity, thereby reducing bias in uncertainty estimation. Additionally, we introduce a Geom-regularizer to refine uncertainty predictions, enabling adaptive alignment with difficult moments and improving retrieval accuracy. Extensive testing on standard datasets and debiased datasets ActivityNet-CD and Charades-CD demonstrates significant enhancements in effectiveness, robustness, and interpretability, positioning our approach as a promising solution for temporal-semantic robustness in moment retrieval. The code is publicly available at https://github.com/KaijingOfficial/DEMR.
- Abstract(参考訳): モーメント検索の分野では、自然言語クエリに基づいてビデオ内の時間セグメントを正確に識別することは依然として困難である。
伝統的な手法では、しばしば詳細な情報や決定論的推論に苦しむ事前訓練されたモデルを採用しており、複雑または曖昧な瞬間と整合するのは難しい。
これらの制限を克服するため、我々はDeep Evidential Regression (DER)を探索し、バニラ・エビデンシャル・ベースラインを構築する。
しかし、このアプローチは、モダリティの不均衡を効果的に扱うことができないことと、不確実性推定に悪影響を及ぼす、DERのヒューリスティックな不確実性正規化器の構造的差異の2つの大きな問題に直面する。
このミスアライメントは、難しいものよりも正確なサンプルと誤って関連付けられている高い不確実性をもたらす。
以上の結果から,既存の手法では複雑な映像シナリオの適応性が欠如していることが示唆された。
そこで本研究では,モーメント検索のためのデバイアスド・エビデンシャル・ラーニング(Debiased Evidential Learning for Moment Retrieval, DEMR)を提案する。
さらに、不確実性予測を洗練し、困難なモーメントと適応的なアライメントを可能にし、検索精度を向上させるためのGeom-regularizerを導入する。
標準データセットとデバイアスデータセットの広範なテスト アクティビティNet-CDとCharades-CDは、有効性、堅牢性、解釈可能性の大幅な向上を示し、我々のアプローチをモーメント検索における時間的セマンティックな堅牢性のための有望なソリューションとして位置づけている。
コードはhttps://github.com/KaijingOfficial/DEMRで公開されている。
関連論文リスト
- Modeling Uncertainty Trends for Timely Retrieval in Dynamic RAG [35.96258615258145]
本稿では,トークンレベルの不確実性のダイナミクスをモデル化し,最適検索タイミングを決定するトレーニングフリーな手法であるEntropy-Trend Constraint(ETC)を紹介する。
ETCは、検索周波数を減少させながら、強いベースラインを一貫して上回る。
プラグアンドプレイで、モデルに依存しず、既存のデコードパイプラインに簡単に統合できる。
論文 参考訳(メタデータ) (2025-11-13T05:28:02Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - BayesTTA: Continual-Temporal Test-Time Adaptation for Vision-Language Models via Gaussian Discriminant Analysis [41.09181390655176]
CLIPのような視覚言語モデル(VLM)は、強いゼロショット認識を実現するが、実世界のシナリオに共通する時空間的な分散シフトの下で大幅に劣化する。
テスト分布が時間とともに徐々に変化するCT-TTA(textitContinal-Temporal Test-Time Adaptation)として、この実践的問題を定式化する。
我々は、時間的に一貫した予測を実行し、視覚表現を動的に調整する、ベイズ適応フレームワークであるtextitBayesTTAを提案する。
論文 参考訳(メタデータ) (2025-07-11T14:02:54Z) - MIRRAMS: Learning Robust Tabular Models under Unseen Missingness Shifts [2.5357049657770516]
欠落した値はしばしばデータ収集ポリシーのバリエーションを反映し、時間や場所によって変化することがある。
このようなトレーニングとテストインプットの間の不足分布の変化は、堅牢な予測性能を達成する上で大きな課題となる。
この課題に対処するために設計された,新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-11T03:03:30Z) - LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。