論文の概要: Sim-DETR: Unlock DETR for Temporal Sentence Grounding
- arxiv url: http://arxiv.org/abs/2509.23867v1
- Date: Sun, 28 Sep 2025 13:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.495078
- Title: Sim-DETR: Unlock DETR for Temporal Sentence Grounding
- Title(参考訳): Sim-DETR: 時間文接地のためのアンロックDETR
- Authors: Jiajin Tang, Zhengxuan Wei, Yuchen Zhu, Cheng Shi, Guanbin Li, Liang Lin, Sibei Yang,
- Abstract要約: 時間文グラウンドディングは、与えられたテキストクエリに対応するビデオ内の正確なモーメントを特定することを目的としている。
DETRを強化するために設計された典型的な戦略は改善せず、その課題における性能を低下させる可能性さえある。
2つの小さな修正を加えて標準DETRを拡張するSim-DETRを提案する。
- 参考スコア(独自算出の注目度): 104.78823923373784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal sentence grounding aims to identify exact moments in a video that correspond to a given textual query, typically addressed with detection transformer (DETR) solutions. However, we find that typical strategies designed to enhance DETR do not improve, and may even degrade, its performance in this task. We systematically analyze and identify the root causes of this abnormal behavior: (1) conflicts between queries from similar target moments and (2) internal query conflicts due to the tension between global semantics and local localization. Building on these insights, we propose a simple yet powerful baseline, Sim-DETR, which extends the standard DETR with two minor modifications in the decoder layers: (1) constraining self-attention between queries based on their semantic and positional overlap and (2) adding query-to-frame alignment to bridge the global and local contexts. Experiments demonstrate that Sim-DETR unlocks the full potential of DETR for temporal sentence grounding, offering a strong baseline for future research.
- Abstract(参考訳): 時間文グラウンドディングは、与えられたテキストクエリに対応するビデオ内の正確なモーメントを識別することを目的としており、典型的には検出トランスフォーマー(DETR)ソリューションで対処される。
しかし、DETRを強化するために設計された典型的な戦略は改善せず、その課題における性能を低下させる可能性さえある。
この異常行動の根本原因を系統的に分析し,(1)類似のモーメントからの問合せと(2)大域的意味論と局所的局所化の緊張による内部的問合せの相違を同定する。
これらの知見に基づいて,(1)意味的および位置的重複に基づくクエリ間の自己アテンションの制約,(2)グローバルなコンテキストとローカルなコンテキストをブリッジするクエリ・ツー・フレームのアライメントの追加,という2つのデコーダ・レイヤの小さな変更で標準DETRを拡張した,シンプルで強力なベースラインであるSim-DETRを提案する。
実験により、Sim-DETRは時相文接地のためのDETRの潜在能力を解放し、将来の研究の強力なベースラインを提供することが示された。
関連論文リスト
- Re3: Learning to Balance Relevance & Recency for Temporal Information Retrieval [10.939002113975706]
時間情報検索は、現代の検索システムにとって重要な課題であるが未解決の課題である。
Re3は、クエリ対応ゲーティングメカニズムを通じて意味情報と時間情報のバランスをとるフレームワークである。
Re2Benchでは、Re3は最先端の結果を達成し、3つのサブセットすべてにR@1をもたらす。
論文 参考訳(メタデータ) (2025-09-01T09:44:01Z) - Respecting Temporal-Causal Consistency: Entity-Event Knowledge Graphs for Retrieval-Augmented Generation [69.45495166424642]
我々は,物語文書における時間的,因果的,文字的整合性を理解するために,頑健で差別的なQAベンチマークを開発する。
次に、バイナリマッピングでリンクされたエンティティとイベントのサブグラフを分離したまま保持するデュアルグラフフレームワークであるEntity-Event RAG(E2RAG)を紹介します。
ChronoQA全体で、我々のアプローチは最先端の非構造化およびKGベースのRAGベースラインよりも優れており、因果一貫性クエリや文字整合性クエリが顕著である。
論文 参考訳(メタデータ) (2025-06-06T10:07:21Z) - Diversifying Query: Region-Guided Transformer for Temporal Sentence Grounding [30.33362992577831]
時間的文接頭辞は言語記述に関連するモーメントをローカライズすることを目的とした課題である。
最近のDETRベースのモデルは、複数の学習可能なモーメントクエリを活用することで、顕著な進歩を遂げている。
時間的文接地のための地域ガイド型TRansformer(RGTR)を提案する。
論文 参考訳(メタデータ) (2024-05-31T19:13:09Z) - Decoupled DETR: Spatially Disentangling Localization and Classification
for Improved End-to-End Object Detection [48.429555904690595]
本稿では,タスク認識型問合せ生成モジュールと切り離された特徴学習プロセスを含む空間的に分離されたDETRを紹介する。
提案手法は,従来の研究に比べてMSCOCOデータセットの大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2023-10-24T15:54:11Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - DETR with Additional Global Aggregation for Cross-domain Weakly
Supervised Object Detection [34.14603473160207]
本稿では,クロスドメイン弱教師付き物体検出(CDWSOD)のためのDETRに基づく手法を提案する。
我々は、DETR のエンコーダとデコーダはどちらもアテンション機構に基づいており、CDWSOD の可能性が強いと考えている。
集約結果、すなわち画像レベルの予測は、ドメインアライメントの弱い監督を自然に利用することができる。
論文 参考訳(メタデータ) (2023-04-14T12:16:42Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。