論文の概要: Length Matters: Length-Aware Transformer for Temporal Sentence Grounding
- arxiv url: http://arxiv.org/abs/2508.04299v1
- Date: Wed, 06 Aug 2025 10:34:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.68387
- Title: Length Matters: Length-Aware Transformer for Temporal Sentence Grounding
- Title(参考訳): 時間的意味:時間的接地のための長さ対応変圧器
- Authors: Yifan Wang, Ziyi Liu, Xiaolong Sun, Jiawei Wang, Hongmin Liu,
- Abstract要約: 時間的文の接地は、未編集ビデオ内の時間的セグメントをローカライズすることを目的とした課題である。
本稿では,TSGのためのLongth-Aware Transformer(LATR)を提案する。
LATRの有効性を実証し、3つの公開ベンチマークで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 19.652239319193413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal sentence grounding (TSG) is a highly challenging task aiming to localize the temporal segment within an untrimmed video corresponding to a given natural language description. Benefiting from the design of learnable queries, the DETR-based models have achieved substantial advancements in the TSG task. However, the absence of explicit supervision often causes the learned queries to overlap in roles, leading to redundant predictions. Therefore, we propose to improve TSG by making each query fulfill its designated role, leveraging the length priors of the video-description pairs. In this paper, we introduce the Length-Aware Transformer (LATR) for TSG, which assigns different queries to handle predictions based on varying temporal lengths. Specifically, we divide all queries into three groups, responsible for segments with short, middle, and long temporal durations, respectively. During training, an additional length classification task is introduced. Predictions from queries with mismatched lengths are suppressed, guiding each query to specialize in its designated function. Extensive experiments demonstrate the effectiveness of our LATR, achieving state-of-the-art performance on three public benchmarks. Furthermore, the ablation studies validate the contribution of each component of our method and the critical role of incorporating length priors into the TSG task.
- Abstract(参考訳): 時間文グラウンドティング(TSG)は、与えられた自然言語記述に対応する未編集ビデオ内の時間セグメントをローカライズすることを目的とした、非常に困難な課題である。
学習可能なクエリの設計により、DreTRベースのモデルはTSGタスクにおいて大幅に進歩した。
しかし、明示的な監督が欠如しているため、学習されたクエリが役割で重複することが多く、冗長な予測がもたらされる。
そこで本稿では,各クエリが指定された役割を果たすようにして,ビデオ記述ペアの長さの先行を活かしてTSGを改善することを提案する。
本稿では,TSGのためのLongth-Aware Transformer(LATR)を提案する。
具体的には、全てのクエリを3つのグループに分割し、それぞれが短い時間、中期時間、長期時間を持つセグメントに責任を負う。
訓練中に、追加の長さ分類タスクが導入される。
一致しない長さのクエリからの予測が抑制され、各クエリが指定された機能に特化するように誘導される。
大規模な実験はLATRの有効性を示し、3つの公開ベンチマークで最先端のパフォーマンスを達成した。
さらに, アブレーション研究は, 本手法の各成分の寄与と, TSGタスクに長さ先行を組み込む重要な役割について検証した。
関連論文リスト
- Respecting Temporal-Causal Consistency: Entity-Event Knowledge Graphs for Retrieval-Augmented Generation [69.45495166424642]
我々は,物語文書における時間的,因果的,文字的整合性を理解するために,頑健で差別的なQAベンチマークを開発する。
次に、バイナリマッピングでリンクされたエンティティとイベントのサブグラフを分離したまま保持するデュアルグラフフレームワークであるEntity-Event RAG(E2RAG)を紹介します。
ChronoQA全体で、我々のアプローチは最先端の非構造化およびKGベースのRAGベースラインよりも優れており、因果一貫性クエリや文字整合性クエリが顕著である。
論文 参考訳(メタデータ) (2025-06-06T10:07:21Z) - On the Reproducibility of Learned Sparse Retrieval Adaptations for Long Documents [2.186901738997927]
長い文書にLearned Sparse Retrieval(LSR)を適用するメカニズムを再現し検討する。
実験の結果,文書検索性能は第1セグメントが支配的であり,各セグメントの重要性が確認された。
提案手法であるExactSDMとSoftSDMを文書の長さによって再評価した。
論文 参考訳(メタデータ) (2025-03-31T08:19:31Z) - Emulating Retrieval Augmented Generation via Prompt Engineering for Enhanced Long Context Comprehension in LLMs [23.960451986662996]
本稿では,レトリーバル拡張生成(RAG)を特殊エンジニアリングとチェーンオブ思考推論によりエミュレートする手法を提案する。
我々は,BABILong から選択したタスクに対するアプローチを評価し,大量の散逸テキストを用いた標準 bAbI QA 問題をインターリーブする。
論文 参考訳(メタデータ) (2025-02-18T02:49:40Z) - Diversifying Query: Region-Guided Transformer for Temporal Sentence Grounding [30.33362992577831]
時間的文接頭辞は言語記述に関連するモーメントをローカライズすることを目的とした課題である。
最近のDETRベースのモデルは、複数の学習可能なモーメントクエリを活用することで、顕著な進歩を遂げている。
時間的文接地のための地域ガイド型TRansformer(RGTR)を提案する。
論文 参考訳(メタデータ) (2024-05-31T19:13:09Z) - TE-TAD: Towards Full End-to-End Temporal Action Detection via Time-Aligned Coordinate Expression [25.180317527112372]
時間的行動検出(TAD)のためのクエリーベース検出器における手作り部品に依存した正規化座標表現は重要な要素である
時間整合座標式を組み込んだフルエンド・ツー・エンドの時間的動作検出変換器であるモデル名を提案する。
本手法は手作り部品を不要にすることでTAD処理を単純化するだけでなく,クエリーベース検出器の性能も大幅に向上する。
論文 参考訳(メタデータ) (2024-04-03T02:16:30Z) - LongHeads: Multi-Head Attention is Secretly a Long Context Processor [49.1661870007655]
LongHeadsは、大規模な言語モデルの長いコンテキスト能力を強化する、トレーニング不要のフレームワークである。
それぞれの頭が全文に参加できるようにする代わりに、各頭がコンテキストチャンクを選択して参加することで、分配長を処理できるようにします。
LongHeadsは、パスキー検索タスクにおいて、128kの長さで100%精度を達成する。
論文 参考訳(メタデータ) (2024-02-16T13:39:34Z) - Simultaneous Task Allocation and Planning for Multi-Robots under Hierarchical Temporal Logic Specifications [8.471147498059235]
有限トレース (LTL$_f$) 上で広く使用される仕様型の階層構造を導入する。
HLTL$_f$と呼ばれる結果の言語は、構文とセマンティクスの両方で定義される。
また,マルチロボットシステムの設計計画を合成するための検索ベースアプローチも開発している。
論文 参考訳(メタデータ) (2024-01-08T16:35:13Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - Efficient Long Sequence Encoding via Synchronization [29.075962393432857]
階層符号化のための同期機構を提案する。
我々のアプローチはまずセグメント間でアンカートークンを識別し、元の入力シーケンスでの役割によってグループ化する。
我々のアプローチは、効率を保ちながらセグメント間のグローバル情報交換を改善することができる。
論文 参考訳(メタデータ) (2022-03-15T04:37:02Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z) - Interpretable Time-series Representation Learning With Multi-Level
Disentanglement [56.38489708031278]
Disentangle Time Series (DTS)は、シーケンシャルデータのための新しいDisentanglement Enhanceingフレームワークである。
DTSは時系列の解釈可能な表現として階層的意味概念を生成する。
DTSは、セマンティック概念の解釈性が高く、下流アプリケーションで優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-17T22:02:24Z) - Temporal Query Networks for Fine-grained Video Understanding [88.9877174286279]
我々はこれをクエリ応答機構にキャストし、各クエリが特定の質問に対処し、独自の応答ラベルセットを持つ。
本手法は,細粒度動作分類のためのファインガイムおよびダイビング48ベンチマークを広範囲に評価し,rgb機能のみを用いて最先端の動作分類を克服した。
論文 参考訳(メタデータ) (2021-04-19T17:58:48Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。