論文の概要: Diversifying Query: Region-Guided Transformer for Temporal Sentence Grounding
- arxiv url: http://arxiv.org/abs/2406.00143v1
- Date: Fri, 31 May 2024 19:13:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 08:23:48.030314
- Title: Diversifying Query: Region-Guided Transformer for Temporal Sentence Grounding
- Title(参考訳): 変分クエリ: 時間文接地のための領域ガイド変換器
- Authors: Xiaolong Sun, Liushuai Shi, Le Wang, Sanping Zhou, Kun Xia, Yabing Wang, Gang Hua,
- Abstract要約: 時間的文接地のための地域ガイド型TRansformer(RGTR)を提案する。
学習可能なクエリを使う代わりに、RGTRは一連のアンカーペアをモーメントクエリとして採用して、明示的な地域ガイダンスを導入している。
大規模な実験は、データセット上で最先端の手法より優れたRGTRの有効性を示す。
- 参考スコア(独自算出の注目度): 30.33362992577831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal sentence grounding is a challenging task that aims to localize the moment spans relevant to a language description. Although recent DETR-based models have achieved notable progress by leveraging multiple learnable moment queries, they suffer from overlapped and redundant proposals, leading to inaccurate predictions. We attribute this limitation to the lack of task-related guidance for the learnable queries to serve a specific mode. Furthermore, the complex solution space generated by variable and open-vocabulary language descriptions exacerbates the optimization difficulty, making it harder for learnable queries to distinguish each other adaptively. To tackle this limitation, we present a Region-Guided TRansformer (RGTR) for temporal sentence grounding, which diversifies moment queries to eliminate overlapped and redundant predictions. Instead of using learnable queries, RGTR adopts a set of anchor pairs as moment queries to introduce explicit regional guidance. Each anchor pair takes charge of moment prediction for a specific temporal region, which reduces the optimization difficulty and ensures the diversity of the final predictions. In addition, we design an IoU-aware scoring head to improve proposal quality. Extensive experiments demonstrate the effectiveness of RGTR, outperforming state-of-the-art methods on QVHighlights, Charades-STA and TACoS datasets.
- Abstract(参考訳): 時間的文接頭辞は言語記述に関連するモーメントをローカライズすることを目的とした課題である。
最近のDETRベースのモデルは、複数の学習可能なモーメントクエリを活用することで顕著な進歩を遂げているが、重複と冗長な提案に悩まされ、不正確な予測につながった。
この制限は、特定のモードを提供するための学習可能なクエリに対するタスク関連ガイダンスの欠如に起因する。
さらに、変数および開語彙言語記述によって生成される複雑な解空間は、最適化の難しさを増し、学習可能なクエリ同士を適応的に区別することが困難になる。
この制限に対処するために、時間的文グラウンド化のためのRerea-Guided TRansformer(RGTR)を提案する。
学習可能なクエリを使う代わりに、RGTRは一連のアンカーペアをモーメントクエリとして採用して、明示的な地域ガイダンスを導入している。
それぞれのアンカーペアが特定の時間領域のモーメント予測を担当し、最適化の難しさを低減し、最終的な予測の多様性を保証する。
また,提案手法の質向上を図るため,IoU対応スコアヘッドを設計する。
大規模な実験は、QVHighlights、Charades-STA、TACoSデータセットにおける最先端の手法よりも優れたRGTRの有効性を示す。
関連論文リスト
- Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - Geode: A Zero-shot Geospatial Question-Answering Agent with Explicit Reasoning and Precise Spatio-Temporal Retrieval [0.0]
本研究では,ゼロショット地理空間的質問応答タスクを高精度に処理するための先駆的システムを提案する。
当社のアプローチは,現在の大規模言語モデルの限界に対処する上で,大幅な改善を図っている。
論文 参考訳(メタデータ) (2024-06-26T21:59:54Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Team DETR: Guide Queries as a Professional Team in Detection
Transformers [31.521916994653235]
我々は、クエリの協調と位置制約を活用して、興味のあるオブジェクトをより正確に受け入れるチームDETRを提案する。
また、クエリーメンバーの予測設定を動的に調整し、クエリーのスケールと空間の優先順位をより良くします。
さらに、提案されたTeam DETRは、パラメータや計算量を増やすことなく既存のDETRに適応できるほど柔軟である。
論文 参考訳(メタデータ) (2023-02-14T15:21:53Z) - Action Quality Assessment with Temporal Parsing Transformer [84.1272079121699]
行動品質評価(AQA)は、作業の理解と解決に重要である。
本稿では,時間的部分表現に包括的特徴を分解する時間的パーシング変換器を提案する。
提案手法は,3つの公開AQAベンチマークにおける先行研究よりもかなりのマージンで優れていた。
論文 参考訳(メタデータ) (2022-07-19T13:29:05Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Progressive Localization Networks for Language-based Moment Localization [56.54450664871467]
本稿では,言語に基づくモーメントローカライゼーションの課題に焦点を当てる。
既存のほとんどの手法は、まず時間長の候補モーメントをサンプリングし、そのモーメントを決定するために与えられたクエリとマッチングする。
本稿では,ターゲットモーメントを粗い方法で段階的に局所化する多段階プログレッシブ・ローカライゼーション・ネットワーク(PLN)を提案する。
論文 参考訳(メタデータ) (2021-02-02T03:45:59Z) - VLANet: Video-Language Alignment Network for Weakly-Supervised Video
Moment Retrieval [21.189093631175425]
ビデオモーメント検索(英語: Video Moment Retrieval、VMR)は、自然言語クエリで指定された未編集ビデオの時間モーメントをローカライズするタスクである。
本稿では、弱い教師付き方式(wVMR)でVMRを実行する方法を検討する。
実験の結果,Charades-STAおよびDiDeMoデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-24T07:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。