論文の概要: BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sentence Grounding in Videos
- arxiv url: http://arxiv.org/abs/2312.00083v2
- Date: Thu, 18 Jul 2024 11:01:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 22:00:54.965854
- Title: BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sentence Grounding in Videos
- Title(参考訳): BAM-DETR:ビデオにおける時間的接地のための境界配向モーメント検出変換器
- Authors: Pilhyeon Lee, Hyeran Byun,
- Abstract要約: 時間文の接頭辞は、言語記述に関連するモーメントをローカライズすることを目的としている。
境界指向モーメントの新たな定式化を提案する。
提案手法の有効性を3つのベンチマークで検証した。
- 参考スコア(独自算出の注目度): 19.280799998526636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal sentence grounding aims to localize moments relevant to a language description. Recently, DETR-like approaches achieved notable progress by predicting the center and length of a target moment. However, they suffer from the issue of center misalignment raised by the inherent ambiguity of moment centers, leading to inaccurate predictions. To remedy this problem, we propose a novel boundary-oriented moment formulation. In our paradigm, the model no longer needs to find the precise center but instead suffices to predict any anchor point within the interval, from which the boundaries are directly estimated. Based on this idea, we design a boundary-aligned moment detection transformer, equipped with a dual-pathway decoding process. Specifically, it refines the anchor and boundaries within parallel pathways using global and boundary-focused attention, respectively. This separate design allows the model to focus on desirable regions, enabling precise refinement of moment predictions. Further, we propose a quality-based ranking method, ensuring that proposals with high localization qualities are prioritized over incomplete ones. Experiments on three benchmarks validate the effectiveness of the proposed methods. The code is available at https://github.com/Pilhyeon/BAM-DETR.
- Abstract(参考訳): 時間文グラウンドディングは、言語記述に関連するモーメントをローカライズすることを目的としている。
近年、DETRのようなアプローチは目標モーメントの中心と長さを予測することで顕著な進歩を遂げた。
しかし、それらは、モーメントセンターの本質的な曖昧さによって引き起こされる中心的不整合の問題に悩まされ、不正確な予測につながった。
この問題を解決するために,我々は境界指向モーメントの新たな定式化を提案する。
我々のパラダイムでは、モデルはもはや正確な中心を見つける必要はなく、その代わりに、境界が直接推定される間隔内のアンカーポイントを予測するのに十分である。
このアイデアに基づいて、デュアルパスの復号処理を備えた境界整列モーメント検出変換器を設計する。
具体的には、グローバルとバウンダリに焦点をあてて、並列経路内のアンカーとバウンダリをそれぞれ洗練する。
この分離された設計により、モデルは望ましい領域に集中することができ、モーメント予測を正確に洗練することができる。
さらに、不完全なものよりも、高い位置化特性を持つ提案が優先されるように、品質ベースのランキング手法を提案する。
提案手法の有効性を3つのベンチマークで検証した。
コードはhttps://github.com/Pilhyeon/BAM-DETRで公開されている。
関連論文リスト
- Dynamic Position Transformation and Boundary Refinement Network for Left Atrial Segmentation [17.09918110723713]
左心房細動は不整脈(心房細動)の診断において重要な手法である。
LAセグメンテーションの現在のほとんどの方法は、入力データがオブジェクト指向のセンタートリミングによって取得されると厳密に仮定している。
本稿では,これらの問題に対処するための新しい動的位置変換と境界改善ネットワーク(DPBNet)を提案する。
論文 参考訳(メタデータ) (2024-07-07T22:09:35Z) - FRAME: A Modular Framework for Autonomous Map-merging: Advancements in the Field [12.247977717070773]
本稿では,エゴセントリックなマルチロボット探査における3次元点雲マップの融合について述べる。
提案手法は、最先端の場所認識と学習記述子を利用して、地図間の重複を効率的に検出する。
提案手法の有効性は,ロボット探査の複数のフィールドミッションを通じて実証された。
論文 参考訳(メタデータ) (2024-04-27T20:54:15Z) - Centre Stage: Centricity-based Audio-Visual Temporal Action Detection [26.42447737005981]
我々は,2つのモードを融合させるために,マルチスケールのクロスアテンションを用いて,オーディオモダリティを組み込む戦略を探求する。
本稿では,アクションセンタへのタイムステップの近さを推定する新しいネットワークヘッドを提案し,その中心性スコア(centity score)と呼ぶ。
論文 参考訳(メタデータ) (2023-11-28T03:02:00Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Implicit and Efficient Point Cloud Completion for 3D Single Object
Tracking [9.372859423951349]
適応リファイン予測(ARP)とターゲット知識伝達(TKT)の2つの新しいモジュールを紹介する。
本モデルでは,より少ない計算量を維持しながら,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-09-01T15:11:06Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Point-Level Temporal Action Localization: Bridging Fully-supervised
Proposals to Weakly-supervised Losses [84.2964408497058]
point-level temporal action localization (ptal) は、各アクションインスタンスに対して1つのタイムスタンプアノテーションで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
既存の手法ではフレームレベルの予測パラダイムを採用し、スパース単一フレームラベルから学習する。
本稿では,ポイントレベルアノテーションの提案に基づく予測パラダイムを検討する。
論文 参考訳(メタデータ) (2020-12-15T12:11:48Z) - Making Affine Correspondences Work in Camera Geometry Computation [62.7633180470428]
局所的な特徴は、ポイント・ツー・ポイント対応ではなく、リージョン・ツー・リージョンを提供する。
本稿では,全モデル推定パイプラインにおいて,地域間マッチングを効果的に活用するためのガイドラインを提案する。
実験により、アフィンソルバはより高速な実行時にポイントベースソルバに匹敵する精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-07-20T12:07:48Z) - Robust 6D Object Pose Estimation by Learning RGB-D Features [59.580366107770764]
本稿では、この局所最適問題を解くために、回転回帰のための離散連続的な新しい定式化を提案する。
我々はSO(3)の回転アンカーを均一にサンプリングし、各アンカーから目標への制約付き偏差を予測し、最適な予測を選択するための不確実性スコアを出力する。
LINEMOD と YCB-Video の2つのベンチマーク実験により,提案手法が最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-02-29T06:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。