論文の概要: BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal
Sentence Grounding in Videos
- arxiv url: http://arxiv.org/abs/2312.00083v1
- Date: Thu, 30 Nov 2023 07:16:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 17:14:41.019375
- Title: BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal
Sentence Grounding in Videos
- Title(参考訳): BAM-DETR:ビデオにおける時間的接地のための境界配向モーメント検出変換器
- Authors: Pilhyeon Lee, Hyeran Byun
- Abstract要約: 時間文の接頭辞は、言語記述に関連するモーメントをローカライズすることを目的としている。
モーメントセンタ固有のあいまいさによって引き起こされる中心的不整合の問題を克服するために,新しい境界指向モーメント定式化を導入する。
この考え方に基づいて、デュアルパス・デコード処理を備えた境界アラインメント検出変換器(BAM-DETR)を設計する。
- 参考スコア(独自算出の注目度): 22.777711039925673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal sentence grounding aims to localize moments relevant to a language
description. Recently, DETR-like approaches have shown notable progress by
decoding the center and length of a target moment from learnable queries.
However, they suffer from the issue of center misalignment raised by the
inherent ambiguity of moment centers, leading to inaccurate predictions. To
remedy this problem, we introduce a novel boundary-oriented moment formulation.
In our paradigm, the model no longer needs to find the precise center but
instead suffices to predict any anchor point within the interval, from which
the onset and offset are directly estimated. Based on this idea, we design a
Boundary-Aligned Moment Detection Transformer (BAM-DETR), equipped with a
dual-pathway decoding process. Specifically, it refines the anchor and
boundaries within parallel pathways using global and boundary-focused
attention, respectively. This separate design allows the model to focus on
desirable regions, enabling precise refinement of moment predictions. Further,
we propose a quality-based ranking method, ensuring that proposals with high
localization qualities are prioritized over incomplete ones. Extensive
experiments verify the advantages of our methods, where our model records new
state-of-the-art results on three benchmarks. Code is at
https://github.com/Pilhyeon/BAM-DETR.
- Abstract(参考訳): 時間文グラウンドディングは、言語記述に関連するモーメントをローカライズすることを目的としている。
近年、detrのようなアプローチは学習可能なクエリからターゲットモーメントの中心と長さをデコードすることで顕著な進歩を示している。
しかし、それらはモーメントセンターの本質的な曖昧さによって引き起こされる中心的不一致の問題に悩まされ、不正確な予測につながった。
この問題を解決するために,新しい境界指向モーメント定式化を提案する。
我々のパラダイムでは、モデルはもはや正確な中心を見つける必要はなく、その代わりに、開始とオフセットが直接推定される区間内のアンカーポイントを予測するのに十分です。
この考え方に基づいて、デュアルパス・デコード処理を備えた境界アラインメント検出変換器(BAM-DETR)を設計する。
具体的には、グローバルおよびバウンダリにフォーカスして、並列経路内のアンカーとバウンダリを洗練する。
この別々の設計により、モデルは望ましい領域に集中することができ、モーメント予測を正確に洗練することができる。
さらに,高い局所性を有する提案が不完全な提案よりも優先されるように,品質に基づくランク付け手法を提案する。
提案手法の利点を検証し、3つのベンチマークで最新の結果を記録した。
コードはhttps://github.com/Pilhyeon/BAM-DETRにある。
関連論文リスト
- Dynamic Position Transformation and Boundary Refinement Network for Left Atrial Segmentation [17.09918110723713]
左心房細動は不整脈(心房細動)の診断において重要な手法である。
LAセグメンテーションの現在のほとんどの方法は、入力データがオブジェクト指向のセンタートリミングによって取得されると厳密に仮定している。
本稿では,これらの問題に対処するための新しい動的位置変換と境界改善ネットワーク(DPBNet)を提案する。
論文 参考訳(メタデータ) (2024-07-07T22:09:35Z) - FRAME: A Modular Framework for Autonomous Map Merging: Advancements in the Field [12.247977717070773]
本稿では,エゴセントリックなマルチロボット探査における3次元点雲マップの融合について述べる。
提案手法は、最先端の場所認識と学習記述子を利用して、地図間の重複を効率的に検出する。
提案手法の有効性は,ロボット探査の複数のフィールドミッションを通じて実証された。
論文 参考訳(メタデータ) (2024-04-27T20:54:15Z) - Centre Stage: Centricity-based Audio-Visual Temporal Action Detection [26.42447737005981]
我々は,2つのモードを融合させるために,マルチスケールのクロスアテンションを用いて,オーディオモダリティを組み込む戦略を探求する。
本稿では,アクションセンタへのタイムステップの近さを推定する新しいネットワークヘッドを提案し,その中心性スコア(centity score)と呼ぶ。
論文 参考訳(メタデータ) (2023-11-28T03:02:00Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Implicit and Efficient Point Cloud Completion for 3D Single Object
Tracking [9.372859423951349]
適応リファイン予測(ARP)とターゲット知識伝達(TKT)の2つの新しいモジュールを紹介する。
本モデルでは,より少ない計算量を維持しながら,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-09-01T15:11:06Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Point-Level Temporal Action Localization: Bridging Fully-supervised
Proposals to Weakly-supervised Losses [84.2964408497058]
point-level temporal action localization (ptal) は、各アクションインスタンスに対して1つのタイムスタンプアノテーションで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
既存の手法ではフレームレベルの予測パラダイムを採用し、スパース単一フレームラベルから学習する。
本稿では,ポイントレベルアノテーションの提案に基づく予測パラダイムを検討する。
論文 参考訳(メタデータ) (2020-12-15T12:11:48Z) - Making Affine Correspondences Work in Camera Geometry Computation [62.7633180470428]
局所的な特徴は、ポイント・ツー・ポイント対応ではなく、リージョン・ツー・リージョンを提供する。
本稿では,全モデル推定パイプラインにおいて,地域間マッチングを効果的に活用するためのガイドラインを提案する。
実験により、アフィンソルバはより高速な実行時にポイントベースソルバに匹敵する精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-07-20T12:07:48Z) - Robust 6D Object Pose Estimation by Learning RGB-D Features [59.580366107770764]
本稿では、この局所最適問題を解くために、回転回帰のための離散連続的な新しい定式化を提案する。
我々はSO(3)の回転アンカーを均一にサンプリングし、各アンカーから目標への制約付き偏差を予測し、最適な予測を選択するための不確実性スコアを出力する。
LINEMOD と YCB-Video の2つのベンチマーク実験により,提案手法が最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-02-29T06:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。