論文の概要: Rethinking the Video Sampling and Reasoning Strategies for Temporal
Sentence Grounding
- arxiv url: http://arxiv.org/abs/2301.00514v1
- Date: Mon, 2 Jan 2023 03:38:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:09:42.301206
- Title: Rethinking the Video Sampling and Reasoning Strategies for Temporal
Sentence Grounding
- Title(参考訳): 時間文接地のためのビデオサンプリングと推論戦略の再考
- Authors: Jiahao Zhu, Daizong Liu, Pan Zhou, Xing Di, Yu Cheng, Song Yang,
Wenzheng Xu, Zichuan Xu, Yao Wan, Lichao Sun, Zeyu Xiong
- Abstract要約: 時間的文グラウンドディング(TSG)は、特定のセグメントの時間的境界を文問合せによってビデオから識別することを目的としている。
本稿では,TSG のための新しいサイムズサンプリング・推論ネットワーク (SSRN) を提案し,シムズサンプリング機構を導入し,追加のコンテキストフレームを生成する。
- 参考スコア(独自算出の注目度): 64.99924160432144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal sentence grounding (TSG) aims to identify the temporal boundary of a
specific segment from an untrimmed video by a sentence query. All existing
works first utilize a sparse sampling strategy to extract a fixed number of
video frames and then conduct multi-modal interactions with query sentence for
reasoning. However, we argue that these methods have overlooked two
indispensable issues: 1) Boundary-bias: The annotated target segment generally
refers to two specific frames as corresponding start and end timestamps. The
video downsampling process may lose these two frames and take the adjacent
irrelevant frames as new boundaries. 2) Reasoning-bias: Such incorrect new
boundary frames also lead to the reasoning bias during frame-query interaction,
reducing the generalization ability of model. To alleviate above limitations,
in this paper, we propose a novel Siamese Sampling and Reasoning Network (SSRN)
for TSG, which introduces a siamese sampling mechanism to generate additional
contextual frames to enrich and refine the new boundaries. Specifically, a
reasoning strategy is developed to learn the inter-relationship among these
frames and generate soft labels on boundaries for more accurate frame-query
reasoning. Such mechanism is also able to supplement the absent consecutive
visual semantics to the sampled sparse frames for fine-grained activity
understanding. Extensive experiments demonstrate the effectiveness of SSRN on
three challenging datasets.
- Abstract(参考訳): 時間的文グラウンドディング(TSG)は、特定のセグメントの時間的境界を文問合せによってビデオから識別することを目的としている。
既存のすべての作業は、まずスパースサンプリング戦略を使用して、一定数のビデオフレームを抽出し、その後、推論のためのクエリ文とマルチモーダルインタラクションを実行する。
しかし、これらの手法は2つの必須問題を見落としていると論じる。
1)境界バイアス: 注釈付き対象セグメントは一般的に2つの特定のフレームを対応する開始と終了のタイムスタンプとして参照する。
ビデオダウンサンプリングプロセスは2つのフレームを失い、隣接する無関係なフレームを新しいバウンダリとして取り込む。
2)推論バイアス:このような不正確な境界フレームは、フレーム-クエリ間相互作用における推論バイアスにもつながり、モデルの一般化能力が低下する。
上記の制約を緩和するため,本稿では,新たな境界を豊かにするために追加の文脈フレームを生成するシアームサンプリング機構を導入するtsgのための新しいシアームサンプリング推論ネットワーク(ssrn)を提案する。
具体的には、これらのフレーム間の相互関係を学習し、より正確なフレームクエリ推論のために境界上のソフトラベルを生成するための推論戦略を開発する。
このようなメカニズムは、きめ細かなアクティビティ理解のために、サンプルされたスパースフレームに欠如する連続的なビジュアルセマンティクスを補うこともできる。
広範な実験により、3つの挑戦的データセットにおけるssrnの有効性が実証された。
関連論文リスト
- Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Multi-Scale Self-Contrastive Learning with Hard Negative Mining for
Weakly-Supervised Query-based Video Grounding [27.05117092371221]
本稿では,弱教師付き環境下での問合せに基づくビデオグラウンド処理に対処するための自己コントラスト学習フレームワークを提案する。
まず,クエリのセマンティクスを参照するフレームワイドマッチングスコアを学習し,前景フレームを予測できる新しいグラウンド方式を提案する。
第二に、予測されたフレームは比較的粗いので、隣接するフレームに類似した外観を示すため、粗いから微妙な対照的な学習パラダイムを提案する。
論文 参考訳(メタデータ) (2022-03-08T04:01:08Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z) - SF-Net: Single-Frame Supervision for Temporal Action Localization [60.202516362976645]
単一フレームの監視は、低いアノテーションのオーバーヘッドを維持しながら、追加の時間的アクション信号を導入します。
本研究では,SF-Netと呼ばれる単一フレーム監視システムを提案する。
SF-Netは、セグメントローカライゼーションと単一フレームローカライゼーションの両方の観点から、最先端の弱い教師付き手法を大幅に改善する。
論文 参考訳(メタデータ) (2020-03-15T15:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。