論文の概要: Hypotheses Tree Building for One-Shot Temporal Sentence Localization
- arxiv url: http://arxiv.org/abs/2301.01871v1
- Date: Thu, 5 Jan 2023 01:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 14:00:07.126209
- Title: Hypotheses Tree Building for One-Shot Temporal Sentence Localization
- Title(参考訳): ワンショットテンポラルセンテンス定位のための仮説ツリー構築
- Authors: Daizong Liu, Xiang Fang, Pan Zhou, Xing Di, Weining Lu, Yu Cheng
- Abstract要約: ワンショット時間文のローカライゼーション(ワンショットTSL)は、1つの注釈付きフレームだけでビデオ全体のクエリ情報を取得することを学習する。
我々はMHST(Multiple hypotheses Segment Tree)と呼ばれるワンショットTSLのための有効で斬新な木構造ベースラインを提案する。
MHSTは、不十分なアノテーションの下で、クエリ対応の識別フレーム情報をキャプチャする。
- 参考スコア(独自算出の注目度): 53.82714065005299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given an untrimmed video, temporal sentence localization (TSL) aims to
localize a specific segment according to a given sentence query. Though
respectable works have made decent achievements in this task, they severely
rely on dense video frame annotations, which require a tremendous amount of
human effort to collect. In this paper, we target another more practical and
challenging setting: one-shot temporal sentence localization (one-shot TSL),
which learns to retrieve the query information among the entire video with only
one annotated frame. Particularly, we propose an effective and novel
tree-structure baseline for one-shot TSL, called Multiple Hypotheses Segment
Tree (MHST), to capture the query-aware discriminative frame-wise information
under the insufficient annotations. Each video frame is taken as the leaf-node,
and the adjacent frames sharing the same visual-linguistic semantics will be
merged into the upper non-leaf node for tree building. At last, each root node
is an individual segment hypothesis containing the consecutive frames of its
leaf-nodes. During the tree construction, we also introduce a pruning strategy
to eliminate the interference of query-irrelevant nodes. With our designed
self-supervised loss functions, our MHST is able to generate high-quality
segment hypotheses for ranking and selection with the query. Experiments on two
challenging datasets demonstrate that MHST achieves competitive performance
compared to existing methods.
- Abstract(参考訳): 非トリミングビデオが与えられると、temporal sentence localization(tsl)は、与えられた文クエリに従って特定のセグメントをローカライズすることを目的としている。
優れた作品がこの作業でかなりの成果を上げているが、それらは大量の人的努力を必要とする密集したビデオフレームアノテーションに強く依存している。
本稿では,ビデオ全体の問合せ情報を1つの注釈付きフレームで検索することを学ぶ,ワンショットテンポラル文定位(ワンショットtsl)という,より実用的で困難な設定を目標とした。
特に,MHST(Multiple hypotheses Segment Tree)と呼ばれる一発的TSLのための,効果的な新しい木構造ベースラインを提案する。
各ビデオフレームをリーフノードとし、隣接するフレームを同じ視覚言語意味論を共有することにより、ツリー構築のための上位非リーフノードにマージする。
最終的に、各根ノードは葉ノードの連続したフレームを含む個々のセグメント仮説である。
木構築の過程では,クエリ非関連ノードの干渉を取り除くためのプルーニング戦略も導入する。
我々の設計した自己教師付き損失関数により、MHSTはクエリによるランク付けと選択のための高品質なセグメント仮説を生成することができる。
2つの挑戦的なデータセットの実験は、MHSTが既存の手法と比較して競争力を発揮することを示した。
関連論文リスト
- Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。
以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T16:29:16Z) - Target Adaptive Context Aggregation for Video Scene Graph Generation [36.669700084337045]
本稿では,映像シーングラフ生成(VidSGG)の課題を扱う。
複雑な低レベルエンティティ追跡から関係予測のためのコンテキストモデリングを分離することにより,この課題に対する新しい Em 検出-追跡パラダイムを提案する。
論文 参考訳(メタデータ) (2021-08-18T12:46:28Z) - Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。
TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。
ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T03:13:05Z) - Linguistically Driven Graph Capsule Network for Visual Question
Reasoning [153.76012414126643]
我々は「言語的に駆動されるグラフカプセルネットワーク」と呼ばれる階層的構成推論モデルを提案する。
具体的には,各カプセルを最下層に結合させ,元の質問に1つの単語を埋め込んだ言語的埋め込みを視覚的証拠で橋渡しする。
CLEVRデータセット、CLEVR合成生成テスト、およびFinalQAデータセットの実験は、我々のエンドツーエンドモデルの有効性と構成一般化能力を示す。
論文 参考訳(メタデータ) (2020-03-23T03:34:25Z) - Look Closer to Ground Better: Weakly-Supervised Temporal Grounding of
Sentence in Video [53.69956349097428]
未トリミングビデオと問合せ文が与えられた場合、我々のゴールは、問合せ文に意味的に対応するビデオ内の時間セグメントをローカライズすることである。
本稿では,この問題を粗大な方法で解くための2段階モデルを提案する。
論文 参考訳(メタデータ) (2020-01-25T13:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。