論文の概要: Exploiting Context Information for Generic Event Boundary Captioning
- arxiv url: http://arxiv.org/abs/2207.01050v1
- Date: Sun, 3 Jul 2022 14:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:24:49.291946
- Title: Exploiting Context Information for Generic Event Boundary Captioning
- Title(参考訳): ジェネリックイベント境界キャプションのためのコンテキスト情報のエクスプロイト
- Authors: Jinrui Zhang, Teng Wang, Feng Zheng, Ran Cheng, Ping Luo
- Abstract要約: ジェネリックイベント境界キャプション(GEBC)は、与えられた時間境界の状態変化を記述する3つの文を生成することを目的としている。
この問題に対処するために、ビデオ全体を直接入力とし、すべての境界に対するキャプションを並列に生成するモデルを設計する。
- 参考スコア(独自算出の注目度): 51.53874954616367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generic Event Boundary Captioning (GEBC) aims to generate three sentences
describing the status change for a given time boundary. Previous methods only
process the information of a single boundary at a time, which lacks utilization
of video context information. To tackle this issue, we design a model that
directly takes the whole video as input and generates captions for all
boundaries parallelly. The model could learn the context information for each
time boundary by modeling the boundary-boundary interactions. Experiments
demonstrate the effectiveness of context information. The proposed method
achieved a 72.84 score on the test set, and we reached the $2^{nd}$ place in
this challenge. Our code is available at:
\url{https://github.com/zjr2000/Context-GEBC}
- Abstract(参考訳): ジェネリックイベント境界キャプション(GEBC)は、与えられた時間境界の状態変化を記述する3つの文を生成することを目的としている。
従来の手法では、ビデオコンテキスト情報の利用が欠如している1つの境界の情報のみを処理する。
この問題に取り組むために,ビデオ全体を直接入力として,すべての境界に対するキャプションを並列に生成するモデルを設計した。
モデルは境界境界境界相互作用をモデル化することにより、時間境界毎のコンテキスト情報を学ぶことができる。
実験は文脈情報の有効性を示す。
提案手法は, テストセットの72.84点を達成し, この課題において2〜2ドルに到達した。
私たちのコードは、 \url{https://github.com/zjr2000/context-gebc} で利用可能です。
関連論文リスト
- ObjectNLQ @ Ego4D Episodic Memory Challenge 2024 [51.57555556405898]
本稿では,CVPR 2024におけるEgo4D Episodic Memory Benchmarkの自然言語クエリトラックとゴールステップトラックについて紹介する。
どちらの課題も、テキストクエリを使って長いビデオシーケンス内のアクションをローカライズする必要がある。
我々は、オブジェクトブランチを組み込んだ新しいアプローチObjectNLQを導入し、ビデオ表現を詳細なオブジェクト情報で拡張する。
論文 参考訳(メタデータ) (2024-06-22T07:57:58Z) - EtC: Temporal Boundary Expand then Clarify for Weakly Supervised Video
Grounding with Multimodal Large Language Model [63.93372634950661]
不完全な境界を拡大する上で、より価値のある情報を導入しながら、元の時間的内容の整合性を維持する新しい視点を提案する。
ビデオの連続性、すなわち隣接するフレーム間の視覚的類似性により、我々は、初期擬似境界内で各フレームにアノテートするために強力なマルチモーダル大言語モデル(MLLM)を使用する。
論文 参考訳(メタデータ) (2023-12-05T04:15:56Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - HTNet: Anchor-free Temporal Action Localization with Hierarchical
Transformers [19.48000379201692]
時間的アクションローカライゼーション(TAL: Temporal Action Localization)は、ビデオ内のアクションの集合を識別するタスクである。
我々は,ビデオから開始時間,終了時間,クラス>三つ組のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。
本手法は,2つのTALベンチマークデータセット上で,正確なアクションインスタンスと最先端性能をローカライズする方法を実証する。
論文 参考訳(メタデータ) (2022-07-20T05:40:03Z) - Submission to Generic Event Boundary Detection Challenge@CVPR 2022:
Local Context Modeling and Global Boundary Decoding Approach [46.97359231258202]
ジェネリックイベント境界検出(GEBD)はビデオ理解において重要な課題である。
GEBDタスクに対する局所コンテキストモデリングと大域境界復号化手法を提案する。
論文 参考訳(メタデータ) (2022-06-30T13:19:53Z) - Reading Between the Lines: Exploring Infilling in Visual Narratives [5.28005598366543]
46,200のプロシージャと約340kのペア画像を持つViPTデータセットを新たに提案する。
ビジュアルストーリーテリングの最先端よりも高い手順で,METEORの27.51のスコアを確定的に示す。
論文 参考訳(メタデータ) (2020-10-26T23:09:09Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。