論文の概要: Global2Local: A Joint-Hierarchical Attention for Video Captioning
- arxiv url: http://arxiv.org/abs/2203.06663v1
- Date: Sun, 13 Mar 2022 14:31:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 16:05:45.044516
- Title: Global2Local: A Joint-Hierarchical Attention for Video Captioning
- Title(参考訳): global2local:ビデオキャプションのための共同階層的注意
- Authors: Chengpeng Dai, Fuhai Chen, Xiaoshuai Sun, Rongrong Ji, Qixiang Ye,
Yongjian Wu
- Abstract要約: 本稿では,キークリップ,キーフレーム,キー領域をキャプションモデルに組み込んだ,ビデオキャプションのための新しい階層型アテンションモデルを提案する。
このような連立階層型アテンションモデルは、まずキーフレームを識別するためのグローバルセレクションを行い、続いてガムベルサンプリング操作を行い、キーフレームに基づいてさらにキー領域を識別する。
- 参考スコア(独自算出の注目度): 123.12188554567079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, automatic video captioning has attracted increasing attention,
where the core challenge lies in capturing the key semantic items, like objects
and actions as well as their spatial-temporal correlations from the redundant
frames and semantic content. To this end, existing works select either the key
video clips in a global level~(across multi frames), or key regions within each
frame, which, however, neglect the hierarchical order, i.e., key frames first
and key regions latter. In this paper, we propose a novel joint-hierarchical
attention model for video captioning, which embeds the key clips, the key
frames and the key regions jointly into the captioning model in a hierarchical
manner. Such a joint-hierarchical attention model first conducts a global
selection to identify key frames, followed by a Gumbel sampling operation to
identify further key regions based on the key frames, achieving an accurate
global-to-local feature representation to guide the captioning. Extensive
quantitative evaluations on two public benchmark datasets MSVD and MSR-VTT
demonstrates the superiority of the proposed method over the state-of-the-art
methods.
- Abstract(参考訳): 近年,ビデオの自動キャプションが注目され,オブジェクトやアクションなどの重要なセマンティックな項目のキャプチャや,冗長なフレームやセマンティックな内容からの空間的時間的相関が問題となっている。
この目的のために、既存の作業では、グローバルレベル~(マルチフレーム全体)のキービデオクリップを選択するか、または各フレーム内のキー領域を選択する。
本稿では,映像キャプションモデルにキークリップ,キーフレーム,キー領域を階層的に組み込む,映像キャプションのための統合階層的注意モデルを提案する。
このような共同階層型アテンションモデルは、まず、キーフレームを識別するグローバル選択を行い、続いて、ガムベルサンプリング操作を行い、キーフレームに基づいてさらにキー領域を識別し、キャプションをガイドする正確なグローバル-ローカル特徴表現を実現する。
MSVDとMSR-VTTの2つの公開ベンチマークデータセットの大規模な定量的評価は、提案手法が最先端手法よりも優れていることを示す。
関連論文リスト
- DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - A Challenging Multimodal Video Summary: Simultaneously Extracting and
Generating Keyframe-Caption Pairs from Video [20.579167394855197]
本稿では,タスクの訓練と評価を行うためのマルチモーダル映像要約タスク設定とデータセットを提案する。
対象のタスクは、所定のビデオを複数のキャプチャペアに要約し、それらをリスト可能な形式で表示して、ビデオコンテンツを素早く把握することである。
この課題は実践的な応用として有用であり、研究に値する極めて困難な問題を提示している。
論文 参考訳(メタデータ) (2023-12-04T02:17:14Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - Local-Global Associative Frame Assemble in Video Re-ID [57.7470971197962]
ビデオ列から自動生成されたオブジェクト境界ボックスにおける雑音および非表現フレームは、ビデオ再識別(Re-ID)における識別表現の学習に困難をもたらす
既存の手法の多くは、局所的な部分アライメントまたはグローバルな外観相関によって、ビデオフレームの重要性を個別に評価することで、この問題に対処している。
本研究では,局所的なアライメントとグローバルな相関関係を共同で検討し,相互の促進・強化について考察する。
論文 参考訳(メタデータ) (2021-10-22T19:07:39Z) - Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。
TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。
ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T03:13:05Z) - Watching You: Global-guided Reciprocal Learning for Video-based Person
Re-identification [82.6971648465279]
映像に基づくRe-IDのための新しいグローバルガイド相互学習フレームワークを提案する。
我々のアプローチは他の最先端のアプローチよりも優れたパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2021-03-07T12:27:42Z) - Semantic Grouping Network for Video Captioning [11.777063873936598]
SGNは、部分的にデコードされたキャプションの最も識別された単語フレーズをキャプチャするアルゴリズムを学習する。
復号された単語からの継続的なフィードバックにより、SGNは部分的に復号されたキャプションに対応するビデオ表現を動的に更新することができる。
SGNは、MSVDおよびMSR-VTTデータセット上のCIDEr-Dスコアにおいて、2.1%pと2.4%pのマージンでランナアップ法を上回り、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-02-01T13:40:56Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。