論文の概要: Video-adverb retrieval with compositional adverb-action embeddings
- arxiv url: http://arxiv.org/abs/2309.15086v1
- Date: Tue, 26 Sep 2023 17:31:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 12:42:39.422550
- Title: Video-adverb retrieval with compositional adverb-action embeddings
- Title(参考訳): 合成副詞アクション埋め込みによるビデオ・アドバーブ検索
- Authors: Thomas Hummel, Otniel-Bogdan Mercea, A. Sophia Koepke, Zeynep Akata
- Abstract要約: ビデオの中のアクションを記述する副詞を検索することは、きめ細かいビデオを理解するための重要なステップとなる。
本稿では,ビデオの埋め込みと合成副詞アクションテキストの埋め込みを一致させる,ビデオから副詞検索のためのフレームワークを提案する。
提案手法は,ビデオ・アドバブ検索のための最新の5つのベンチマークにおいて,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 59.45164042078649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieving adverbs that describe an action in a video poses a crucial step
towards fine-grained video understanding. We propose a framework for
video-to-adverb retrieval (and vice versa) that aligns video embeddings with
their matching compositional adverb-action text embedding in a joint embedding
space. The compositional adverb-action text embedding is learned using a
residual gating mechanism, along with a novel training objective consisting of
triplet losses and a regression target. Our method achieves state-of-the-art
performance on five recent benchmarks for video-adverb retrieval. Furthermore,
we introduce dataset splits to benchmark video-adverb retrieval for unseen
adverb-action compositions on subsets of the MSR-VTT Adverbs and ActivityNet
Adverbs datasets. Our proposed framework outperforms all prior works for the
generalisation task of retrieving adverbs from videos for unseen adverb-action
compositions. Code and dataset splits are available at
https://hummelth.github.io/ReGaDa/.
- Abstract(参考訳): ビデオ中のアクションを記述する副詞を取得することは、きめ細かいビデオ理解に向けて重要なステップとなる。
本稿では,ビデオの埋め込みと合成副詞アクションのテキストの埋め込みを協調的に結合する,ビデオから副詞検索のためのフレームワークを提案する。
三重項損失と回帰目標からなる新たな訓練目標とともに、残差ゲーティング機構を用いて合成副詞アクションテキスト埋め込みを学習する。
提案手法は,最近の5つのベンチマークによるビデオ・アドバブ検索の最先端性能を実現する。
さらに,MSR-VTT Adverbs と ActivityNet Adverbs のデータセットのサブセット上で,ビデオ・アドバーブ検索のベンチマークを行うために,データセット分割を導入する。
提案するフレームワークは,ビデオから副詞を取り出す一般化タスクにおいて,先行するすべての作業に勝る。
コードとデータセットの分割はhttps://hummelth.github.io/ReGaDa/で確認できる。
関連論文リスト
- NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality [52.08735848128973]
本研究では,映像言語モデル(VidL)のオブジェクト間の合成,属性,行動,それらの関係を理解する能力について検討する。
負のテキストを付加したビデオテキストデータを用いて合成理解を向上させるNAVEROと呼ばれるトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T15:27:06Z) - SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文 参考訳(メタデータ) (2024-04-22T10:23:59Z) - Reasoning over the Behaviour of Objects in Video-Clips for Adverb-Type Recognition [54.938128496934695]
本稿では,ビデオクリップから抽出したオブジェクトの振る舞いを理由として,クリップの対応する副詞型を認識するための新しいフレームワークを提案する。
具体的には、生のビデオクリップから人間の解釈可能な物体の挙動を抽出する新しいパイプラインを提案する。
生のビデオクリップから抽出したオブジェクト-振る舞い-ファクトのデータセットを2つリリースする。
論文 参考訳(メタデータ) (2023-07-09T09:04:26Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - How Do You Do It? Fine-Grained Action Understanding with Pseudo-Adverbs [52.042261549764326]
そこで本研究では,様々な行動にまたがる副詞を認識する手法を提案する。
提案手法は,複数の副詞の擬似ラベルを用いた半教師付き学習を用いる。
また、副詞がきめ細かな行動とどのように関連しているかを示す。
論文 参考訳(メタデータ) (2022-03-23T11:53:41Z) - Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。
本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。
本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文 参考訳(メタデータ) (2021-03-09T08:17:17Z) - Semantic Grouping Network for Video Captioning [11.777063873936598]
SGNは、部分的にデコードされたキャプションの最も識別された単語フレーズをキャプチャするアルゴリズムを学習する。
復号された単語からの継続的なフィードバックにより、SGNは部分的に復号されたキャプションに対応するビデオ表現を動的に更新することができる。
SGNは、MSVDおよびMSR-VTTデータセット上のCIDEr-Dスコアにおいて、2.1%pと2.4%pのマージンでランナアップ法を上回り、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-02-01T13:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。