論文の概要: NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality
- arxiv url: http://arxiv.org/abs/2408.09511v1
- Date: Sun, 18 Aug 2024 15:27:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 20:20:04.360488
- Title: NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality
- Title(参考訳): ナヴェロ:ビデオ言語構成のための細粒度セマンティックを解き放つ
- Authors: Chaofan Tao, Gukyeong Kwon, Varad Gunjal, Hao Yang, Zhaowei Cai, Yonatan Dukler, Ashwin Swaminathan, R. Manmatha, Colin Jon Taylor, Stefano Soatto,
- Abstract要約: 本研究では,映像言語モデル(VidL)のオブジェクト間の合成,属性,行動,それらの関係を理解する能力について検討する。
負のテキストを付加したビデオテキストデータを用いて合成理解を向上させるNAVEROと呼ばれるトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 52.08735848128973
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study the capability of Video-Language (VidL) models in understanding compositions between objects, attributes, actions and their relations. Composition understanding becomes particularly challenging for video data since the compositional relations rapidly change over time in videos. We first build a benchmark named AARO to evaluate composition understanding related to actions on top of spatial concepts. The benchmark is constructed by generating negative texts with incorrect action descriptions for a given video and the model is expected to pair a positive text with its corresponding video. Furthermore, we propose a training method called NAVERO which utilizes video-text data augmented with negative texts to enhance composition understanding. We also develop a negative-augmented visual-language matching loss which is used explicitly to benefit from the generated negative text. We compare NAVERO with other state-of-the-art methods in terms of compositional understanding as well as video-text retrieval performance. NAVERO achieves significant improvement over other methods for both video-language and image-language composition understanding, while maintaining strong performance on traditional text-video retrieval tasks.
- Abstract(参考訳): 本研究では,映像言語モデル(VidL)のオブジェクト間の合成,属性,行動,それらの関係を理解する能力について検討する。
コンポジションの理解は、ビデオ内のコンポジション関係が時間とともに急速に変化するため、ビデオデータにとって特に困難になる。
我々はまず,空間概念上の行動に関する構成理解を評価するために,AAROというベンチマークを構築した。
このベンチマークは、あるビデオに対して誤った動作記述を持つ負のテキストを生成して構築され、そのモデルが正のテキストと対応するビデオとをペアリングすることが期待されている。
さらに、負のテキストを付加したビデオテキストデータを用いて合成理解を向上させるNAVEROと呼ばれるトレーニング手法を提案する。
また、生成した負のテキストの恩恵を受けるために明示的に使用される、負増分された視覚言語マッチング損失も開発した。
我々は、NAVEROと他の最先端の手法を比較し、構成的理解とビデオテキスト検索性能を比較した。
NAVEROは、従来のテキスト・ビデオ検索タスクにおいて高い性能を維持しつつ、ビデオ言語と画像言語の両方の合成理解のための他の手法よりも大幅に改善されている。
関連論文リスト
- T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - Video-adverb retrieval with compositional adverb-action embeddings [59.45164042078649]
ビデオの中のアクションを記述する副詞を検索することは、きめ細かいビデオを理解するための重要なステップとなる。
本稿では,ビデオの埋め込みと合成副詞アクションテキストの埋め込みを一致させる,ビデオから副詞検索のためのフレームワークを提案する。
提案手法は,ビデオ・アドバブ検索のための最新の5つのベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-26T17:31:02Z) - ICSVR: Investigating Compositional and Syntactic Understanding in Video Retrieval Models [6.073813559982129]
ビデオ検索は、テキストキャプションまたはリバーサが与えられたビデオデータベースから、地上の真実のビデオを取得することを含む。
我々は,MSRVTT,MSVD,DIDEMOなどの標準ベンチマークを用いて,ビデオ検索モデルの合成と構文的理解を評価する。
ビデオ理解におけるオブジェクトや属性と比較して,アクションや構文が軽微な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-06-28T20:06:36Z) - Verbs in Action: Improving verb understanding in video-language models [128.87443209118726]
CLIPに基づく最先端のビデオ言語モデルは、動詞の理解が限られていることが示されている。
我々は,CLIPに基づくビデオ言語モデルの動詞理解を改善するために,新しいVerb-Focused Contrastiveフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:57:01Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。