論文の概要: WAVER: Writing-style Agnostic Text-Video Retrieval via Distilling
Vision-Language Models Through Open-Vocabulary Knowledge
- arxiv url: http://arxiv.org/abs/2312.09507v3
- Date: Wed, 10 Jan 2024 21:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 02:56:29.112830
- Title: WAVER: Writing-style Agnostic Text-Video Retrieval via Distilling
Vision-Language Models Through Open-Vocabulary Knowledge
- Title(参考訳): WAVER:オープンボキャブラリ知識による視覚言語モデルの蒸留による書体スタイルのテキストビデオ検索
- Authors: Huy Le, Tung Kieu, Anh Nguyen, Ngan Le
- Abstract要約: $texttWAVER$は、視覚言語モデルによるクロスドメイン知識蒸留フレームワークである。
$texttWAVER$は、事前訓練された視覚言語モデルにあるオープン語彙プロパティに注目する。
テキストビデオ検索タスクでは、書き込みスタイルのバリエーションを処理しながら、最先端のパフォーマンスを実現することができる。
- 参考スコア(独自算出の注目度): 12.034917651508524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-video retrieval, a prominent sub-field within the domain of multimodal
information retrieval, has witnessed remarkable growth in recent years.
However, existing methods assume video scenes are consistent with unbiased
descriptions. These limitations fail to align with real-world scenarios since
descriptions can be influenced by annotator biases, diverse writing styles, and
varying textual perspectives. To overcome the aforementioned problems, we
introduce $\texttt{WAVER}$, a cross-domain knowledge distillation framework via
vision-language models through open-vocabulary knowledge designed to tackle the
challenge of handling different writing styles in video descriptions.
$\texttt{WAVER}$ capitalizes on the open-vocabulary properties that lie in
pre-trained vision-language models and employs an implicit knowledge
distillation approach to transfer text-based knowledge from a teacher model to
a vision-based student. Empirical studies conducted across four standard
benchmark datasets, encompassing various settings, provide compelling evidence
that $\texttt{WAVER}$ can achieve state-of-the-art performance in text-video
retrieval task while handling writing-style variations. The code is available
at: https://github.com/Fsoft-AIC/WAVER
- Abstract(参考訳): マルチモーダル情報検索分野において著名なサブフィールドであるテキスト・ビデオ検索は近年著しい成長を遂げている。
しかし、既存の手法では、ビデオシーンは偏りのない説明と一致していると仮定している。
これらの制限は、アノテータバイアス、多様な書き込みスタイル、さまざまなテキスト視点の影響を受けやすいため、現実世界のシナリオと一致しない。
上記の問題を克服するために,映像記述における異なる書き方を扱う課題に対処するために設計されたオープンボキャブラリー知識を通じて,視覚言語モデルを通じたクロスドメイン知識蒸留フレームワークである$\textt{waver}$を導入する。
$\texttt{WAVER}$は、事前訓練された視覚言語モデルに含まれ、教師モデルから教師モデルにテキストベースの知識を伝達するために暗黙の知識蒸留アプローチを採用するオープン語彙特性に重きを置いている。
様々な設定を包含する4つの標準ベンチマークデータセットで実施された実証研究は、テキスト・ビデオ検索タスクにおいて$\texttt{waver}$が文章スタイルのバリエーションを処理しながら最先端のパフォーマンスを達成できるという説得力のある証拠を提供する。
コードは、https://github.com/Fsoft-AIC/WAVERで入手できる。
関連論文リスト
- SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文 参考訳(メタデータ) (2024-04-22T10:23:59Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。
レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。
我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文 参考訳(メタデータ) (2022-06-06T04:06:21Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - External Knowledge Augmented Text Visual Question Answering [0.6445605125467573]
本稿では,視覚言語理解タスクのための標準マルチモーダルトランスフォーマー上で知識を抽出,フィルタリング,エンコードするフレームワークを提案する。
2つの公開データセット上で、最先端のデータセットに匹敵する結果を生成する。
論文 参考訳(メタデータ) (2021-08-22T13:21:58Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。