論文の概要: WAVER: Writing-style Agnostic Video Retrieval via Distilling
Vision-Language Models Through Open-Vocabulary Knowledge
- arxiv url: http://arxiv.org/abs/2312.09507v1
- Date: Fri, 15 Dec 2023 03:17:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 17:28:26.573020
- Title: WAVER: Writing-style Agnostic Video Retrieval via Distilling
Vision-Language Models Through Open-Vocabulary Knowledge
- Title(参考訳): WAVER:オープンボキャブラリ知識による視覚言語モデルの蒸留による筆記型ビデオ検索
- Authors: Huy Le, Tung Kieu, Anh Nguyen, Ngan Le
- Abstract要約: WAVERはドメイン間知識の蒸留機構であり,書式知能に対処するための手法である。
WAVERは、事前学習された視覚言語モデルに固有のオープン語彙特性を活かし、教師モデルから教師モデルへのテキストベースの知識の伝達に暗黙の知識蒸留アプローチを採用している。
- 参考スコア(独自算出の注目度): 12.034917651508524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-video retrieval, a prominent sub-field within the broader domain of
multimedia content management, has witnessed remarkable growth and innovation
over the past decade. However, existing methods assume the video scenes are
consistent and the description annotators are unbiased. These limitations fail
to align with fluid real-world scenarios, and descriptions can be influenced by
annotator biases, diverse writing styles, and varying textual perspectives. To
overcome the aforementioned problems, we introduce WAVER, a cross-domain
knowledge distillation mechanism designed to tackle the challenge of handling
writing-style agnostics. WAVER capitalizes on the open-vocabulary properties
inherent in pre-trained vision-language models and employs an implicit
knowledge distillation approach to transfer text-based knowledge from a teacher
model to a vision-based student. Empirical studies conducted across four
standard benchmark datasets, encompassing various settings, provide compelling
evidence that \WAVER can achieve state-of-the-art performance in text-video
retrieval tasks while handling writing-style variations.
- Abstract(参考訳): テキストビデオ検索は、マルチメディアコンテンツ管理の分野において目立ったサブフィールドであり、過去10年間で著しい成長とイノベーションを目の当たりにしている。
しかし、既存の手法では、ビデオシーンは一貫性があり、説明注釈は偏っていないと仮定している。
これらの制限は現実の流動的なシナリオと一致せず、記述は注釈のバイアス、多彩な書き込みスタイル、様々なテキストの観点の影響を受けうる。
上述した問題を克服するために,書字型不可知論に対処するためのクロスドメイン知識蒸留機構であるWAVERを導入する。
WAVERは、事前学習された視覚言語モデルに固有のオープン語彙特性を活かし、教師モデルから教師モデルへのテキストベースの知識の伝達に暗黙の知識蒸留アプローチを採用している。
さまざまな設定を含む4つの標準ベンチマークデータセットで実施された実証研究は、‘WAVER’がテキストビデオ検索タスクにおいて、書き込みスタイルのバリエーションを処理しながら、最先端のパフォーマンスを達成できるという説得力のある証拠を提供する。
関連論文リスト
- SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文 参考訳(メタデータ) (2024-04-22T10:23:59Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。
レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。
我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文 参考訳(メタデータ) (2022-06-06T04:06:21Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - External Knowledge Augmented Text Visual Question Answering [0.6445605125467573]
本稿では,視覚言語理解タスクのための標準マルチモーダルトランスフォーマー上で知識を抽出,フィルタリング,エンコードするフレームワークを提案する。
2つの公開データセット上で、最先端のデータセットに匹敵する結果を生成する。
論文 参考訳(メタデータ) (2021-08-22T13:21:58Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。