論文の概要: Percept, Chat, and then Adapt: Multimodal Knowledge Transfer of
Foundation Models for Open-World Video Recognition
- arxiv url: http://arxiv.org/abs/2402.18951v1
- Date: Thu, 29 Feb 2024 08:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 15:33:14.521893
- Title: Percept, Chat, and then Adapt: Multimodal Knowledge Transfer of
Foundation Models for Open-World Video Recognition
- Title(参考訳): 認識, チャット, そして適応: オープンワールドビデオ認識のための基礎モデルのマルチモーダルな知識伝達
- Authors: Boyu Chen, Siran Chen, Kunchang Li, Qinglin Xu, Yu Qiao, Yali Wang
- Abstract要約: オープンワールドビデオ認識を促進するための汎用的な知識伝達パイプラインを提案する。
私たちはPCAと命名し、Percept、Chat、Adaptの3つのステージに基づいています。
提案手法は,3つのデータセットすべてに対して最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 36.56176821492121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-world video recognition is challenging since traditional networks are
not generalized well on complex environment variations. Alternatively,
foundation models with rich knowledge have recently shown their generalization
power. However, how to apply such knowledge has not been fully explored for
open-world video recognition. To this end, we propose a generic knowledge
transfer pipeline, which progressively exploits and integrates external
multimodal knowledge from foundation models to boost open-world video
recognition. We name it PCA, based on three stages of Percept, Chat, and Adapt.
First, we perform Percept process to reduce the video domain gap and obtain
external visual knowledge. Second, we generate rich linguistic semantics as
external textual knowledge in Chat stage. Finally, we blend external multimodal
knowledge in Adapt stage, by inserting multimodal knowledge adaptation modules
into networks. We conduct extensive experiments on three challenging open-world
video benchmarks, i.e., TinyVIRAT, ARID, and QV-Pipe. Our approach achieves
state-of-the-art performance on all three datasets.
- Abstract(参考訳): 従来のネットワークは複雑な環境のバリエーションでよく一般化されていないため、オープンワールドビデオ認識は困難である。
あるいは、知識の豊富な基礎モデルは、最近一般化力を示している。
しかし,このような知識をどのように活用するかは,オープンワールドビデオ認識では十分に検討されていない。
そこで本研究では,基盤モデルから外部のマルチモーダル知識を段階的に活用し,統合し,オープンワールドビデオ認識を促進する汎用知識伝達パイプラインを提案する。
私たちはPCAと命名し、Percept、Chat、Adaptの3つのステージに基づいています。
まず,映像領域のギャップを低減し,外部の視覚知識を得るための知覚処理を行う。
第2に,チャット段階において,外部のテキスト知識として豊かな言語意味論を生成する。
最後に,ネットワークにマルチモーダル知識適応モジュールを挿入することにより,外部のマルチモーダル知識を適応段階にブレンドする。
我々は、TinyVIRAT、ARID、QV-Pipeという3つの挑戦的なオープンワールドビデオベンチマークについて広範な実験を行った。
提案手法は3つのデータセットすべてに対して最先端のパフォーマンスを実現する。
関連論文リスト
- SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。
推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。
質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文 参考訳(メタデータ) (2024-05-15T21:55:31Z) - Open Visual Knowledge Extraction via Relation-Oriented Multimodality
Model Prompting [89.95541601837719]
オープンビジュアル知識抽出の新しいパラダイムを初めて探求する。
OpenVikは、リレーショナル知識を含む可能性のあるリージョンを検出するオープンリレーショナルリージョン検出器で構成されている。
検出された関心領域で大規模なマルチモーダリティモデルを促すことにより、書式のない知識を生成する視覚的知識生成装置。
論文 参考訳(メタデータ) (2023-10-28T20:09:29Z) - Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in
Open Worlds [37.22688246779871]
大型言語モデル(LLM)は、世界と対話する自己駆動能力を持つエンボディエージェントを装備できる。
LLMはオープン世界の視覚的豊かさを見落とし、インタラクティブなプロセス全体を「目隠しされたテキストベースのゲーム」のように表現する傾向がある。
我々は、この制限に対処するために、エンドツーエンドで訓練された大規模マルチモーダルモデルであるSteve-Eyeを提案する。
論文 参考訳(メタデータ) (2023-10-20T03:22:05Z) - Multimodal Short Video Rumor Detection System Based on Contrastive
Learning [3.4192832062683842]
中国のショートビデオプラットフォームは、フェイクニュースの拡散の場として徐々に肥大化してきた。
短いビデオの噂を区別することは、大量の情報と共有機能のために大きな課題となる。
本研究グループは,マルチモーダルな特徴融合と外部知識の統合を包含する方法論を提案する。
論文 参考訳(メタデータ) (2023-04-17T16:07:00Z) - VLG: General Video Recognition with Web Textual Knowledge [47.3660792813967]
我々は、統合されたフレームワーク内で異なる認識タスクを解くための一般的なビデオ認識(GVR)問題に焦点を当てる。
インターネットからクロールされたノイズの多いテキスト記述から意味知識を活用することで、統合視覚言語フレームワーク(VLG)を提案する。
我々のVLGは、まずビデオと言語データセットで事前訓練され、共有機能空間を学習し、それからフレキシブルなバイモーダルなアテンションヘッドを考案し、異なる設定下でハイレベルなセマンティックな概念を協調します。
論文 参考訳(メタデータ) (2022-12-03T15:46:49Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Common Sense or World Knowledge? Investigating Adapter-Based Knowledge
Injection into Pretrained Transformers [54.417299589288184]
本研究では,概念ネットとそれに対応するオープンマインド・コモンセンス(OMCS)コーパスから,BERTの分布知識と概念知識を補完するモデルについて検討する。
我々のアダプタベースのモデルは,ConceptNet や OMCS に明示的に存在する概念的知識のタイプを必要とする推論タスクにおいて,BERT を大幅に上回っている。
論文 参考訳(メタデータ) (2020-05-24T15:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。