論文の概要: CLIP-Event: Connecting Text and Images with Event Structures
- arxiv url: http://arxiv.org/abs/2201.05078v1
- Date: Thu, 13 Jan 2022 17:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 13:05:38.863856
- Title: CLIP-Event: Connecting Text and Images with Event Structures
- Title(参考訳): CLIP-Event: テキストとイメージをイベント構造に接続する
- Authors: Manling Li, Ruochen Xu, Shuohang Wang, Luowei Zhou, Xudong Lin,
Chenguang Zhu, Michael Zeng, Heng Ji, Shih-Fu Chang
- Abstract要約: 視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 123.31452120399827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language (V+L) pretraining models have achieved great success in
supporting multimedia applications by understanding the alignments between
images and text. While existing vision-language pretraining models primarily
focus on understanding objects in images or entities in text, they often ignore
the alignment at the level of events and their argument structures. % In this
work, we propose a contrastive learning framework to enforce vision-language
pretraining models to comprehend events and associated argument (participant)
roles. To achieve this, we take advantage of text information extraction
technologies to obtain event structural knowledge, and utilize multiple prompt
functions to contrast difficult negative descriptions by manipulating event
structures. We also design an event graph alignment loss based on optimal
transport to capture event argument structures. In addition, we collect a large
event-rich dataset (106,875 images) for pretraining, which provides a more
challenging image retrieval benchmark to assess the understanding of
complicated lengthy sentences. Experiments show that our zero-shot CLIP-Event
outperforms the state-of-the-art supervised model in argument extraction on
Multimedia Event Extraction, achieving more than 5\% absolute F-score gain in
event extraction, as well as significant improvements on a variety of
downstream tasks under zero-shot settings.
- Abstract(参考訳): ビジョン言語(V+L)事前学習モデルは、画像とテキストのアライメントを理解することによってマルチメディアアプリケーションをサポートすることに成功している。
既存の視覚言語事前学習モデルは、主に画像やテキスト中のエンティティのオブジェクトの理解に焦点を当てているが、しばしばイベントのレベルとその引数構造でのアライメントを無視している。
本研究は,イベントと関連する議論(参加者)の役割を理解するために視覚言語事前学習モデルを強制する,対照的な学習フレームワークを提案する。
これを実現するために,テキスト情報抽出技術を利用してイベント構造知識を取得し,複数のプロンプト関数を用いてイベント構造を操作することで難解なネガティブな記述を対比する。
また、イベント引数構造をキャプチャする最適なトランスポートに基づくイベントグラフアライメント損失も設計する。
さらに,事前学習のための大規模イベントリッチデータセット(106,875画像)を収集し,複雑な文の理解度を評価するための,より困難な画像検索ベンチマークを提供する。
実験により,ゼロショットクリップイベントは,マルチメディアイベント抽出の引数抽出において,最先端の教師付きモデルよりも優れており,イベント抽出における絶対f-score利得が52%以上向上していること,ゼロショット設定下でのダウンストリームタスクの大幅な改善が示された。
関連論文リスト
- Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - PromptCL: Improving Event Representation via Prompt Template and Contrastive Learning [3.481567499804089]
本稿では,イベント表現学習のための新しいフレームワークであるPromptCLを紹介する。
PromptCLは、短いイベントテキストのセマンティクスを包括的にキャプチャするPLMの機能を提供する。
実験の結果,PromptCLはイベント関連タスクにおける最先端のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-04-27T12:22:43Z) - EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding [7.797154022794006]
EventBindは、イベントベースの認識のためのビジョン言語モデル(VLM)の可能性を解き放つ新しいフレームワークである。
まず、イベントからの時間情報を微妙にモデル化する新しいイベントエンコーダを紹介する。
次に、コンテントプロンプトを生成し、ハイブリッドテキストプロンプトを利用してEventBindの一般化能力を向上するテキストエンコーダを設計する。
論文 参考訳(メタデータ) (2023-08-06T15:05:42Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。