論文の概要: Structure-CLIP: Enhance Multi-modal Language Representations with
Structure Knowledge
- arxiv url: http://arxiv.org/abs/2305.06152v1
- Date: Sat, 6 May 2023 03:57:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 12:51:15.160175
- Title: Structure-CLIP: Enhance Multi-modal Language Representations with
Structure Knowledge
- Title(参考訳): Structure-CLIP: 構造知識によるマルチモーダル言語表現の強化
- Authors: Yufeng Huang, Jiji Tang, Zhuo Chen, Rongsheng Zhang, Xinfeng Zhang,
Weijie Chen, Zeng Zhao, Tangjie Lv, Zhipeng Hu, Wen Zhang
- Abstract要約: 本稿では,テキストからの詳細なセマンティクスを統合し,微細なセマンティクス表現を強化するエンドツーエンドフレームワークであるStructure-CLIPを提案する。
VG-AttributionとVG-Relationの両方のデータセット上で、構造CLIPが最先端のパフォーマンスを達成できることが、数値的な結果から示される。
- 参考スコア(独自算出の注目度): 32.7489760981736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision-language pre-training has shown promising advances on
various downstream tasks and achieved significant performance in multi-modal
understanding and generation tasks. However, existing methods often perform
poorly on image-text matching tasks that require a detailed semantics
understanding of the text. Although there have been some works on this problem,
they do not sufficiently exploit the structural knowledge present in sentences
to enhance multi-modal language representations, which leads to poor
performance. In this paper, we present an end-to-end framework Structure-CLIP,
which integrates latent detailed semantics from the text to enhance
fine-grained semantic representations. Specifically, (1) we use scene graphs in
order to pay more attention to the detailed semantic learning in the text and
fully explore structured knowledge between fine-grained semantics, and (2) we
utilize the knowledge-enhanced framework with the help of the scene graph to
make full use of representations of structured knowledge. To verify the
effectiveness of our proposed method, we pre-trained our models with the
aforementioned approach and conduct experiments on different downstream tasks.
Numerical results show that Structure-CLIP can often achieve state-of-the-art
performance on both VG-Attribution and VG-Relation datasets. Extensive
experiments show its components are effective and its predictions are
interpretable, which proves that our proposed method can enhance detailed
semantic representation well.
- Abstract(参考訳): 大規模視覚言語による事前学習は、様々な下流タスクに有望な進歩を示し、マルチモーダル理解および生成タスクにおいて大きなパフォーマンスを達成した。
しかし、既存の手法はテキストの詳細なセマンティクス理解を必要とする画像テキストマッチングタスクではうまく動作しないことが多い。
この問題にはいくつかの研究があるが、文中の構造的知識を十分に活用して多モーダル言語表現を強化することは、性能の低下につながる。
本稿では,テキストからの詳細なセマンティクスを組み込んだエンドツーエンドフレームワークであるStructure-CLIPについて述べる。
具体的には,(1)テキストの詳細な意味学習に注意を払うためにシーングラフを使用し,(2)細粒度な意味論間の構造化知識を十分に探求し,(2)シーングラフの助けを借りて知識強化フレームワークを用いて構造化知識の表現を最大限活用する。
提案手法の有効性を検証するため, 上記のアプローチで事前学習を行い, 異なる下流タスクで実験を行った。
VG-AttributionとVG-Relationの両方のデータセット上で、構造CLIPは最先端のパフォーマンスを達成できることを示す。
大規模な実験により,その構成要素は効果的であり,その予測は解釈可能であることを示す。
関連論文リスト
- HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。
我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。
具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文 参考訳(メタデータ) (2024-11-02T05:00:13Z) - Learning to Model Graph Structural Information on MLPs via Graph Structure Self-Contrasting [50.181824673039436]
本稿では,グラフ構造情報をメッセージパッシングなしで学習するグラフ構造自己コントラスト(GSSC)フレームワークを提案する。
提案するフレームワークは,構造情報を事前知識として暗黙的にのみ組み込む,MLP(Multi-Layer Perceptrons)に基づいている。
これはまず、近傍の潜在的非形式的あるいはノイズの多いエッジを取り除くために構造的スペーシングを適用し、その後、スペーシングされた近傍で構造的自己コントラストを行い、ロバストなノード表現を学ぶ。
論文 参考訳(メタデータ) (2024-09-09T12:56:02Z) - Emergent Visual-Semantic Hierarchies in Image-Text Representations [13.300199242824934]
既存の基盤モデルの知識について検討し、視覚・意味的階層の創発的な理解を示すことを明らかにする。
本稿では,階層的理解の探索と最適化を目的としたRadial Embedding (RE)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T14:09:42Z) - Learning Hierarchical Prompt with Structured Linguistic Knowledge for
Vision-Language Models [43.56153167864033]
大規模言語モデル(LLM)における構造化知識を活用する新しい手法を提案する。
低レベルの即時学習のためのエンティティと属性間のペアワイズ関連をキャプチャする、関係誘導型アテンションモジュールを導入する。
さらに、高レベルのプロンプトとグローバルレベルのプロンプトを組み込むことで、提案された階層構造は、クロスレベルのインターリンクを偽造し、より複雑で長期的な関係を扱うようにモデルに権限を与える。
論文 参考訳(メタデータ) (2023-12-11T12:14:06Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Unifying Structure and Language Semantic for Efficient Contrastive
Knowledge Graph Completion with Structured Entity Anchors [0.3913403111891026]
知識グラフ補完(KGC)の目標は、すでに知られている訓練された事実を用いて、KGの欠落したリンクを予測することである。
本稿では,帰納的推論の力を失うことなく,構造情報と言語意味を効果的に統一する手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T11:17:55Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。