Fugu-MT 論文翻訳(概要): Structure-CLIP: Enhance Multi-modal Language Representations with Structure Knowledge

論文の概要: Structure-CLIP: Enhance Multi-modal Language Representations with Structure Knowledge

arxiv url: http://arxiv.org/abs/2305.06152v1
Date: Sat, 6 May 2023 03:57:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-11 12:51:15.160175
Title: Structure-CLIP: Enhance Multi-modal Language Representations with Structure Knowledge
Title（参考訳）: Structure-CLIP: 構造知識によるマルチモーダル言語表現の強化
Authors: Yufeng Huang, Jiji Tang, Zhuo Chen, Rongsheng Zhang, Xinfeng Zhang, Weijie Chen, Zeng Zhao, Tangjie Lv, Zhipeng Hu, Wen Zhang
Abstract要約: 本稿では,テキストからの詳細なセマンティクスを統合し,微細なセマンティクス表現を強化するエンドツーエンドフレームワークであるStructure-CLIPを提案する。 VG-AttributionとVG-Relationの両方のデータセット上で、構造CLIPが最先端のパフォーマンスを達成できることが、数値的な結果から示される。
参考スコア（独自算出の注目度）: 32.7489760981736
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale vision-language pre-training has shown promising advances on various downstream tasks and achieved significant performance in multi-modal understanding and generation tasks. However, existing methods often perform poorly on image-text matching tasks that require a detailed semantics understanding of the text. Although there have been some works on this problem, they do not sufficiently exploit the structural knowledge present in sentences to enhance multi-modal language representations, which leads to poor performance. In this paper, we present an end-to-end framework Structure-CLIP, which integrates latent detailed semantics from the text to enhance fine-grained semantic representations. Specifically, (1) we use scene graphs in order to pay more attention to the detailed semantic learning in the text and fully explore structured knowledge between fine-grained semantics, and (2) we utilize the knowledge-enhanced framework with the help of the scene graph to make full use of representations of structured knowledge. To verify the effectiveness of our proposed method, we pre-trained our models with the aforementioned approach and conduct experiments on different downstream tasks. Numerical results show that Structure-CLIP can often achieve state-of-the-art performance on both VG-Attribution and VG-Relation datasets. Extensive experiments show its components are effective and its predictions are interpretable, which proves that our proposed method can enhance detailed semantic representation well.
Abstract（参考訳）: 大規模視覚言語による事前学習は、様々な下流タスクに有望な進歩を示し、マルチモーダル理解および生成タスクにおいて大きなパフォーマンスを達成した。しかし、既存の手法はテキストの詳細なセマンティクス理解を必要とする画像テキストマッチングタスクではうまく動作しないことが多い。この問題にはいくつかの研究があるが、文中の構造的知識を十分に活用して多モーダル言語表現を強化することは、性能の低下につながる。本稿では,テキストからの詳細なセマンティクスを組み込んだエンドツーエンドフレームワークであるStructure-CLIPについて述べる。具体的には,(1)テキストの詳細な意味学習に注意を払うためにシーングラフを使用し,(2)細粒度な意味論間の構造化知識を十分に探求し,(2)シーングラフの助けを借りて知識強化フレームワークを用いて構造化知識の表現を最大限活用する。提案手法の有効性を検証するため, 上記のアプローチで事前学習を行い, 異なる下流タスクで実験を行った。 VG-AttributionとVG-Relationの両方のデータセット上で、構造CLIPは最先端のパフォーマンスを達成できることを示す。大規模な実験により,その構成要素は効果的であり,その予測は解釈可能であることを示す。

関連論文リスト

Integrated Structural Prompt Learning for Vision-Language Models [15.002501540565781]
本稿では、視覚言語モデル(VLM)のための統合構造プロンプト(ISP)を提案する。 ISPは、学習可能なプロンプトと凍結トークンの間の構造関係をモデル化するために、自己構造的および相互構造的プロンプトモジュールを導入している。 ISPは最先端の手法に対して競争力を発揮する。
論文参考訳（メタデータ） (2025-07-08T04:59:58Z)
LLM-enhanced Action-aware Multi-modal Prompt Tuning for Image-Text Matching [25.883546163390957]
大規模言語モデル(LLM)が生成する行動関連外部知識を組み込むことにより,CLIPをきめ細かな行動レベル理解に役立てる。本稿では,行動認識に基づく視覚的特徴を集約し,識別的・行動的視覚的表現を確立するための知識を付加する適応的相互作用モジュールを提案する。
論文参考訳（メタデータ） (2025-06-30T03:49:08Z)
A representational framework for learning and encoding structurally enriched trajectories in complex agent environments [1.904851064759821]
人工知能エージェントが最適な決定を行い、それらを異なるドメインやタスクに一般化する能力は、複雑なシナリオで妥協される。この問題に対処する方法の1つは、世界の効率的な表現を学習することと、エージェントのアクションがそれらにどのように影響するかに焦点を当てている。本稿では,エージェントのオントロジーを強化し,タスク実行のより微妙なビューを提供するために,トラジェクトリの伝統化を拡張することを提案する。
論文参考訳（メタデータ） (2025-03-17T14:04:27Z)
HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文参考訳（メタデータ） (2024-11-02T05:00:13Z)
Learning to Model Graph Structural Information on MLPs via Graph Structure Self-Contrasting [50.181824673039436]
本稿では,グラフ構造情報をメッセージパッシングなしで学習するグラフ構造自己コントラスト(GSSC)フレームワークを提案する。提案するフレームワークは,構造情報を事前知識として暗黙的にのみ組み込む,MLP(Multi-Layer Perceptrons)に基づいている。これはまず、近傍の潜在的非形式的あるいはノイズの多いエッジを取り除くために構造的スペーシングを適用し、その後、スペーシングされた近傍で構造的自己コントラストを行い、ロバストなノード表現を学ぶ。
論文参考訳（メタデータ） (2024-09-09T12:56:02Z)
Emergent Visual-Semantic Hierarchies in Image-Text Representations [13.300199242824934]
既存の基盤モデルの知識について検討し、視覚・意味的階層の創発的な理解を示すことを明らかにする。本稿では,階層的理解の探索と最適化を目的としたRadial Embedding (RE)フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-11T14:09:42Z)
Learning Hierarchical Prompt with Structured Linguistic Knowledge for Vision-Language Models [43.56153167864033]
大規模言語モデル(LLM)における構造化知識を活用する新しい手法を提案する。低レベルの即時学習のためのエンティティと属性間のペアワイズ関連をキャプチャする、関係誘導型アテンションモジュールを導入する。さらに、高レベルのプロンプトとグローバルレベルのプロンプトを組み込むことで、提案された階層構造は、クロスレベルのインターリンクを偽造し、より複雑で長期的な関係を扱うようにモデルに権限を与える。
論文参考訳（メタデータ） (2023-12-11T12:14:06Z)
Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文参考訳（メタデータ） (2023-12-05T06:02:21Z)
Unifying Structure and Language Semantic for Efficient Contrastive Knowledge Graph Completion with Structured Entity Anchors [0.3913403111891026]
知識グラフ補完(KGC)の目標は、すでに知られている訓練された事実を用いて、KGの欠落したリンクを予測することである。本稿では,帰納的推論の力を失うことなく,構造情報と言語意味を効果的に統一する手法を提案する。
論文参考訳（メタデータ） (2023-11-07T11:17:55Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文参考訳（メタデータ） (2022-10-26T13:27:26Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。