論文の概要: Incorporating Domain Knowledge Graph into Multimodal Movie Genre
Classification with Self-Supervised Attention and Contrastive Learning
- arxiv url: http://arxiv.org/abs/2310.08032v1
- Date: Thu, 12 Oct 2023 04:49:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 13:05:05.805215
- Title: Incorporating Domain Knowledge Graph into Multimodal Movie Genre
Classification with Self-Supervised Attention and Contrastive Learning
- Title(参考訳): 自己教師付き注意とコントラスト学習によるマルチモーダル映画ジャンル分類へのドメイン知識グラフの導入
- Authors: Jiaqi Li, Guilin Qi, Chuanyi Zhang, Yongrui Chen, Yiming Tan, Chenlong
Xia, Ye Tian
- Abstract要約: 本稿では,これらの課題に対処するために,知識グラフを様々な視点から活用する新しい枠組みを提案する。
本稿では,自己指導型学習に基づく注意割当のための意識教師モジュールを提案する。
最後に、融合特徴の識別能力を高めるために、Genre-Centroid Anchored Contrastive Learningモジュールを提案する。
- 参考スコア(独自算出の注目度): 14.729059909487072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal movie genre classification has always been regarded as a demanding
multi-label classification task due to the diversity of multimodal data such as
posters, plot summaries, trailers and metadata. Although existing works have
made great progress in modeling and combining each modality, they still face
three issues: 1) unutilized group relations in metadata, 2) unreliable
attention allocation, and 3) indiscriminative fused features. Given that the
knowledge graph has been proven to contain rich information, we present a novel
framework that exploits the knowledge graph from various perspectives to
address the above problems. As a preparation, the metadata is processed into a
domain knowledge graph. A translate model for knowledge graph embedding is
adopted to capture the relations between entities. Firstly we retrieve the
relevant embedding from the knowledge graph by utilizing group relations in
metadata and then integrate it with other modalities. Next, we introduce an
Attention Teacher module for reliable attention allocation based on
self-supervised learning. It learns the distribution of the knowledge graph and
produces rational attention weights. Finally, a Genre-Centroid Anchored
Contrastive Learning module is proposed to strengthen the discriminative
ability of fused features. The embedding space of anchors is initialized from
the genre entities in the knowledge graph. To verify the effectiveness of our
framework, we collect a larger and more challenging dataset named MM-IMDb 2.0
compared with the MM-IMDb dataset. The experimental results on two datasets
demonstrate that our model is superior to the state-of-the-art methods. We will
release the code in the near future.
- Abstract(参考訳): ポスター,プロットサマリー,トレーラー,メタデータといったマルチモーダルデータの多様性のため,マルチモーダル映画ジャンル分類は要求されるマルチラベル分類課題とみなされてきた。
既存の作品では、各モダリティのモデリングと組み合わせに大きな進歩があったが、それでも3つの問題に直面している。
1)メタデータの未使用のグループ関係
2 信頼できない注意割当、及び
3) 識別不能な特徴。
知識グラフが豊富な情報を含むことが証明されたことを前提として、知識グラフを様々な観点から活用して上記の問題に対処する新しい枠組みを提案する。
準備として、メタデータはドメイン知識グラフに処理される。
知識グラフ埋め込みのための翻訳モデルを用いて、エンティティ間の関係をキャプチャする。
まず,メタデータにおけるグループ関係を利用して知識グラフから関連する埋め込みを取得し,他のモダリティと統合する。
次に,自己監督学習に基づく信頼性の高い注意割当のための注意教師モジュールを提案する。
知識グラフの分布を学習し、合理的な注意重みを生成する。
最後に,融合特徴の識別能力を強化するために,ジャンル中心アンカー型コントラスト学習モジュールを提案する。
アンカーの埋め込み空間は、知識グラフのジャンルエンティティから初期化される。
フレームワークの有効性を検証するため,MM-IMDb 2.0 というより大きなデータセットをMM-IMDb データセットと比較した。
2つのデータセットにおける実験結果から,本モデルは最先端の手法よりも優れていることが示された。
近い将来、そのコードをリリースします。
関連論文リスト
- DisenSemi: Semi-supervised Graph Classification via Disentangled Representation Learning [36.85439684013268]
本研究では,半教師付きグラフ分類のための不整合表現を学習するDisenSemiという新しいフレームワークを提案する。
具体的には,非教師付きモデルと教師なしモデルの両方に対して因子ワイドグラフ表現を生成するために,非教師付きグラフエンコーダを提案する。
教師付き客観情報と相互情報(MI)に基づく制約によって2つのモデルを訓練する。
論文 参考訳(メタデータ) (2024-07-19T07:31:32Z) - MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion [51.80447197290866]
MMKGの微細なモダリティ情報を処理・融合・拡張するためにMyGOを導入する。
MyGOは、マルチモーダルな生データをきめ細かい離散トークンとしてトークン化し、クロスモーダルなエンティティエンコーダでエンティティ表現を学習する。
標準MMKGCベンチマーク実験により,本手法が最新の20モデルを上回ることがわかった。
論文 参考訳(メタデータ) (2024-04-15T05:40:41Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z) - Group Contrastive Self-Supervised Learning on Graphs [101.45974132613293]
グラフ上での自己教師型学習をコントラッシブ手法を用いて研究する。
複数の部分空間におけるグラフの対比により、グラフエンコーダはより豊富な特徴を捉えることができる。
論文 参考訳(メタデータ) (2021-07-20T22:09:21Z) - GCNBoost: Artwork Classification by Label Propagation through a
Knowledge Graph [32.129005474301735]
文脈情報はしばしば、そのような現実世界のデータを構成する鍵であり、知識グラフの形で使用することを提案する。
本稿では,注釈付きデータと擬似ラベル付きデータに基づいて構築された知識グラフの新たな利用法を提案する。
ラベルの伝搬により、グラフ畳み込みネットワークを用いてモデルを訓練することにより、アートワークの分類を向上する。
論文 参考訳(メタデータ) (2021-05-25T11:50:05Z) - An Adversarial Transfer Network for Knowledge Representation Learning [11.013390624382257]
本稿では,1つ以上の教師の知識グラフから対象の知識へ知識を伝達する逆埋め込み転送ネットワークATransNを提案する。
具体的には,既存の知識表現学習手法に,アライメントされたエンティティペアと近傍にソフト制約を加える。
論文 参考訳(メタデータ) (2021-04-30T05:07:25Z) - Mutual Graph Learning for Camouflaged Object Detection [31.422775969808434]
主な課題は、前景の物体と背景の環境との固有の類似性によって、深いモデルによって抽出された特徴が区別できないことである。
我々は,正規格子からグラフ領域への従来の相互学習の考え方を一般化する,新しい相互グラフ学習モデルを設計する。
すべてのタスク間インタラクションをモデリングするために共有関数を使用するほとんどの相互学習アプローチとは対照的に、mglは異なる補完関係を扱うための型付き関数を備えている。
論文 参考訳(メタデータ) (2021-04-03T10:14:39Z) - Dual-Teacher: Integrating Intra-domain and Inter-domain Teachers for
Annotation-efficient Cardiac Segmentation [65.81546955181781]
本稿では,新しい半教師付きドメイン適応手法,すなわちDual-Teacherを提案する。
学生モデルは、2つの教師モデルによってラベル付けされていない対象データとラベル付けされた情報源データの知識を学習する。
提案手法では, ラベルなしデータとモダリティ間データとを並列に利用でき, 性能が向上することを示した。
論文 参考訳(メタデータ) (2020-07-13T10:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。