論文の概要: Leveraging Weak Cross-Modal Guidance for Coherence Modelling via Iterative Learning
- arxiv url: http://arxiv.org/abs/2408.00305v1
- Date: Thu, 01 Aug 2024 06:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 18:50:02.142687
- Title: Leveraging Weak Cross-Modal Guidance for Coherence Modelling via Iterative Learning
- Title(参考訳): 反復学習によるコヒーレンスモデリングのための弱度クロスモーダルガイダンスの活用
- Authors: Yi Bin, Junrong Liao, Yujuan Ding, Haoxuan Li, Yang Yang, See-Kiong Ng, Heng Tao Shen,
- Abstract要約: クロスモーダル・コヒーレンス・モデリングは、知的なシステムが情報を整理し構造化するのに不可欠である。
クロスモーダル・コヒーレンス・モデリングに関するこれまでの研究は、目標モーダルのコヒーレンス回復を支援するために、他のモーダルからの順序情報を活用することを試みた。
本報告では,コヒーレンシーに金のラベルを付けることなく,クロスモーダルガイダンスを活用する新しい手法について検討する。
- 参考スコア(独自算出の注目度): 66.28872204574648
- License:
- Abstract: Cross-modal coherence modeling is essential for intelligent systems to help them organize and structure information, thereby understanding and creating content of the physical world coherently like human-beings. Previous work on cross-modal coherence modeling attempted to leverage the order information from another modality to assist the coherence recovering of the target modality. Despite of the effectiveness, labeled associated coherency information is not always available and might be costly to acquire, making the cross-modal guidance hard to leverage. To tackle this challenge, this paper explores a new way to take advantage of cross-modal guidance without gold labels on coherency, and proposes the Weak Cross-Modal Guided Ordering (WeGO) model. More specifically, it leverages high-confidence predicted pairwise order in one modality as reference information to guide the coherence modeling in another. An iterative learning paradigm is further designed to jointly optimize the coherence modeling in two modalities with selected guidance from each other. The iterative cross-modal boosting also functions in inference to further enhance coherence prediction in each modality. Experimental results on two public datasets have demonstrated that the proposed method outperforms existing methods for cross-modal coherence modeling tasks. Major technical modules have been evaluated effective through ablation studies. Codes are available at: \url{https://github.com/scvready123/IterWeGO}.
- Abstract(参考訳): クロスモーダル・コヒーレンス・モデリングは、知的なシステムが情報を整理し、構造化し、人間のような物理的世界の内容を理解し、創造するのを助けるために不可欠である。
クロスモーダル・コヒーレンス・モデリングに関するこれまでの研究は、目標モーダルのコヒーレンス回復を支援するために、他のモーダルからの順序情報を活用することを試みた。
有効性にもかかわらず、ラベル付きコヒーレンシー情報は必ずしも利用可能ではなく、取得にコストがかかる可能性があるため、クロスモーダルガイダンスの活用は困難である。
この課題に対処するために,コヒーレンシーに関するゴールドラベルを使わずに,クロスモーダルガイダンスを活用するための新たな手法を提案し,Weak Cross-Modal Guided Ordering(WeGO)モデルを提案する。
より具体的には、1つのモードにおける高信頼度予測ペア順を参照情報として利用し、コヒーレンスモデリングを別のモードで導く。
反復学習パラダイムは、コヒーレンスモデリングを2つのモードで互いに選択したガイダンスで協調的に最適化するように設計されている。
反復的クロスモーダルブースティングもまた、各モーダルにおけるコヒーレンス予測をさらに強化するために推論において機能する。
2つの公開データセットに対する実験結果から,提案手法は既存手法のクロスモーダル・コヒーレンス・モデリングよりも優れていることが示された。
主な技術モジュールはアブレーション研究によって評価されている。
コードは以下の通り。 \url{https://github.com/scvready123/IterWeGO}。
関連論文リスト
- Cross-BERT for Point Cloud Pretraining [61.762046503448936]
我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。
不規則な点雲とスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進させる。
本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。
論文 参考訳(メタデータ) (2023-12-08T08:18:12Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Cognitively Inspired Cross-Modal Data Generation Using Diffusion Models [12.013345715187285]
拡散モデルに基づくクロスモーダル生成法は、様々なモダリティをまたいだ条件生成を可能にするために、遅延空間の制御にガイダンスを使用する。
チャネルワイズ画像コンディショニングを用いたマルチモーダル拡散モデルトレーニングとサンプリング手法について検討し、トレーニング期間中に相互モーダル相関を学習し、脳内の学習過程をより良く模倣する。
論文 参考訳(メタデータ) (2023-05-28T23:54:52Z) - Cross-modal Contrastive Learning for Multimodal Fake News Detection [10.760000041969139]
COOLANTはマルチモーダルフェイクニュース検出のためのクロスモーダルコントラスト学習フレームワークである。
クロスモーダル融合モジュールは、クロスモーダル相関を学習するために開発された。
アテンションガイダンスモジュールは、アライメントされたユニモーダル表現を効果的かつ解釈可能に集約するために実装される。
論文 参考訳(メタデータ) (2023-02-25T10:12:34Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。
本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。
コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文 参考訳(メタデータ) (2022-06-21T07:29:37Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。