論文の概要: Unlocking the Potential of Multimodal Unified Discrete Representation
through Training-Free Codebook Optimization and Hierarchical Alignment
- arxiv url: http://arxiv.org/abs/2403.05168v1
- Date: Fri, 8 Mar 2024 09:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:15:11.340389
- Title: Unlocking the Potential of Multimodal Unified Discrete Representation
through Training-Free Codebook Optimization and Hierarchical Alignment
- Title(参考訳): 学習自由コードブック最適化と階層的アライメントによるマルチモーダル統一離散表現の可能性
- Authors: Hai Huang, Yan Xia, Shengpeng Ji, Shulei Wang, Hanting Wang, Jieming
Zhu, Zhenhua Dong, Zhou Zhao
- Abstract要約: モデル性能を向上させるためのトレーニング不要なコードブック最適化(TOC)手法を提案する。
また,情報分離とアライメントを2段階に拡張する階層的デュアル・クロスモーダル・インフォメーション・ディスタングル(H-DCID)手法も導入する。
- 参考スコア(独自算出の注目度): 58.33820800486502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in representation learning have demonstrated the significance
of multimodal alignment. The Dual Cross-modal Information Disentanglement
(DCID) model, utilizing a unified codebook, shows promising results in
achieving fine-grained representation and cross-modal generalization. However,
it is still hindered by equal treatment of all channels and neglect of minor
event information, resulting in interference from irrelevant channels and
limited performance in fine-grained tasks. Thus, in this work, We propose a
Training-free Optimization of Codebook (TOC) method to enhance model
performance by selecting important channels in the unified space without
retraining. Additionally, we introduce the Hierarchical Dual Cross-modal
Information Disentanglement (H-DCID) approach to extend information separation
and alignment to two levels, capturing more cross-modal details. The experiment
results demonstrate significant improvements across various downstream tasks,
with TOC contributing to an average improvement of 1.70% for DCID on four
tasks, and H-DCID surpassing DCID by an average of 3.64%. The combination of
TOC and H-DCID further enhances performance, exceeding DCID by 4.43%. These
findings highlight the effectiveness of our methods in facilitating robust and
nuanced cross-modal learning, opening avenues for future enhancements. The
source code and pre-trained models can be accessed at
https://github.com/haihuangcode/TOC_H-DCID.
- Abstract(参考訳): 近年の表現学習の進歩は多モーダルアライメントの重要性を示している。
統合されたコードブックを用いたDual Cross-modal Information Disentanglement (DCID)モデルでは,粒度表現とクロスモーダル一般化が期待できる結果を示した。
しかし、全てのチャネルを平等に扱い、小さなイベント情報を無視することで、無関係なチャネルからの干渉と細かなタスクのパフォーマンスの制限が依然として妨げられている。
そこで本研究では,統一空間における重要なチャネルを再学習せずに選択することで,モデル性能を向上させるためのトレーニングフリーなコードブック最適化手法を提案する。
さらに,H-DCID(Hierarchical Dual Cross-modal Information Disentanglement)アプローチを導入して,情報分離とアライメントを2レベルに拡張し,よりクロスモーダルな詳細をキャプチャする。
TOCは4つのタスクにおけるDCIDの平均1.70%の改善に寄与し、H-DCIDはDCIDを平均3.64%上回った。
TOCとH-DCIDの組み合わせによりさらに性能が向上し、DCIDの4.43%を超える。
これらの知見は, 頑健かつニュアンスなクロスモーダル学習の促進, 今後の発展への道を開く上での手法の有効性を浮き彫りにしている。
ソースコードと事前訓練されたモデルはhttps://github.com/haihuangcode/TOC_H-DCIDでアクセスできる。
関連論文リスト
- DANCE: Dual-View Distribution Alignment for Dataset Condensation [39.08022095906364]
我々は、データセットのコンディエンテーション(DANCE)のためのDMベースの新しいDual-view Distribution AligNmentを提案する。
具体的には、内部クラスの観点から複数の「中間エンコーダ」を構築し、擬似的な長期分布アライメントを行う。
クラス間の観点からは,分布キャリブレーションを行うために専門家モデルを用いる。
論文 参考訳(メタデータ) (2024-06-03T07:22:17Z) - Unified Multi-modal Diagnostic Framework with Reconstruction Pre-training and Heterogeneity-combat Tuning [14.556686415877602]
本稿では,事前トレーニングと下流チューニングを調整した統一医療マルチモーダル診断(UMD)フレームワークを提案する。
具体的には,多段階再構成事前訓練(MR-Pretraining)戦略を提案する。
特に、TD-Calibは、下流データセットの分布に関する事前訓練されたモデルを微調整し、GM-Coordは、異なるモードの動的最適化状況に応じて勾配重みを調整する。
論文 参考訳(メタデータ) (2024-04-09T06:47:44Z) - Learning to Maximize Mutual Information for Chain-of-Thought Distillation [13.660167848386806]
Distilling Step-by-Step(DSS)は、より大きなモデルよりも優れた推論能力を持つ小さなモデルを投入することで、約束を証明している。
しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。
学習に基づく手法を用いて,この問題を解決するための変分手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T22:21:45Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Cross-head mutual Mean-Teaching for semi-supervised medical image
segmentation [6.738522094694818]
SSMIS(Semi-supervised Medical Image segmentation)は、限られたラベル付きデータと豊富なラベルなしデータを活用することで、大幅な進歩を目撃している。
既存のSOTA(State-of-the-art)手法は、ラベルなしデータのラベルを正確に予測する際の課題に直面する。
強弱データ拡張を組み込んだ新しいクロスヘッド相互学習ネットワーク(CMMT-Net)を提案する。
論文 参考訳(メタデータ) (2023-10-08T09:13:04Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity
Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。
湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。
既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。
SSM-DTAフレームワークについて述べる。
論文 参考訳(メタデータ) (2022-06-20T14:53:25Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Generalized Zero-Shot Learning Via Over-Complete Distribution [79.5140590952889]
そこで本稿では,CVAE (Conditional Variational Autoencoder) を用いたOCD(Over-Complete Distribution) の生成を提案する。
フレームワークの有効性は,Zero-Shot LearningプロトコルとGeneralized Zero-Shot Learningプロトコルの両方を用いて評価する。
論文 参考訳(メタデータ) (2020-04-01T19:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。