論文の概要: Contrasting with Symile: Simple Model-Agnostic Representation Learning for Unlimited Modalities
- arxiv url: http://arxiv.org/abs/2411.01053v1
- Date: Fri, 01 Nov 2024 21:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:52:02.984648
- Title: Contrasting with Symile: Simple Model-Agnostic Representation Learning for Unlimited Modalities
- Title(参考訳): シンジレとの対比:無制限のモダリティのための簡易モデル非依存表現学習
- Authors: Adriel Saporta, Aahlad Puli, Mark Goldstein, Rajesh Ranganath,
- Abstract要約: CLIPのような対照的な学習方法は、自然にペア化されたデータ、例えば画像とその対応するテキストキャプションを利用して、下流のタスクに効率的に転送する一般的な表現を学習する。
これらの結果から,CLIPの相互適用はモダリティ間の結合情報を捉えるのに失敗し,学習した表現の質が制限されることが示唆された。
モーダル間の高次情報を取得する単純なコントラスト学習手法であるSymileを提案する。
- 参考スコア(独自算出の注目度): 21.745266161874195
- License:
- Abstract: Contrastive learning methods, such as CLIP, leverage naturally paired data-for example, images and their corresponding text captions-to learn general representations that transfer efficiently to downstream tasks. While such approaches are generally applied to two modalities, domains such as robotics, healthcare, and video need to support many types of data at once. We show that the pairwise application of CLIP fails to capture joint information between modalities, thereby limiting the quality of the learned representations. To address this issue, we present Symile, a simple contrastive learning approach that captures higher-order information between any number of modalities. Symile provides a flexible, architecture-agnostic objective for learning modality-specific representations. To develop Symile's objective, we derive a lower bound on total correlation, and show that Symile representations for any set of modalities form a sufficient statistic for predicting the remaining modalities. Symile outperforms pairwise CLIP, even with modalities missing in the data, on cross-modal classification and retrieval across several experiments including on an original multilingual dataset of 33M image, text and audio samples and a clinical dataset of chest X-rays, electrocardiograms, and laboratory measurements. All datasets and code used in this work are publicly available at https://github.com/rajesh-lab/symile.
- Abstract(参考訳): CLIPのような対照的な学習方法は、自然にペア化されたデータ、例えば画像とその対応するテキストキャプションを利用して、下流のタスクに効率的に転送する一般的な表現を学習する。
このようなアプローチは一般的に2つのモダリティに適用されるが、ロボット工学、ヘルスケア、ビデオといったドメインは、一度に複数の種類のデータをサポートする必要がある。
これらの結果から,CLIPの相互適用はモダリティ間の結合情報を捉えるのに失敗し,学習した表現の質が制限されることが示唆された。
この問題に対処するために,任意のモダリティ間の高次情報をキャプチャする単純なコントラスト学習手法であるSymileを提案する。
Symileは、モダリティ固有の表現を学ぶための柔軟でアーキテクチャに依存しない目的を提供する。
Symile の目的を開発するために、全相関の低い境界を導出し、任意のモダリティの集合に対する Symile 表現が残りのモダリティを予測するのに十分な統計量を形成することを示す。
Symileは、データにモダリティが欠けている場合でも、33M画像、テキストとオーディオサンプルの元々の多言語データセット、胸部X線、心電図、実験室計測のデータセットを含む、いくつかの実験において、クロスモーダル分類と検索において、ペアワイズCLIPよりも優れています。
この作業で使用されるデータセットとコードは、https://github.com/rajesh-lab/symile.comで公開されている。
関連論文リスト
- Semantic Meta-Split Learning: A TinyML Scheme for Few-Shot Wireless Image Classification [50.28867343337997]
本研究は,TinyMLを用いた無線画像分類のためのセマンティック・コミュニケーション・フレームワークを提案する。
我々は、プライバシ保護を確保しつつ、エンドユーザーによって実行される計算を制限するために分割学習を利用する。
メタ学習は、データ可用性の懸念を克服し、同様のトレーニングされたタスクを利用することで、トレーニングを高速化する。
論文 参考訳(メタデータ) (2024-09-03T05:56:55Z) - TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data [6.414759311130015]
不完全なデータに頑健なマルチモーダル表現を学習するための新しいフレームワークであるTIPを提案する。
具体的には、TIPは、データ不足に対処するためのマスク付き再構築タスクを含む、自己教師付き学習(SSL)戦略を調査する。
TIPは、完全なデータシナリオと不完全なデータシナリオの両方において、最先端の教師付き/SSLイメージ/マルチモーダルアルゴリズムより優れている。
論文 参考訳(メタデータ) (2024-07-10T12:16:15Z) - MLIP: Medical Language-Image Pre-training with Masked Local
Representation Learning [20.33625985769796]
既存のコントラスト言語画像事前学習は、豊富な画像とテキストのペアをマッチングすることで、共同表現を学習することを目的としている。
本稿では,限られた画像テキストの医療データをより効率的に活用する医用言語-画像事前学習フレームワークを提案する。
評価の結果、MLIPはゼロ/フェーショット分類や少数ショット分割タスクにおいて、従来よりも大きなマージンで性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-01-03T07:54:13Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Momentum Contrastive Voxel-wise Representation Learning for
Semi-supervised Volumetric Medical Image Segmentation [2.3322477552758234]
医用画像セグメンテーションのためのグローバルな視覚表現を学習するための幾何学的制約付きコントラストVoxel-wise Representation(CVRL)法を提案する。
このフレームワークは,3次元空間的コンテキストと豊かな解剖学的情報をキャプチャすることで,グローバルおよびローカルな特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2021-05-14T20:27:23Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。