Fugu-MT 論文翻訳(概要): Continual Vision-Language Representation Learning with Off-Diagonal Information

論文の概要: Continual Vision-Language Representation Learning with Off-Diagonal Information

arxiv url: http://arxiv.org/abs/2305.07437v2
Date: Mon, 15 May 2023 03:53:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-16 10:57:03.222504
Title: Continual Vision-Language Representation Learning with Off-Diagonal Information
Title（参考訳）: 対角情報を用いた連続視覚言語表現学習
Authors: Zixuan Ni and Longhui Wei and Siliang Tang and Yueting Zhuang and Qi Tian
Abstract要約: ストリーミングデータによるCLIPモデルの継続的なトレーニングの実現可能性について論じる。モーダル内回転とモーダル間偏差がCLIPの性能低下の原因となることを示す。本稿では,空間障害を緩和するために,シンプルながら効果的な連続学習フレームワークMod-Xを提案する。
参考スコア（独自算出の注目度）: 112.39419069447902
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper discusses the feasibility of continuously training the CLIP model through streaming data. Then, by tracking the directional changes of the representation vectors in the continuously updated CLIP model, we explore and summarize these spatial variations as Spatial Disorder (SD), which can be divided into Intra-modal Rotation and Inter-modal Deviation. Moreover, we demonstrate how intra-modal rotation and inter-modal deviation lead to a performance decline for CLIP on cross-modal retrieval tasks in both empirically and theoretically. To alleviate the spatial disorder, we propose a simple yet effective continual learning framework Mod-X: \textbf{M}aintain \textbf{o}ff-\textbf{d}iagonal information-matri\textbf{X}. The experiments (in Section \ref{method}, \ref{experiments} and Appendix \ref{Appendix_to_experiments}) on commonly used datasets with different scales and scopes have illustrated the effectiveness of our method.
Abstract（参考訳）: 本稿では,ストリーミングデータによるCLIPモデルの継続的なトレーニングの実現可能性について論じる。次に, 連続更新クリップモデルにおける表現ベクトルの方向変化を追跡することにより, 空間変動を, モーダル内回転とモーダル間偏差に区分できる空間性障害 (sd) として探索し, 要約する。さらに, モーダル内回転とモーダル間偏差が, 経験的・理論的に相互モーダル検索タスクにおけるCLIPの性能低下につながることを示す。空間的障害を緩和するため,単純な連続学習フレームワーク Mod-X: \textbf{M}aintain \textbf{o}ff-\textbf{d}iagonal information-matri\textbf{X} を提案する。異なるスケールとスコープを持つ一般的なデータセットに対する実験 (ref{method}, \ref{experiments}, appendix \ref{appendix_to_experiments}) は,本手法の有効性を示すものである。

関連論文リスト

Causal Disentanglement and Cross-Modal Alignment for Enhanced Few-Shot Learning [11.752632557524969]
Causal CLIP Adapter(CCA)は、CLIPから抽出された視覚的特徴を明示的に分離する新しいフレームワークである。本手法は, 分散シフトに対する数ショット性能とロバスト性の観点から, 常に最先端の手法より優れる。
論文参考訳（メタデータ） (2025-08-05T05:30:42Z)
Continual Multimodal Contrastive Learning [70.60542106731813]
マルチモーダル・コントラッシブ・ラーニング(MCL)は、異なるモーダルを整列させ、関節空間で多モーダル表現を生成する。マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文参考訳（メタデータ） (2025-03-19T07:57:08Z)
PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。 PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文参考訳（メタデータ） (2025-01-16T08:04:04Z)
Explaining and Mitigating the Modality Gap in Contrastive Multimodal Learning [7.412307614007383]
マルチモーダル学習モデルは、共有表現空間を学習することにより、画像やテキストなどの様々なモダリティをブリッジするように設計されている。これらのモデルはしばしばモダリティギャップを示し、異なるモダリティが共有表現空間内の異なる領域を占める。トレーニング中にモダリティギャップを生じ、持続させる上で、不整合データペアと学習可能な温度パラメータの臨界的役割を同定する。
論文参考訳（メタデータ） (2024-12-10T20:36:49Z)
Learning Equi-angular Representations for Online Continual Learning [28.047867978274358]
特に, 神経崩壊を誘発し, 表現空間に単純な等角的タイトフレーム(ETF)構造を形成する。提案手法は,様々なオンライン連続学習シナリオにおいて,最先端の手法よりも顕著に優れていることを示す。
論文参考訳（メタデータ） (2024-04-02T04:29:01Z)
Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文参考訳（メタデータ） (2023-10-02T06:41:30Z)
CTP: Towards Vision-Language Continual Pretraining via Compatible Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。 VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文参考訳（メタデータ） (2023-08-14T13:53:18Z)
Self-aware and Cross-sample Prototypical Learning for Semi-supervised Medical Image Segmentation [10.18427897663732]
整合性学習は半教師付き医療画像セグメンテーションにおいて重要な役割を担っている。これにより、注釈なしデータの豊富さを生かしながら、限られた注釈付きデータの有効利用が可能になる。一貫性学習における予測の多様性を高めるために,自己認識型・クロスサンプル型学習法(SCP-Net)を提案する。
論文参考訳（メタデータ） (2023-05-25T16:22:04Z)
CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。 TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文参考訳（メタデータ） (2022-10-19T03:43:12Z)
Beyond Just Vision: A Review on Self-Supervised Representation Learning on Multimodal and Temporal Data [10.006890915441987]
自己教師型学習の普及は、従来のモデルがトレーニングに大量の十分な注釈付きデータを必要とするという事実によって引き起こされる。モデルの差別的事前学習を通じて、訓練データの効率を向上させるための自己指導手法が導入された。我々は,時間的データに対するマルチモーダルな自己教師型学習手法の総合的なレビューを初めて提供することを目的とする。
論文参考訳（メタデータ） (2022-06-06T04:59:44Z)
Robust Cross-Modal Representation Learning with Progressive Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-04-10T03:28:18Z)
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文参考訳（メタデータ） (2022-03-11T01:51:54Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。