論文の概要: Self-Supervised Learning as Discrete Communication
- arxiv url: http://arxiv.org/abs/2602.09764v1
- Date: Tue, 10 Feb 2026 13:24:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.547264
- Title: Self-Supervised Learning as Discrete Communication
- Title(参考訳): 離散的コミュニケーションとしての自己指導型学習
- Authors: Kawtar Zaher, Ilyass Moummad, Olivier Buisson, Alexis Joly,
- Abstract要約: ほとんどの自己教師付き学習(SSL)メソッドは、同じ入力の異なるビューを整列させることで、連続的な視覚表現を学習する。
我々は,教師と学生ネットワーク間の個別のコミュニケーションプロセスとして,視覚的自己教師型学習の枠組みを定めている。
プロジェクションヘッドの周期的再起動は、予測的のままの埋め込みを促進することによって、この効果を高めることを示す。
- 参考スコア(独自算出の注目度): 3.33876524834826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most self-supervised learning (SSL) methods learn continuous visual representations by aligning different views of the same input, offering limited control over how information is structured across representation dimensions. In this work, we frame visual self-supervised learning as a discrete communication process between a teacher and a student network, where semantic information is transmitted through a fixed-capacity binary channel. Rather than aligning continuous features, the student predicts multi-label binary messages produced by the teacher. Discrete agreement is enforced through an element-wise binary cross-entropy objective, while a coding-rate regularization term encourages effective utilization of the constrained channel, promoting structured representations. We further show that periodically reinitializing the projection head strengthens this effect by encouraging embeddings that remain predictive across multiple discrete encodings. Extensive experiments demonstrate consistent improvements over continuous agreement baselines on image classification, retrieval, and dense visual prediction tasks, as well as under domain shift through self-supervised adaptation. Beyond backbone representations, we analyze the learned binary codes and show that they form a compact and informative discrete language, capturing semantic factors reusable across classes.
- Abstract(参考訳): ほとんどの自己教師付き学習(SSL)は、同じ入力の異なるビューを整列させることで連続的な視覚表現を学習し、情報がどのように表現次元にわたって構造化されているかの限定的な制御を提供する。
本研究では,教師と学生のネットワーク間の個別のコミュニケーションプロセスとして視覚的自己教師型学習を構成し,そこでは意味情報を固定容量のバイナリチャネルを介して伝達する。
連続的な特徴を整列するのではなく、教師が生成する複数ラベルのバイナリメッセージを予測する。
離散一致は、要素単位のバイナリ・クロスエントロピーの目的によって実施され、符号化レートの正規化項は、制約されたチャネルの有効利用を促進し、構造化された表現を促進する。
さらに、プロジェクションヘッドの周期的再起動は、複数の離散符号化で予測可能な埋め込みを促進することによって、この効果を高めることを示す。
大規模な実験は、画像分類、検索、密集した視覚予測タスク、および自己教師付き適応によるドメインシフトに基づく連続的な合意ベースラインに対する一貫した改善を示す。
バックボーン表現の他に、学習したバイナリコードを解析し、それらがコンパクトで情報的な離散言語を形成し、クラス間で再利用可能な意味的要因をキャプチャすることを示す。
関連論文リスト
- Patch-Level Kernel Alignment for Dense Self-Supervised Learning [7.5866326278176075]
Patch-level Kernel Alignment (PaKA) は、非パラメトリックなカーネルベースのアプローチで、事前学習した視覚エンコーダの高密度表現をポスト(pre)トレーニングで改善する。
本フレームワークは,事前学習モデル上に軽量な後学習段階を施すことにより,高密度表現を改善する。
1つのGPUで14時間追加のトレーニングを行うだけで、この手法は様々な高密度ビジョンベンチマークで最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-09-06T05:42:32Z) - Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations [6.990891188823598]
本稿では,視覚言語学習と差別的・生成的自己スーパービジョンを組み合わせたフレームワークであるHarmonyを紹介する。
本フレームワークは,自己教師型学習パスにおけるネガティブな例に頼らず,Webスクラッドデータに特化して動作するように設計されている。
様々な視覚的下流タスクにおけるハーモニーの評価を行い、ベースラインCLIPを著しく上回ります。
論文 参考訳(メタデータ) (2024-05-23T07:18:08Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Co$^2$L: Contrastive Continual Learning [69.46643497220586]
近年の自己教師型学習のブレークスルーは、このようなアルゴリズムが視覚的な表現を学習し、見えないタスクにもっとうまく移行できることを示している。
本稿では、連続的な学習と伝達可能な表現の維持に焦点を当てたリハーサルに基づく連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-28T06:14:38Z) - Cross-Modal Discrete Representation Learning [73.68393416984618]
本稿では,様々なモダリティにまたがるより細かい粒度を捉える表現を学習する自己教師型学習フレームワークを提案する。
我々のフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散化された埋め込み空間に依存している。
論文 参考訳(メタデータ) (2021-06-10T00:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。