論文の概要: PrismSSL: One Interface, Many Modalities; A Single-Interface Library for Multimodal Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2511.17776v1
- Date: Fri, 21 Nov 2025 20:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.417754
- Title: PrismSSL: One Interface, Many Modalities; A Single-Interface Library for Multimodal Self-Supervised Learning
- Title(参考訳): PrismSSL: ひとつのインターフェース,多数のモダリティ; マルチモーダルな自己教師型学習のための単一インターフェースライブラリ
- Authors: Melika Shirian, Kianoosh Vadaei, Kian Majlessi, Audrina Ebrahimi, Arshia Hemmat, Peyman Adibi, Hossein Karshenas,
- Abstract要約: PrismSSLは、最先端の自己教師付き学習(SSL)メソッドを単一のモジュール化されたフレームワークに統合するPythonライブラリである。
デモの目的は、 (i) 数行のコードでプレテキストトレーニングをインストール、設定、実行し、 (ii) コンパクトなベンチマークを再現し、 (iii) クリーンなトレーナーとデータセットの抽象化を通じて新しいモダリティやメソッドでフレームワークを拡張することである。
- 参考スコア(独自算出の注目度): 4.625772535034093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present PrismSSL, a Python library that unifies state-of-the-art self-supervised learning (SSL) methods across audio, vision, graphs, and cross-modal settings in a single, modular codebase. The goal of the demo is to show how researchers and practitioners can: (i) install, configure, and run pretext training with a few lines of code; (ii) reproduce compact benchmarks; and (iii) extend the framework with new modalities or methods through clean trainer and dataset abstractions. PrismSSL is packaged on PyPI, released under the MIT license, integrates tightly with HuggingFace Transformers, and provides quality-of-life features such as distributed training in PyTorch, Optuna-based hyperparameter search, LoRA fine-tuning for Transformer backbones, animated embedding visualizations for sanity checks, Weights & Biases logging, and colorful, structured terminal logs for improved usability and clarity. In addition, PrismSSL offers a graphical dashboard - built with Flask and standard web technologies - that enables users to configure and launch training pipelines with minimal coding. The artifact (code and data recipes) will be publicly available and reproducible.
- Abstract(参考訳): PrismSSLは、オーディオ、ビジョン、グラフ、クロスプラットフォーム設定を単一のモジュールコードベースで統合する、最先端の自己教師付き学習(SSL)メソッドである。
デモの目的は、研究者や実践者がどのようにできるかを示すことです。
i) 数行のコードでプレテキストトレーニングをインストール、設定、実行すること。
(ii)コンパクトベンチマークを再現し、
3) クリーントレーナーとデータセットの抽象化を通じて、新しいモダリティやメソッドでフレームワークを拡張します。
PrismSSLはMITライセンスでリリースされているPyPI上にパッケージされ、HuggingFace Transformersと密に統合され、PyTorchでの分散トレーニング、Optunaベースのハイパーパラメータ検索、トランスフォーマーバックボーンのためのLoRA微調整、サニティチェックのためのアニメーション埋め込み視覚化、Weights & Biasesロギング、ユーザビリティと明確性を改善するためのカラフルな構造化された端末ログなどの、QOL機能を提供する。
さらにPrismSSLは、最小限のコーディングでトレーニングパイプラインの設定と起動を可能にする、Fraskと標準的なWebテクノロジで構築されたグラフィカルなダッシュボードを提供する。
アーティファクト(コードとデータレシピ)は公開され、再現可能である。
関連論文リスト
- ByzFL: Research Framework for Robust Federated Learning [11.23722364748134]
提案するByzFLは,ベンチマーク学習(FL)アルゴリズムを開発するためのオープンソースのライブラリである。
ByzFLは、最先端の堅牢なアグリゲータの実装を含む統一されたフレームワークを提供する。
このライブラリは、単一ベースの構成ファイルを通じて体系的な実験を可能にし、結果を視覚化するための組み込みユーティリティを含んでいる。
論文 参考訳(メタデータ) (2025-05-30T17:08:15Z) - Scaling Language-Free Visual Representation Learning [62.31591054289958]
Visual Self-Supervised Learning (SSL) は現在、VQA (Visual Question Answering) のようなマルチモーダル環境で、コントラスト言語-画像事前学習 (CLIP) を過小評価している。
このマルチモーダルギャップは、視覚的なSSLとCLIPモデルが異なるデータでトレーニングされているにもかかわらず、言語監督によって導入されたセマンティクスに起因することが多い。
本稿では、同じMetaCLIPデータ上で、ビジュアルSSLとCLIPモデルの両方をトレーニングし、視覚エンコーダの多様なテストベッドとしてVQAを活用することにより、この問題を考察する。
論文 参考訳(メタデータ) (2025-04-01T17:59:15Z) - PyPulse: A Python Library for Biosignal Imputation [58.35269251730328]
PyPulseは,臨床およびウェアラブルの両方のセンサ設定において生体信号の計算を行うPythonパッケージである。
PyPulseのフレームワークは、非機械学習バイオリサーバーを含む幅広いユーザーベースに対して、使い勝手の良いモジュラーで拡張可能なフレームワークを提供する。
PyPulseはMITライセンスでGithubとPyPIでリリースしました。
論文 参考訳(メタデータ) (2024-12-09T11:00:55Z) - Lightweight Contenders: Navigating Semi-Supervised Text Mining through Peer Collaboration and Self Transcendence [20.877435864968234]
PS-NETは、軽量モデルによる半教師付きテキストマイニングに適した新しいフレームワークである。
PS-NETはオンライン蒸留を取り入れ、教師モデルを模倣して軽量の学生モデルを訓練する。
また、互いに協力的に教え合う学生同士のアンサンブルも統合されている。
論文 参考訳(メタデータ) (2024-12-01T16:44:27Z) - MALPOLON: A Framework for Deep Species Distribution Modeling [3.1457219084519004]
MALPOLONは深部種分布モデル(deep-SDM)の訓練と推測を容易にすることを目的としている
Pythonで書かれ、PyTorchライブラリ上に構築されている。
このフレームワークはGitHubとPyPiでオープンソース化されている。
論文 参考訳(メタデータ) (2024-09-26T17:45:10Z) - Stalactite: Toolbox for Fast Prototyping of Vertical Federated Learning Systems [37.11550251825938]
本稿では,VFL(Vertical Federated Learning)システムのためのオープンソースのフレームワークであるemphStalactiteを紹介する。
VFLはデータサンプルが複数のデータ所有者にまたがる機能によって分割されるFLの一種である。
実世界のレコメンデーションデータセットでその使い方を実証する。
論文 参考訳(メタデータ) (2024-09-23T21:29:03Z) - Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models [53.48409081555687]
本研究では,視覚機能のためのCLIP,音声機能のためのCLAPといった,このような大規模な事前学習モデルについて検討する。
本稿では,フィードフォワードニューラルネットワークのみに依存する,シンプルで効果的なモデルを提案する。
本フレームワークは,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSL上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-09T13:39:37Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z) - DATA: Domain-Aware and Task-Aware Pre-training [94.62676913928831]
我々は、自己教師付き学習(SSL)に特化した、シンプルで効果的なNASアプローチであるDataを提示する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,下流タスクにおける計算コストの広い範囲にわたる有望な結果を実現する。
論文 参考訳(メタデータ) (2022-03-17T02:38:49Z) - Solo-learn: A Library of Self-supervised Methods for Visual
Representation Learning [83.02597612195966]
solo-learnは視覚表現学習のための自己指導型のメソッドのライブラリである。
Pythonで実装され、PytorchとPytorch Lightningを使用して、このライブラリは研究と業界のニーズの両方に適合する。
論文 参考訳(メタデータ) (2021-08-03T22:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。