Fugu-MT 論文翻訳(概要): SOTAlign: Semi-Supervised Alignment of Unimodal Vision and Language Models via Optimal Transport

論文の概要: SOTAlign: Semi-Supervised Alignment of Unimodal Vision and Language Models via Optimal Transport

arxiv url: http://arxiv.org/abs/2602.23353v1
Date: Thu, 26 Feb 2026 18:55:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.859756
Title: SOTAlign: Semi-Supervised Alignment of Unimodal Vision and Language Models via Optimal Transport
Title（参考訳）: SOTAlign: 最適輸送による一様視と言語モデルの半監督アライメント
Authors: Simon Roschmann, Paul Krzakala, Sonia Mazelet, Quentin Bouniot, Zeynep Akata,
Abstract要約: プラトン表現仮説(英: Platonic Representation hypothesis)は、ニューラルネットワークが世界の共有統計モデルに向かって収束するという仮説である。最近の研究は、凍結した事前学習された視覚と言語モデルを軽量なアライメント層に整列させることによって、この収束を利用する。我々は、極めて少ない監督で有意義なアライメントが達成できるかどうか尋ねる。事前訓練された単調エンコーダを少数の画像テキストペアと大量の未ペアデータを用いてアライメントする半教師付き設定を導入する。
参考スコア（独自算出の注目度）: 43.640561199880274
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Platonic Representation Hypothesis posits that neural networks trained on different modalities converge toward a shared statistical model of the world. Recent work exploits this convergence by aligning frozen pretrained vision and language models with lightweight alignment layers, but typically relies on contrastive losses and millions of paired samples. In this work, we ask whether meaningful alignment can be achieved with substantially less supervision. We introduce a semi-supervised setting in which pretrained unimodal encoders are aligned using a small number of image-text pairs together with large amounts of unpaired data. To address this challenge, we propose SOTAlign, a two-stage framework that first recovers a coarse shared geometry from limited paired data using a linear teacher, then refines the alignment on unpaired samples via an optimal-transport-based divergence that transfers relational structure without overconstraining the target space. Unlike existing semi-supervised methods, SOTAlign effectively leverages unpaired images and text, learning robust joint embeddings across datasets and encoder pairs, and significantly outperforming supervised and semi-supervised baselines.
Abstract（参考訳）: プラトン表現仮説(Platonic Representation hypothesis)は、異なるモダリティで訓練されたニューラルネットワークが世界の共有統計モデルに収束するという仮説である。最近の研究は、凍結した事前学習された視覚と言語モデルを軽量なアライメント層と整列させることによってこの収束を利用するが、典型的には対照的な損失と数百万対のサンプルに依存している。本研究では、極めて少ない監督で有意義なアライメントが達成できるかどうかを問う。事前訓練された単調エンコーダを少数の画像テキストペアと大量の未ペアデータを用いてアライメントする半教師付き設定を導入する。この課題に対処するため,まず,線形教師を用いた限られたペアデータから粗い共有幾何学を復元する2段階のフレームワークであるSOTAlignを提案する。既存の半教師付き手法とは異なり、SOTAlignは、修復されていない画像とテキストを効果的に活用し、データセットとエンコーダペア間の堅牢なジョイント埋め込みを学び、教師付きベースラインと半教師付きベースラインを大幅に上回る。

関連論文リスト

Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models [84.78794648147608]
永続的な幾何学的異常であるモダリティギャップが残っている。このギャップを埋める以前のアプローチは、過度に単純化された等方的仮定によってほとんど制限されている。固定フレームモダリティギャップ理論(英語版)を提案し、モダリティギャップを安定バイアスと異方性残差に分解する。次に、トレーニング不要なモダリティアライメント戦略であるReAlignを紹介します。
論文参考訳（メタデータ） (2026-02-02T13:59:39Z)
Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion [31.189038928192648]
Co2Sは半教師付きRSセグメンテーションフレームワークで、ビジョン言語モデルと自己教師型モデルとを融合する。テキスト埋め込みと学習可能なクエリを利用した,明示的でシンプルなセマンティックコガイダンス機構が導入された。 6つの一般的なデータセットに対する実験は,提案手法の優位性を実証している。
論文参考訳（メタデータ） (2025-12-28T18:24:19Z)
Semi-Supervised Contrastive Learning with Orthonormal Prototypes [1.478364697333309]
埋め込みが低次元空間に収束する次元崩壊は、大きな挑戦となる。クラス埋め込みにおける線形部分空間の形成を促進することにより,次元崩壊を防止することを目的とした,新しい半教師付き損失関数CLOPを提案する。 CLOPは画像分類やオブジェクト検出タスクの性能を向上させるとともに,学習速度やバッチサイズにまたがる安定性も向上することを示す。
論文参考訳（メタデータ） (2025-11-27T13:26:59Z)
TwinTURBO: Semi-Supervised Fine-Tuning of Foundation Models via Mutual Information Decompositions for Downstream Task and Latent Spaces [10.86297454943578]
本稿では,限られたラベル付きデータに対するトレーニングの課題に対処する,半教師付き微調整フレームワークを提案する。いくつかのデータセットの実験では、極低ラベル条件下での分類タスクが大幅に改善された。
論文参考訳（メタデータ） (2025-03-10T20:56:54Z)
Bridging Critical Gaps in Convergent Learning: How Representational Alignment Evolves Across Layers, Training, and Distribution Shifts [1.9458156037869137]
収束学習は、神経システムが同様の内部表現に到達する度合いである。数十の視覚モデルと数千の層対比較にまたがる収束学習の大規模監査を行う。発見は、表現の収束に対する理解において重要なギャップを埋め、神経科学とAIに影響を及ぼす。
論文参考訳（メタデータ） (2025-02-26T00:04:24Z)
A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文参考訳（メタデータ） (2024-08-05T23:20:32Z)
Semi-Supervised Image Captioning by Adversarially Propagating Labeled Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。 1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文参考訳（メタデータ） (2023-01-26T15:25:43Z)
Adversarial Lagrangian Integrated Contrastive Embedding for Limited Size Datasets [8.926248371832852]
本研究では,小さなデータセットに対する新しい逆ラグランジアン統合コントラスト埋め込み(ALICE)法を提案する。提案手法の精度向上とトレーニング収束性を示す。種々の拡張手法を用いた新しい対角統合コントラストモデルについて検討した。
論文参考訳（メタデータ） (2022-10-06T23:59:28Z)
Mixed Graph Contrastive Network for Semi-Supervised Node Classification [63.924129159538076]
我々はMixed Graph Contrastive Network(MGCN)と呼ばれる新しいグラフコントラスト学習手法を提案する。本研究では,非摂動増強戦略と相関還元機構により,潜伏埋め込みの識別能力を向上する。これら2つの設定を組み合わせることで、識別表現学習のために、豊富なノードと稀に価値あるラベル付きノードの両方から、豊富な監視情報を抽出する。
論文参考訳（メタデータ） (2022-06-06T14:26:34Z)
Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文参考訳（メタデータ） (2022-03-18T09:14:13Z)
Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。 SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文参考訳（メタデータ） (2021-12-12T06:11:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。