論文の概要: Model alignment using inter-modal bridges
- arxiv url: http://arxiv.org/abs/2505.12322v1
- Date: Sun, 18 May 2025 09:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.163203
- Title: Model alignment using inter-modal bridges
- Title(参考訳): モーダル橋を用いたモデルアライメント
- Authors: Ali Gholamzadeh, Noor Sajid,
- Abstract要約: 既存の方法は、広範なペアトレーニングデータを必要とするか、特定のドメインに制約される。
条件付きフローマッチングによるモデルアライメントのための半教師付きアプローチを提案する。
本手法は、最小限の監督を伴い、モーダル間モデルアライメントのためのデータ効率のよいソリューションを提供する。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Foundation models have demonstrated remarkable performance across modalities such as language and vision. However, model reuse across distinct modalities (e.g., text and vision) remains limited due to the difficulty of aligning internal representations. Existing methods require extensive paired training data or are constrained to specific domains. We introduce a semi-supervised approach for model alignment via conditional flow matching. The conditional flow between latent spaces of different modalities (e.g., text-to-image or biological-to-artificial neuronal activity) can be learned in two settings: ($1$) solving a (balanced or unbalanced) optimal transport problem with an inter-space bridge cost, and ($2$) performing memory-efficient alignment using labelled exemplars. Despite being constrained by the original models' capacity, our method--under both settings--matches downstream task performance of end-to-end trained models on object recognition and image generation tasks across MNIST, ImageNet, and \cite{majaj2015simple} datasets, particularly when labelled training data is scarce ($<20\%$). Our method provides a data-efficient solution for inter-modal model alignment with minimal supervision.
- Abstract(参考訳): ファンデーションモデルは言語や視覚といったモダリティにまたがる顕著なパフォーマンスを示してきた。
しかし、内部表現の整合が困難であるため、異なるモダリティ(例えば、テキストや視覚)にわたるモデルの再利用は制限されている。
既存の方法は、広範なペアトレーニングデータを必要とするか、特定のドメインに制約される。
条件付きフローマッチングによるモデルアライメントのための半教師付きアプローチを提案する。
異なるモダリティ(例えば、テキスト・ツー・イメージまたは生物学的・人工ニューロン活動)の潜伏空間間の条件流は、空間間橋のコストで(バランスの取れたまたはバランスの取れていない)最適な輸送問題を解く1$と、ラベル付き例を用いてメモリ効率の高いアライメントを実行する2$の2つの設定で学習することができる。
MNIST、ImageNet、および \cite{majaj2015simple}データセットにまたがるオブジェクト認識および画像生成タスクに関するエンドツーエンドのトレーニングされたモデルのダウンストリームタスクパフォーマンス、特にラベル付きトレーニングデータが不足している場合($<20\%$)。
本手法は、最小限の監督を伴い、モーダル間モデルアライメントのためのデータ効率のよいソリューションを提供する。
関連論文リスト
- Task-Specific Adaptation with Restricted Model Access [23.114703555189937]
モデルアーキテクチャと重みがまだ隠されている"Gray-box"微調整アプローチは、勾配伝播のみを可能にする。
モデル入力と出力の2つの軽量な学習可能なモジュールを用いて、新しいタスクに適応する、シンプルで効果的なフレームワークを新たに導入する。
我々は,テキスト画像アライメント,テキスト映像アライメント,スケッチ画像アライメントなどのベンチマークで,複数のバックボーンにまたがるアプローチを評価した。
論文 参考訳(メタデータ) (2025-02-02T13:29:44Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Parameter Competition Balancing for Model Merging [13.66727853299506]
PCB-Mergingは、効果的なモデルマージのために各パラメータの係数を調整する訓練不要の手法である。
PCB-Mergingは、複数のモダリティ、ドメイン、モデルサイズ、タスク数、微調整フォーム、および大きな言語モデルにわたる大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-10-03T11:17:58Z) - Twin-Merging: Dynamic Integration of Modular Expertise in Model Merging [21.918559935122786]
モデルマージは、複数のタスク固有のモデルを、余分なトレーニングなしで単一のマルチタスクモデルに結合する、有望な方法である。
従来のモデルマージ手法は、微調整されたモデルに比べて大きな性能差を示すことが多い。
共有されたタスク固有の知識と排他的なタスク固有の知識の両方が、パフォーマンスのマージには不可欠であるが、排他的な知識を直接マージすることは、全体的なパフォーマンスを妨げていることを示す。
本稿では,1)知識を共有コンポーネントと排他コンポーネントにモジュール化し,冗長性を低減し効率を向上する圧縮,(2)共有およびタスク固有の知識を動的にマージする,という2つの主要な段階を包含する手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T02:31:55Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T09:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。