論文の概要: Secure Linear Alignment of Large Language Models
- arxiv url: http://arxiv.org/abs/2603.18908v1
- Date: Thu, 19 Mar 2026 13:43:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.1769
- Title: Secure Linear Alignment of Large Language Models
- Title(参考訳): 大規模言語モデルのセキュア線形アライメント
- Authors: Matt Gorbett, Suman Jana,
- Abstract要約: 言語モデルは、トレーニングの目的、アーキテクチャ、データモダリティの違いにもかかわらず、同様の表現を学ぶ傾向にある。
本稿では、表現収束を利用してクロスサイロ推論を可能にするプライバシー保護フレームワークを提案する。
線形アライメントが、独立に訓練されたモデル間でテキスト生成を可能にすることが、初めて示された。
- 参考スコア(独自算出の注目度): 10.66607150500579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models increasingly appear to learn similar representations, despite differences in training objectives, architectures, and data modalities. This emerging compatibility between independently trained models introduces new opportunities for cross-model alignment to downstream objectives. Moreover, it unlocks new potential application domains, such as settings where security, privacy, or competitive constraints prohibit direct data or model sharing. In this work, we propose a privacy-preserving framework that exploits representational convergence to enable cross-silo inference between independent language models. The framework learns an affine transformation over a shared public dataset and applies homomorphic encryption to protect client queries during inference. By encrypting only the linear alignment and classification operations, the method achieves sub-second inference latency while maintaining strong security guarantees. We support this framework with an empirical investigation into representational convergence, in which we learn linear transformations between the final hidden states of independent models. We evaluate these cross-model mappings on embedding classification and out-of-distribution detection, observing minimal performance degradation across model pairs. Additionally, we show for the first time that linear alignment sometimes enables text generation across independently trained models.
- Abstract(参考訳): 言語モデルは、トレーニングの目的、アーキテクチャ、データモダリティの違いにもかかわらず、同様の表現を学ぶ傾向にある。
独立に訓練されたモデル間のこの新たな互換性は、下流の目的に対して、クロスモデルアライメントの新たな機会をもたらす。
さらに、セキュリティやプライバシ、競争上の制約によって直接的なデータやモデル共有が禁止されるような、新たな潜在的なアプリケーションドメインもアンロックされる。
本研究では,独立言語モデル間のクロスサイロ推論を実現するために,表現収束を利用したプライバシ保護フレームワークを提案する。
このフレームワークは、共有公開データセット上のアフィン変換を学び、同型暗号化を適用して、推論中にクライアントクエリを保護する。
線形アライメントと分類操作のみを暗号化することにより、強力なセキュリティ保証を維持しながら、サブ秒間推論遅延を実現する。
我々はこの枠組みを表現収束に関する実証的研究で支持し、独立モデルの最終的な隠れ状態間の線形変換を学習する。
モデルペア間の最小性能劣化を観測し, 組込み分類と分布外検出におけるこれらのクロスモデルマッピングの評価を行った。
さらに、線形アライメントによって、独立に訓練されたモデル間でテキスト生成が可能であることも初めて示している。
関連論文リスト
- Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [57.19302613163439]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - FedSA: A Unified Representation Learning via Semantic Anchors for Prototype-based Federated Learning [4.244188591221394]
本稿では,FedSA(Federated Learning via Semantic Anchors)という新しいフレームワークを提案する。
FedSAは、様々な分類タスクにおいて、既存のプロトタイプベースのFLメソッドを著しく上回っている。
論文 参考訳(メタデータ) (2025-01-09T16:10:03Z) - Learning to Generate Training Datasets for Robust Semantic Segmentation [37.9308918593436]
セマンティックセグメンテーション手法の堅牢性を改善するための新しい手法を提案する。
我々は,現実的で可視な摂動画像を生成するために,新しい条件付き生成対向ネットワークであるRobustaを設計した。
我々の結果は、このアプローチが安全クリティカルなアプリケーションに有用である可能性を示唆している。
論文 参考訳(メタデータ) (2023-08-01T10:02:26Z) - Client-specific Property Inference against Secure Aggregation in
Federated Learning [52.8564467292226]
フェデレートラーニングは、さまざまな参加者の間で共通のモデルを協調的に訓練するための、広く使われているパラダイムとなっている。
多くの攻撃は、メンバーシップ、資産、または参加者データの完全な再構築のような機密情報を推測することは依然として可能であることを示した。
単純な線形モデルでは、集約されたモデル更新からクライアント固有のプロパティを効果的にキャプチャできることが示される。
論文 参考訳(メタデータ) (2023-03-07T14:11:01Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Federated Self-Supervised Contrastive Learning via Ensemble Similarity
Distillation [42.05438626702343]
本稿では,未ラベルのクライアントデータによる良好な表現空間の学習の実現可能性について検討する。
本稿では,アーキテクチャに依存しないローカルトレーニングとコミュニケーション効率のよいグローバルアグリゲーションをサポートする,自己指導型コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-29T02:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。