論文の概要: Latent Space Communication via K-V Cache Alignment
- arxiv url: http://arxiv.org/abs/2601.06123v1
- Date: Sun, 04 Jan 2026 04:15:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.592999
- Title: Latent Space Communication via K-V Cache Alignment
- Title(参考訳): K-Vキャッシュアライメントによる潜時空間通信
- Authors: Lucio M. Dery, Zohar Yahav, Henry Prior, Qixuan Feng, Jiajun Shen, Arthur Szlam,
- Abstract要約: 我々は、複数のモデルのk-vキャッシュを整列する共有表現空間の学習を提案し、協調のための高帯域チャネルを作成する。
Gemma-2モデルを用いた一連の実験により、このアプローチがシームレスなモデル間通信を可能にするだけでなく、個々のモデルの性能を向上させることを実証した。
- 参考スコア(独自算出の注目度): 15.229218057888156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solving increasingly complex problems with large language models (LLMs) necessitates a move beyond individual models and towards multi-model systems that can effectively collaborate. While text has traditionally served as the medium for inter-model communication, a richer and more efficient exchange is possible if models can access each other's internal states directly. In this paper, we propose learning a shared representation space that aligns the k-v caches of multiple models, creating a high-bandwidth channel for collaboration without altering the underlying pre-trained parameters. We do so by augmenting each model with adapters to translate its state into and out of this shared space. Via a suite of experiments with Gemma-2 models, we demonstrate that this approach not only enables seamless inter-model communication but also improves individual model performance. We also show that the shared space allows for the direct transfer of learned skills, such as soft prompts, between different models. Our work represents a significant step towards a future where models can fluidly share knowledge and capabilities.
- Abstract(参考訳): 大きな言語モデル(LLM)でますます複雑な問題を解決するには、個々のモデルを超えて、効果的に協調できるマルチモデルシステムに移行する必要がある。
テキストは伝統的にモデル間通信の媒体として機能してきたが、モデルの内部状態に直接アクセスできれば、よりリッチで効率的な交換が可能になる。
本稿では,複数のモデルのk-vキャッシュを整列する共有表現空間の学習を提案し,基礎となる事前学習パラメータを変更することなく,協調のための高帯域チャネルを作成する。
私たちは、各モデルをアダプタで拡張して、その状態が共有スペースに変換されるようにします。
Gemma-2モデルを用いた一連の実験により、このアプローチがシームレスなモデル間通信を可能にするだけでなく、個々のモデルの性能を向上させることを実証した。
また、共有空間は、異なるモデル間でのソフトプロンプトなどの学習スキルの直接移動を可能にすることを示す。
私たちの仕事は、モデルが知識と能力を流動的に共有できる未来への重要な一歩を表しています。
関連論文リスト
- OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Activation Space Interventions Can Be Transferred Between Large Language Models [0.5541644538483947]
モデル間での安全介入は、共有活性化空間の学習されたマッピングを通して伝達可能であることを示す。
このアプローチは、バックドアの除去と有害なプロンプトの拒絶という、確立された2つのAI安全タスクに対して実証する。
また、バックドアに関連付けられた知識を組み込むために、モデルに微調整を施した新しいタスク、textitcorrupted機能を提案する。
論文 参考訳(メタデータ) (2025-03-06T13:38:44Z) - Federating Dynamic Models using Early-Exit Architectures for Automatic Speech Recognition on Heterogeneous Clients [12.008071873475169]
フェデレートラーニング(Federated Learning)とは、異なるクライアント上でデータをローカルに保ちながら、共有予測モデルを共同で学習するテクニックである。
本稿では, 早期解を用いた動的アーキテクチャを用いて, 入力や動作条件に応じて, その処理を適応させることができることを提案する。
このソリューションは、部分的なトレーニングメソッドの領域に該当し、2つのメリットをもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:32:37Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。