論文の概要: Streamlining the Collaborative Chain of Models into A Single Forward Pass in Generation-Based Tasks
- arxiv url: http://arxiv.org/abs/2502.11083v1
- Date: Sun, 16 Feb 2025 11:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:13:00.186746
- Title: Streamlining the Collaborative Chain of Models into A Single Forward Pass in Generation-Based Tasks
- Title(参考訳): 生成タスクにおけるモデルの協調連鎖を1つの前方通過に合理化する
- Authors: Yuanjie Lyu, Chao Zhang, Yuhao Chen, Yong Chen, Tong Xu,
- Abstract要約: Retrieval-Augmented Generation(RAG)やエージェントベースのフレームワークでは、"Chain of Models"アプローチが広く使われている。
最近の進歩は、複数のタスクに適応する共有ベースモデルを可能にするプロンプトチューニングを適用することで、この問題に対処しようとしている。
本稿では,隠れ状態の共有を可能にする新しいプロンプトチューニング手法であるFTHSSを紹介する。
- 参考スコア(独自算出の注目度): 13.254837575157786
- License:
- Abstract: In Retrieval-Augmented Generation (RAG) and agent-based frameworks, the "Chain of Models" approach is widely used, where multiple specialized models work sequentially on distinct sub-tasks. This approach is effective but increases resource demands as each model must be deployed separately. Recent advancements attempt to address this by applying prompt tuning, which allows a shared base model to adapt to multiple tasks with minimal parameter changes. However, a key challenge remains: intermediate outputs, passed between models as plain text, require recomputation of hidden states (i.e., Key and Value (KV) states in Transformers) during inference. In this paper, we introduce FTHSS, a novel prompt-tuning method that enables models to share KV hidden states, eliminating redundant forward passes and reducing KV cache storage. By modifying input and attention masks during training, FTHSS allows models to effectively utilize KV hidden states from prior models in both single- and multi-round scenarios. Empirical results on four tasks show that FTHSS matches the performance of traditional model chains while improving inference efficiency.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) とエージェントベースのフレームワークでは、複数の専門モデルが異なるサブタスクで順次機能する "Chain of Models" アプローチが広く使用されている。
このアプローチは効果的だが、各モデルを別々にデプロイする必要があるため、リソース要求を増加させる。
最近の進歩は、プロンプトチューニングを適用することでこの問題に対処しようとしている。これは、共有ベースモデルが最小限のパラメータ変更で複数のタスクに適応できるようにする。
しかし、重要な課題は残る: 中間出力は、モデル間でプレーンテキストとして渡され、推論中に隠れた状態(すなわち、トランスフォーマーのキーとバリュー(KV)状態)を再計算する必要がある。
本稿では,KV隠蔽状態をモデルで共有し,冗長なフォワードパスを排除し,KVキャッシュストレージを削減できる新しいプロンプトチューニング手法であるFTHSSを紹介する。
トレーニング中にインプットマスクとアテンションマスクを変更することで、FTHSSはモデルがシングルラウンドシナリオとマルチラウンドシナリオの両方で、以前のモデルから隠れたKV状態を効果的に利用できるようにする。
4つのタスクの実証結果から、FTHSSは従来のモデルチェーンの性能と一致し、推論効率は向上した。
関連論文リスト
- Single Parent Family: A Spectrum of Family Members from a Single Pre-Trained Foundation Model [20.054342930450055]
本稿では,大規模言語モデルの圧縮に適したプログレッシブ・ローランク分解法(PLRD)を提案する。
PLRDは計算オーバーヘッドとエネルギー消費を大幅に削減する。
この結果から,PLRD は LLM の効率的なスケーリングのための新しい標準となる可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-28T15:27:57Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Building a Winning Team: Selecting Source Model Ensembles using a
Submodular Transferability Estimation Approach [20.86345962679122]
公開されている事前訓練されたモデルの目標タスクへの転送可能性の推定は、伝達学習タスクにとって重要な場所となっている。
本稿では, モデルアンサンブルの下流タスクへの転送可能性を評価するために, 最適なtranSportベースのsuBmOdular tRaNsferability Metrics(OSBORN)を提案する。
論文 参考訳(メタデータ) (2023-09-05T17:57:31Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。
情報不足と後部崩壊という2つの課題に悩まされている。
本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文 参考訳(メタデータ) (2021-06-16T06:36:26Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。