論文の概要: ProtTeX-CC: Activating In-Context Learning in Protein LLM via Two-Stage Instruction Compression
- arxiv url: http://arxiv.org/abs/2508.12212v1
- Date: Sun, 17 Aug 2025 03:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.616351
- Title: ProtTeX-CC: Activating In-Context Learning in Protein LLM via Two-Stage Instruction Compression
- Title(参考訳): ProtTeX-CC:2段階命令圧縮によるタンパク質LDMにおける文脈学習の活性化
- Authors: Chuanliu Fan, Zicheng Ma, Jun Gao, Nan Yu, Jun Zhang, Ziqiang Cao, Yi Qin Gao, Guohong Fu,
- Abstract要約: Prot-CCは軽量な2段階圧縮フレームワークで、数ショット設定でProt予測を強化するように設計されている。
本稿では,最後の数個のトークンの潜在空間に全デモを集約する自己圧縮モジュールを提案する。
従来の Prot と比較して,我々の自己圧縮手法は,16ショット設定時の総プロンプト長の約93.68%の圧縮比を達成している。
- 参考スコア(独自算出の注目度): 13.87282887141607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in protein large language models, such as ProtTeX, represent both side-chain amino acids and backbone structure as discrete token sequences of residue length. While this design enables unified modeling of multimodal protein information, it suffers from two major limitations: (1) The concatenation of sequence and structure tokens approximately doubles the protein length and breaks the intrinsic residue-level alignment between modalities. (2) Constrained by the training corpus and limited context window, ProtTeX is typically trained on single-protein inputs, rendering it incompatible with in-context learning (ICL) and thus limiting its generalization capability. To address these issues, we propose ProtTeX-CC, a lightweight two-stage compression framework designed to enhance ProtTeX under few-shot settings. We first design a joint embedding compression mechanism that fuses sequence and structure representations at the residue level, effectively reducing the protein input length by half without sacrificing performance. Then we propose a self-compression module that aggregates each full demonstration into the latent space of the last few linguistic tokens, reducing the average demonstration length from 751 tokens to less than 16 tokens. Compared to the original ProtTeX, our self-compression approach achieves a compression ratio of approximately 93.68% in the total prompt length under the 16-shot setting. Without modifying the backbone model, ProtTeX-CC introduces only a small number of additional parameters through PEFT-based tuning in the joint embedding compression stage and a single trainable projection layer in the self-compression stage. Extensive experiments on protein function prediction show that ProtTeX-CC improves performance on the in-domain benchmark by 2%, and generalizes well to the out-of-domain dataset with a performance gain of 11%.
- Abstract(参考訳): ProtTeXのようなタンパク質大言語モデルの最近の進歩は、側鎖アミノ酸とバックボーン構造の両方を、残基長の離散トークン配列として表している。
この設計は、マルチモーダルタンパク質情報の統一的なモデリングを可能にするが、(1)配列と構造トークンの連結は、タンパク質の長さをおよそ2倍にし、モダリティ間の固有残基レベルのアライメントを破る2つの大きな制限がある。
2) トレーニングコーパスと限定コンテキストウインドウで制約されたProtTeXは、通常、単一タンパク質入力で訓練され、インコンテキストラーニング(ICL)と互換性がなく、一般化能力を制限している。
これらの問題に対処するために,ProtTeX-CCを提案する。
まず, 残基レベルでの配列と構造表現を融合させ, 性能を犠牲にすることなく, タンパク質の入力長を半減するジョイント埋め込み圧縮機構を設計する。
次に,最後の数個の言語トークンの潜在空間に各実演を集約し,平均実演長を751トークンから16トークン未満に短縮する自己圧縮モジュールを提案する。
従来のProtTeXと比較すると,16ショット条件下での圧縮比は約93.68%である。
バックボーンモデルを変更することなく、ProtTeX-CCは、ジョイント埋め込み圧縮段階におけるPEFTベースのチューニングと自己圧縮段階における単一のトレーニング可能なプロジェクション層によって、少数の追加パラメータしか導入しない。
タンパク質機能予測に関する大規模な実験により、ProtTeX-CCはドメイン内のベンチマークのパフォーマンスを2%改善し、パフォーマンスが11%向上したドメイン外のデータセットによく適応することが示された。
関連論文リスト
- LaCo: Efficient Layer-wise Compression of Visual Tokens for Multimodal Large Language Models [62.240460476785934]
視覚エンコーダの中間層内で効果的なトークン圧縮を実現する新しいフレームワークであるLaCo(Layer-wise Visual Token Compression)を提案する。
LaCoは,1)空間-チャネル変換によって隣接するトークンを体系的にマージするレイヤワイドピクセルシャッフル機構,2)非パラメトリックショートカットを用いた残差学習アーキテクチャ,の2つのコアコンポーネントを導入している。
論文 参考訳(メタデータ) (2025-07-03T03:42:54Z) - R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search [61.4807238517108]
CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。
CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。
ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
論文 参考訳(メタデータ) (2025-05-22T16:06:59Z) - Efficient Implicit Neural Compression of Point Clouds via Learnable Activation in Latent Space [10.056460330355193]
Inlicit Neural Representations (INR) はディープラーニングの強力なパラダイムとして登場した。
静的クラウド圧縮のためのINRベースのフレームワークである textbfPICO を提案する。
当社のアプローチは競争力が高く、PCQMの平均利得は2.7倍10-3$である。
論文 参考訳(メタデータ) (2025-04-20T03:37:32Z) - ParallelComp: Parallel Long-Context Compressor for Length Extrapolation [51.68913021512016]
超長い文脈(テキスト長 >128K)の補間は、大きな言語モデル(LLM)にとって大きな課題である。
本研究では,メモリボトルネックを効果的に克服する並列長コンテキスト圧縮手法であるParallelCompを提案する。
チャンクスループットが1.76倍向上し、プリフィル段階では23.50倍の高速化を実現し、性能損失を無視できる。
論文 参考訳(メタデータ) (2025-02-20T07:10:43Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of
Large-Scale Pre-Trained Language Models [19.640997611256168]
我々は,事前学習された言語モデルの学習後の量子化と,対象タスクの量子化パラメータの一部のみを微調整するAlphaTuningを提案する。
具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータとスケーリングファクタの別個のセットに分解する。
GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
論文 参考訳(メタデータ) (2022-10-08T00:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。