論文の概要: Flexible Realignment of Language Models
- arxiv url: http://arxiv.org/abs/2506.12704v1
- Date: Sun, 15 Jun 2025 03:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.710221
- Title: Flexible Realignment of Language Models
- Title(参考訳): フレキシブルな言語モデルの実現
- Authors: Wenhong Zhu, Ruobing Xie, Weinan Zhang, Rui Wang,
- Abstract要約: 本稿では,トレーニングと推論におけるアライメント度を定量的に制御するフレキシブル・アライメント・フレームワークを提案する。
TrRaは、参照モデルとすでに整列しているモデルの両方から制御可能なロジットの融合を活用することで、参照モデルを効率的に実現します。
私たちは、DeepSeek-R1-Distill-Qwen-7Bを、スロー思考モデルから、高速思考とスロー思考の両方をサポートするモデルにアップグレードし、推論時でも柔軟なアライメント制御を可能にします。
- 参考スコア(独自算出の注目度): 38.52125547370188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Realignment becomes necessary when a language model (LM) fails to meet expected performance. We propose a flexible realignment framework that supports quantitative control of alignment degree during training and inference. This framework incorporates Training-time Realignment (TrRa), which efficiently realigns the reference model by leveraging the controllable fusion of logits from both the reference and already aligned models. For example, TrRa reduces token usage by 54.63% on DeepSeek-R1-Distill-Qwen-1.5B without any performance degradation, outperforming DeepScaleR-1.5B's 33.86%. To complement TrRa during inference, we introduce a layer adapter that enables smooth Inference-time Realignment (InRa). This adapter is initialized to perform an identity transformation at the bottom layer and is inserted preceding the original layers. During inference, input embeddings are simultaneously processed by the adapter and the original layer, followed by the remaining layers, and then controllably interpolated at the logit level. We upgraded DeepSeek-R1-Distill-Qwen-7B from a slow-thinking model to one that supports both fast and slow thinking, allowing flexible alignment control even during inference. By encouraging deeper reasoning, it even surpassed its original performance.
- Abstract(参考訳): 言語モデル(LM)が期待される性能を満たさない場合には、リファインメントが必要になる。
本稿では,トレーニングと推論におけるアライメント度を定量的に制御するフレキシブル・アライメント・フレームワークを提案する。
このフレームワークには、参照モデルとすでに整列しているモデルの両方から、管理可能なロジットの融合を活用することで、参照モデルを効率的に実現する訓練時再配置(TrRa)が組み込まれている。
例えば、TrRaはDeepSeek-R1-Distill-Qwen-1.5Bのトークン使用量を54.63%削減し、DeepScaleR-1.5Bの33.86%を上回った。
推論中にTrRaを補完するために,推論時適応(InRa)を円滑に行う層アダプタを導入する。
このアダプタは、底層でアイデンティティ変換を行うために初期化され、元の層の前に挿入される。
推論中、入力埋め込みはアダプタと元の層で同時に処理され、その後残りの層が続き、ロジットレベルで制御的に補間される。
私たちは、DeepSeek-R1-Distill-Qwen-7Bを、スロー思考モデルから、高速思考とスロー思考の両方をサポートするモデルにアップグレードしました。
より深い推論を奨励することで、オリジナルのパフォーマンスを超越した。
関連論文リスト
- Representation Similarity: A Better Guidance of DNN Layer Sharing for Edge Computing without Training [3.792729116385123]
本稿では,表現類似度Sで導かれる表現をエッジで共有することで,新しいモデルマージ方式を提案する。
Pearson correlation Coefficient |r| > 0.94 than other metrics。
論文 参考訳(メタデータ) (2024-10-15T03:35:54Z) - Semi-Supervised Coupled Thin-Plate Spline Model for Rotation Correction and Beyond [84.56978780892783]
制御点が限られている複数のTPSを、より柔軟で強力な変換に繰り返し結合するCoupledTPSを提案する。
注記コストを考慮に入れた半教師付き学習手法を開発し、ラベルのないデータを活用することにより、ワープ品質を向上させる。
実験は、回転補正のための既存の最先端解よりもCoupledTPSの優位性と普遍性を示す。
論文 参考訳(メタデータ) (2024-01-24T13:03:28Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Latency Adjustable Transformer Encoder for Language Understanding [0.8287206589886879]
本稿では,提案する推論遅延の高速化により,推論コストを適応的に調整する効率的なトランスフォーマーアーキテクチャを提案する。
提案手法は,重要でないシークエンス要素(ワードベクター)を検出し,Actent Context Contribution (ACC) メトリックを用いて,各エンコーダ層でそれらを除去する。
提案手法は,BERT_base と GPT-2 の推論遅延を最大4.8倍,3.72倍に改善し,0.75% の精度低下と平均パープレキシティが可能である。
論文 参考訳(メタデータ) (2022-01-10T13:04:39Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Accumulated Decoupled Learning: Mitigating Gradient Staleness in
Inter-Layer Model Parallelization [16.02377434191239]
本稿では, 定常勾配効果を緩和するために, 勾配累積法を取り入れた累積非結合学習(ADL)を提案する。
提案手法は, 非同期性にもかかわらず, 臨界点, すなわち勾配が0に収束することを示す。
ADLは分類タスクにおいていくつかの最先端技術よりも優れており、比較手法の中では最速である。
論文 参考訳(メタデータ) (2020-12-03T11:52:55Z) - Align-Refine: Non-Autoregressive Speech Recognition via Iterative
Realignment [18.487842656780728]
非自己回帰モデルの出力を編集することで、補充モデルと反復精製モデルがこのギャップの一部を構成する。
本稿では、出力シーケンス空間ではなく、遅延アライメント上で補正が行われる反復再配置を提案する。
論文 参考訳(メタデータ) (2020-10-24T09:35:37Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。