Fugu-MT 論文翻訳(概要): ConTrans: Weak-to-Strong Alignment Engineering via Concept Transplantation

論文の概要: ConTrans: Weak-to-Strong Alignment Engineering via Concept Transplantation

arxiv url: http://arxiv.org/abs/2405.13578v1
Date: Wed, 22 May 2024 12:15:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 00:14:28.050606
Title: ConTrans: Weak-to-Strong Alignment Engineering via Concept Transplantation
Title（参考訳）: ConTrans: 概念移植による弱在位アライメントエンジニアリング
Authors: Weilong Dong, Xinwei Wu, Renren Jin, Shaoyang Xu, Deyi Xiong,
Abstract要約: ConTransは、コンセプト移植による弱いアライメント転送を可能にする新しいフレームワークである。 LLM-ファミリー間およびLLM-ファミリー内の両方のコンセプト移植の有効性を実験的に検証した。
参考スコア（独自算出の注目度）: 35.95755927728259
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Ensuring large language models (LLM) behave consistently with human goals, values, and intentions is crucial for their safety but yet computationally expensive. To reduce the computational cost of alignment training of LLMs, especially for those with a huge number of parameters, and to reutilize learned value alignment, we propose ConTrans, a novel framework that enables weak-to-strong alignment transfer via concept transplantation. From the perspective of representation engineering, ConTrans refines concept vectors in value alignment from a source LLM (usually a weak yet aligned LLM). The refined concept vectors are then reformulated to adapt to the target LLM (usually a strong yet unaligned base LLM) via affine transformation. In the third step, ConTrans transplants the reformulated concept vectors into the residual stream of the target LLM. Experiments demonstrate the successful transplantation of a wide range of aligned concepts from 7B models to 13B and 70B models across multiple LLMs and LLM families. Remarkably, ConTrans even surpasses instruction-tuned models in terms of truthfulness. Experiment results validate the effectiveness of both inter-LLM-family and intra-LLM-family concept transplantation. Our work successfully demonstrates an alternative way to achieve weak-to-strong alignment generalization and control.
Abstract（参考訳）: 大きな言語モデル(LLM)の保証は、人間の目標、価値観、意図と一貫して振る舞う。本研究では,LLMのアライメントトレーニング,特に多数のパラメータを持つ場合の計算コストの低減と,学習値アライメントの再活用を目的として,概念移植による弱いアライメント転送を可能にする新しいフレームワークであるConTransを提案する。表現工学の観点からは、ConTrans はソース LLM (通常は弱いが整列 LLM) から値アライメントの概念ベクトルを洗練する。精製された概念ベクトルはアフィン変換により目標のLSM(通常は強で不整合なベースLSM)に適応するように再構成される。第3のステップでは、ConTransは、再構成された概念ベクトルをターゲットLLMの残留ストリームに移植する。実験では、7Bモデルから13Bモデル、70Bモデルへ、複数のLLMファミリーとLLMファミリーをまたいだ広範囲なアライメント概念の移植に成功した。正直なところ、ConTransは命令で調整されたモデルを超えている。 LLM-ファミリー間およびLLM-ファミリー内の両方のコンセプト移植の有効性を実験的に検証した。本研究は,弱いアライメントの一般化と制御を実現するための代替手法の実証に成功している。

関連論文リスト

MoL-RL: Distilling Multi-Step Environmental Feedback into LLMs for Feedback-Independent Reasoning [3.486190892832845]
MoL-RLは、多段階EF信号を大規模言語モデルに統合する新しい訓練パラダイムである。我々は,MoL-RLがQwen3-8Bモデルを用いて最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-07-27T13:52:15Z)
Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文参考訳（メタデータ） (2025-06-30T02:56:11Z)
Cross-model Transferability among Large Language Models on the Platonic Representations of Concepts [24.990218468155383]
この研究は、異なる大言語モデル(LLM)における概念表現間の複雑な関係を探求する。我々はこれらの表現をブリッジする線形変換法を導入し、プラトンの洞窟のアレゴリーに平行な興味をそそる。より小さなLSMから抽出されたSVは、より大きなLSMの挙動を効果的に制御できる。
論文参考訳（メタデータ） (2025-01-02T11:56:59Z)
Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文参考訳（メタデータ） (2024-11-04T15:54:32Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
GenEOL: Harnessing the Generative Power of LLMs for Training-Free Sentence Embeddings [7.957874169275548]
トレーニング不要な埋め込み手法は、事前訓練された大規模言語モデル(LLM)を直接利用してテキストを埋め込む。そこで本研究では,LLMを用いて意味を保った文の多種多様な変換を生成する手法を提案する。
論文参考訳（メタデータ） (2024-10-18T17:36:53Z)
SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [40.74693126923826]
MLLM(Multimodal Large Language Models)は近年,知覚能力や推論能力が著しく向上している。イメージレベルの監督を施したトレーニングアダプタは、しばしば重大なミスアライメントをもたらす。本稿では,視覚言語による事前学習モデルを活用したトークンレベルのアライメント手法であるSupervised Embedding Alignment (SEA)を紹介する。
論文参考訳（メタデータ） (2024-08-21T17:58:02Z)
Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。 WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。 Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文参考訳（メタデータ） (2024-08-06T10:46:46Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文参考訳（メタデータ） (2023-10-24T03:08:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。