論文の概要: L3Ms -- Lagrange Large Language Models
- arxiv url: http://arxiv.org/abs/2410.21533v1
- Date: Mon, 28 Oct 2024 21:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:43:19.323726
- Title: L3Ms -- Lagrange Large Language Models
- Title(参考訳): L3Ms -- ラグランジュな大規模言語モデル
- Authors: Guneet S. Dhillon, Xingjian Shi, Yee Whye Teh, Alex Smola,
- Abstract要約: Supervised Fine-tuning (SFT) と Large Language Model (LLM) のアライメントは、優れたユーザエクスペリエンスを提供するための重要なステップである。
制約を強制するために対数障壁を用いるラグランジュ大言語モデル(L3Ms)を提案する。
各種用途に適したアライメントを実現するためのL3Msの有用性と有効性を実験的に実証した。
- 参考スコア(独自算出の注目度): 47.228171239031326
- License:
- Abstract: Supervised fine-tuning (SFT) and alignment of large language models (LLMs) are key steps in providing a good user experience. However, the concept of an appropriate alignment is inherently application-dependent, and current methods often rely on heuristic choices to drive the optimization. In this work, we formulate SFT and alignment as a constrained optimization problem, where the LLM is trained on a task while being required to meet application-specific requirements, without resorting to heuristics. To solve this, we propose Lagrange Large Language Models (L3Ms), which employ logarithmic barriers to enforce the constraints. This approach allows for the customization of L3Ms across diverse applications while avoiding heuristic-driven processes. We demonstrate experimentally the versatility and efficacy of L3Ms in achieving tailored alignments for various applications.
- Abstract(参考訳): Supervised Fine-tuning (SFT) と Large Language Model (LLM) のアライメントは、優れたユーザエクスペリエンスを提供するための重要なステップである。
しかし、適切なアライメントの概念は本質的にアプリケーションに依存しており、現在の手法は最適化を駆動するヒューリスティックな選択に依存していることが多い。
本研究では,SFTとアライメントを制約付き最適化問題として定式化し,LLMはヒューリスティックに頼らずに,アプリケーション固有の要件を満たす必要のあるタスクで訓練される。
この問題を解決するために,制約を強制するために対数障壁を用いるラグランジュ大言語モデル(L3Ms)を提案する。
このアプローチにより、ヒューリスティック駆動プロセスを避けながら、さまざまなアプリケーションにわたるL3Mのカスタマイズが可能になる。
各種用途に適したアライメントを実現するためのL3Msの有用性と有効性を実験的に実証した。
関連論文リスト
- LLM Bandit: Cost-Efficient LLM Generation via Preference-Conditioned Dynamic Routing [3.090041654375235]
本稿では, LLM選択過程を多武装バンディット問題として定式化する新しい枠組みを提案する。
提案手法は好み条件付き動的ルーティング機構を組み込んでおり、ユーザーは推論時に好みを指定できる。
提案手法は,LLMプラットフォーム間での精度とコスト効率の両立を実現している。
論文 参考訳(メタデータ) (2025-02-04T22:09:43Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。
AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文 参考訳(メタデータ) (2024-11-15T22:02:28Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。
ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。
また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文 参考訳(メタデータ) (2024-08-07T04:20:28Z) - Solving General Natural-Language-Description Optimization Problems with Large Language Models [34.50671063271608]
外部ソルバでLLMを増強するOPtLLMという新しいフレームワークを提案する。
OptLLMは自然言語でユーザクエリを受け付け、それらを数学的定式化やプログラミングコードに変換し、解決者を呼び出して結果を計算する。
OptLLMフレームワークのいくつかの機能は、2023年6月から試用されている。
論文 参考訳(メタデータ) (2024-07-09T07:11:10Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Large Language Model-Based Evolutionary Optimizer: Reasoning with
elitism [1.1463861912335864]
大規模言語モデル(LLM)は、顕著な推論能力を示している。
本稿では,LLMが様々なシナリオにまたがるゼロショット最適化能力を有していることを主張する。
LLMを用いた数値最適化手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T13:57:37Z) - Independent Component Alignment for Multi-Task Learning [2.5234156040689237]
マルチタスク学習(MTL)では、複数のタスクに共同で取り組むために単一のモデルを訓練する。
MTL最適化の安定性基準として線形勾配系の条件数を用いる。
本稿では,提案基準に基づく新しいMTL最適化手法であるAligned-MTLを提案する。
論文 参考訳(メタデータ) (2023-05-30T12:56:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。