論文の概要: Improving Conversational Abilities of Quantized Large Language Models via Direct Preference Alignment
- arxiv url: http://arxiv.org/abs/2407.03051v1
- Date: Wed, 3 Jul 2024 12:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 14:26:01.184142
- Title: Improving Conversational Abilities of Quantized Large Language Models via Direct Preference Alignment
- Title(参考訳): 直接選好アライメントによる量子化大言語モデルの会話能力の向上
- Authors: Janghwan Lee, Seongmin Park, Sukjin Hong, Minsoo Kim, Du-Seong Chang, Jungwook Choi,
- Abstract要約: 量子化対応直接選好最適化(QDPO)は、量子化大言語モデル(LLM)の会話能力を改善する
各種言語における2つの命令調整LDMにおいて,QDPOは,既存のPTQや知識蒸留細調整技術と比較して,会話能力の向上に優れた性能を示した。
- 参考スコア(独自算出の注目度): 8.91053640932991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of large language models (LLMs) has facilitated their transformation into conversational chatbots that can grasp contextual nuances and generate pertinent sentences, closely mirroring human values through advanced techniques such as instruction tuning and reinforcement learning from human feedback (RLHF). However, the computational efficiency required for LLMs, achieved through techniques like post-training quantization (PTQ), presents challenges such as token-flipping that can impair chatbot performance. In response, we propose a novel preference alignment approach, quantization-aware direct preference optimization (QDPO), that aligns quantized LLMs with their full-precision counterparts, improving conversational abilities. Evaluated on two instruction-tuned LLMs in various languages, QDPO demonstrated superior performance in improving conversational abilities compared to established PTQ and knowledge-distillation fine-tuning techniques, marking a significant step forward in the development of efficient and effective conversational LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、文脈のニュアンスを把握し、関連する文を生成できる会話型チャットボットへの変換を促進し、人間のフィードバックからの指導チューニングや強化学習(RLHF)といった高度な技術を通じて、人間の価値を忠実に反映している。
しかし、後学習量子化(PTQ)のような技術によって達成されるLLMに必要な計算効率は、チャットボットのパフォーマンスを損なうトークンフリッピングのような課題を提示している。
そこで本研究では,量子化されたLLMをその完全精度に整合させ,会話能力の向上を図るための,新しい選好アライメント手法であるQDPOを提案する。
各種言語における2つの命令調整 LLM を評価したところ、QDPO は既存のPTQ や知識蒸留細調整技術と比較して、会話能力の向上に優れた性能を示し、効率的で効果的な会話型 LLM の開発において大きな一歩を踏み出した。
関連論文リスト
- Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話におけるサンプル効率のよい対話ポリシー学習を可能にする。
ACTは、教師付き微調整とDPOのための標準的なアプローチよりも、相当な会話モデリングの改善を示す。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - BLSP-KD: Bootstrapping Language-Speech Pre-training via Knowledge Distillation [18.329192763760034]
BLSP-KD(Bootstrapping Language-Speech Pretraining)を知識蒸留により導入する。
音声入力とテキスト入力に対するLLMの次点予測分布のばらつきを最小化することで、音声テキストアライメントを最適化する。
また、音声を1対1でテキストトークンに対応するトークンに分割し、きめ細かいアライメントを可能にする。
論文 参考訳(メタデータ) (2024-05-29T12:32:08Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。
このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。
本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - Towards Understanding Counseling Conversations: Domain Knowledge and
Large Language Models [22.588557390720236]
本稿では,カウンセリング会話をより良く表現するために,ドメイン知識と大規模言語モデル(LLM)の有効性を検討するための体系的なアプローチを提案する。
本稿では,トランスフォーマーモデルやGPTモデルのような最先端言語モデルは,会話結果の予測に失敗することを示す。
論文 参考訳(メタデータ) (2024-02-22T01:02:37Z) - Boosting Large Language Model for Speech Synthesis: An Empirical Study [86.89548753080432]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。
我々は,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。
テキストエンコーダとしてLLMとVALL-Eを組み合わせることで,LLMとVALL-Eの3つの統合手法を比較した。
論文 参考訳(メタデータ) (2023-12-30T14:20:04Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Generative Speech Recognition Error Correction with Large Language
Models and Task-Activating Prompting [32.70214938434769]
本稿では,大規模言語モデル(LLM)の音声認識後処理機能について検討する。
我々は、ゼロショットと少数ショットのインコンテキスト学習と、新しいタスクアクティベーション・プロンプト法という、異なるプロンプト方式を評価する。
凍結LDMを用いた文脈内学習でのみ再構成を行うことで、ドメインチューニングLMによる再構成と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-09-27T13:36:03Z) - Connecting Large Language Models with Evolutionary Algorithms Yields
Powerful Prompt Optimizers [70.18534453485849]
EvoPromptは離散的なプロンプト最適化のためのフレームワークである。
進化的アルゴリズム(EA)の概念は、優れた性能と高速収束を示すものである。
人為的なプロンプトと既存の方法で自動プロンプト生成を著しく上回っている。
論文 参考訳(メタデータ) (2023-09-15T16:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。