Fugu-MT 論文翻訳(概要): Length Controlled Generation for Black-box LLMs

論文の概要: Length Controlled Generation for Black-box LLMs

arxiv url: http://arxiv.org/abs/2412.14656v1
Date: Thu, 19 Dec 2024 09:07:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:16.069868
Title: Length Controlled Generation for Black-box LLMs
Title（参考訳）: ブラックボックスLLMの長寿命化
Authors: Yuxuan Gu, Wenjie Wang, Xiaocheng Feng, Weihong Zhong, Kun Zhu, Lei Huang, Tat-Seng Chua, Bing Qin,
Abstract要約: 大規模言語モデル (LLM) は印象的な命令に従う能力を示しているが、生成したテキストの長さを正確に管理することは困難である。本稿では,Metropolis-Hastingsアルゴリズムと重要なサンプリング高速化戦略を組み合わせた,テキスト長制御のための新しい反復サンプリングフレームワークを提案する。このフレームワークは,Llama3.1における長さ制御の抽象的要約などのタスクに対して,ほぼ100%の成功率を達成する。
参考スコア（独自算出の注目度）: 70.57649832433451
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have demonstrated impressive instruction following capabilities, while still struggling to accurately manage the length of the generated text, which is a fundamental requirement in many real-world applications. Existing length control methods involve fine-tuning the parameters of LLMs, which is inefficient and suboptimal for practical use. In this paper, we propose a novel iterative sampling framework for text length control, integrating the Metropolis-Hastings algorithm with an importance sampling acceleration strategy. This framework efficiently and reliably regulates LLMs to generate length-constrained text without modifying the underlying parameters, thereby preserving the original capabilities of LLMs. Experimental results demonstrate that our framework achieves almost 100\% success rates of length control on Llama3.1 for tasks such as length-controlled abstractive summarization and length-constrained instruction following, with minimal additional computational overhead. This also highlights the significant potential of our method for precise length control across a broader range of applications, without compromising the versatility of LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は、多くの実世界のアプリケーションにおいて基本的な要件である生成したテキストの長さを正確に管理するのに苦労しながら、印象的な命令に従う能力を示している。既存の長さ制御法では、LLMのパラメータを微調整する。本稿では,Metropolis-Hastingsアルゴリズムと重要なサンプリング高速化戦略を組み合わせた,テキスト長制御のための新しい反復サンプリングフレームワークを提案する。このフレームワークはLLMを効率的にかつ確実に制御し、基礎となるパラメータを変更することなく長制約のテキストを生成する。実験結果から,Llama3.1では,Llama3.1の最大長制御がほぼ100倍に向上し,計算オーバーヘッドが最小限に抑えられた。また,LLMの汎用性を損なうことなく,広い範囲のアプリケーションに対して精度の高い長さ制御を行う手法の有意義な可能性を強調した。

関連論文リスト

Zero-Shot Strategies for Length-Controllable Summarization [56.15356055672189]
大規模言語モデル(LLM)は、特にゼロショット設定において、正確な長さ制御に苦しむ。本研究では, LLMの長さ制御能力を複数の尺度で評価し, 制御性向上のための実用的手法を提案する。 LLaMA 3 を用いて行った実験では,測定値間の長さの密着性の違いが明らかになり,モデル固有のバイアスが強調された。
論文参考訳（メタデータ） (2024-12-31T02:53:27Z)
Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文参考訳（メタデータ） (2024-10-06T21:20:06Z)
Efficient Solutions For An Intriguing Failure of LLMs: Long Context Window Does Not Mean LLMs Can Analyze Long Sequences Flawlessly [6.685692482347038]
大規模言語モデル(LLM)は、長い逐次入力の解釈と解析において顕著な能力を示した。本稿では,長い入力シーケンスを扱う場合,LLMが短くなるという,驚くべき制限を明らかにする。本稿では,LLMの性能を最大50%向上させるアドホックな手法を提案し,評価する。
論文参考訳（メタデータ） (2024-08-03T21:31:34Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
Prompt-Based Length Controlled Generation with Reinforcement Learning [48.49553921757085]
本稿では,高精度な長さ制御生成を実現するために,プロンプトベースの長さ制御手法を提案する。我々は、トレーニング可能なモデルまたはルールベースの報酬モデルによって与えられる報酬信号を用いた強化学習を採用する。提案手法は,CNNDMやNYTなどの一般的なデータセット上での要約タスクにおいて,プロンプトベースの長さ制御の精度を大幅に向上させる。
論文参考訳（メタデータ） (2023-08-23T09:43:10Z)
Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation with Large Language Models [11.845239346943067]
パラメータ効率のよい微調整(PEFT)は、大規模言語モデル(LLM)をタスク固有のデータに効率的に専門化するための有望なアプローチである。本研究は,PEFTと量子化を組み合わせることで,より大きなLCMをチューニングし,メモリ使用量を大幅に削減する可能性を明らかにする。
論文参考訳（メタデータ） (2023-08-21T04:31:06Z)
Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文参考訳（メタデータ） (2023-05-22T15:36:06Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。