論文の概要: Step-by-Step Mastery: Enhancing Soft Constraint Following Ability of Large Language Models
- arxiv url: http://arxiv.org/abs/2501.04945v2
- Date: Mon, 13 Jan 2025 05:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:29:05.538180
- Title: Step-by-Step Mastery: Enhancing Soft Constraint Following Ability of Large Language Models
- Title(参考訳): ステップバイステップの熟達:大規模言語モデルの能力を考慮したソフト制約の強化
- Authors: Qingyu Ren, Jie Zeng, Qianyu He, Jiaqing Liang, Yanghua Xiao, Weikang Zhou, Zeye Sun, Fei Yu,
- Abstract要約: 大規模言語モデル(LLM)には、複数の制約を含む命令に従うことが不可欠である。
ソフト制約は意味論的に関連しており、自動手法による検証が難しい。
高品質なアウトプットを自動的に獲得するパイプラインを設計し,カリキュラム学習に基づくトレーニングパラダイムを導入する。
- 参考スコア(独自算出の注目度): 39.114513139453756
- License:
- Abstract: It is crucial for large language models (LLMs) to follow instructions that involve multiple constraints. However, soft constraints are semantically related and difficult to verify through automated methods. These constraints remain a significant challenge for LLMs. To enhance the ability of LLMs to follow soft constraints, we initially design a pipeline to obtain high-quality outputs automatically. Additionally, to fully utilize the acquired data, we introduce a training paradigm based on curriculum learning. We experimentally evaluate the effectiveness of our methods in improving LLMs' soft constraint following ability and analyze the factors driving the improvements. The datasets and code are publicly available at https://github.com/Rainier-rq/FollowSoftConstraints.
- Abstract(参考訳): 大規模言語モデル(LLM)には、複数の制約を含む命令に従うことが不可欠である。
しかし、ソフト制約は意味論的に関連付けられており、自動手法による検証は困難である。
これらの制約はLLMにとって重要な課題である。
LLMのソフト制約に従う能力を高めるため、我々はまず、高品質な出力を自動的に得るパイプラインを設計する。
さらに,得られたデータを完全に活用するために,カリキュラム学習に基づく学習パラダイムを導入する。
我々は,LLMのソフト制約追従能力の向上における手法の有効性を実験的に評価し,改善を駆動する要因を分析した。
データセットとコードはhttps://github.com/Rainier-rq/FollowSoftConstraintsで公開されている。
関連論文リスト
- Constraint Back-translation Improves Complex Instruction Following of Large Language Models [55.60192044049083]
大きな言語モデル(LLM)は、フォーマットや長さなどの複雑な制約のある命令に従うのに苦労しています。
従来の研究は、高度なLCMに複雑な命令を供給し、複雑な命令応答対を後処理する。
本稿では,新しいデータ生成手法である制約バックトランスレーションを提案する。
論文 参考訳(メタデータ) (2024-10-31T17:42:26Z) - Divide-Verify-Refine: Aligning LLM Responses with Complex Instructions [33.18076221854853]
LLMは、複数の制約を持つ複雑な命令に従うのに苦労する。
最近の研究によると、LLM、特にオープンソースモデルは、複数の制約を持つ複雑な命令に従うのに苦労している。
3つのステップでDVR(Divide-Verify-Refine)フレームワークを提案する。
LLama3.1-8Bの制約準拠性を6つの制約で2倍にすることで,フレームワークのパフォーマンスが大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-10-16T04:01:55Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - CoDa: Constrained Generation based Data Augmentation for Low-Resource NLP [46.95923453967386]
CoDaは、低リソース(データスカース)NLPのための制御可能で、効果的で、トレーニング不要なデータ拡張技術である。
提案手法は,市販の命令追従型大規模言語モデルに基づく。
CoDaは、拡張生成プロセスに対する明示的な制御を提供する最初のフレームワークである。
論文 参考訳(メタデータ) (2024-03-30T16:47:06Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Teaching the Old Dog New Tricks: Supervised Learning with Constraints [18.88930622054883]
機械学習に制約サポートを追加することは、データ駆動型AIシステムにおいて際立った問題に対処する可能性がある。
既存のアプローチでは、MLトレーニングに制約付き最適化手法を適用し、モデル設計を調整することによって制約満足度を強制するか、あるいは出力を修正するために制約を使用するのが一般的である。
そこで本研究では,教師付きML手法に対する制約満足度を,最先端制約解決器の直接利用により,それぞれ異なる,補完的な制約満足度に基づく戦略について検討する。
論文 参考訳(メタデータ) (2020-02-25T09:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。