Fugu-MT 論文翻訳(概要): Step-by-Step Mastery: Enhancing Soft Constraint Following Ability of Large Language Models

論文の概要: Step-by-Step Mastery: Enhancing Soft Constraint Following Ability of Large Language Models

arxiv url: http://arxiv.org/abs/2501.04945v3
Date: Sun, 16 Feb 2025 23:36:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 16:13:23.331478
Title: Step-by-Step Mastery: Enhancing Soft Constraint Following Ability of Large Language Models
Title（参考訳）: ステップバイステップの熟達:大規模言語モデルの能力を考慮したソフト制約の強化
Authors: Qingyu Ren, Jie Zeng, Qianyu He, Jiaqing Liang, Yanghua Xiao, Weikang Zhou, Zeye Sun, Fei Yu,
Abstract要約: 大規模言語モデル(LLM)には、複数の制約を含む命令に従うことが不可欠である。高品質な出力を持つデータセットを自動構築するパイプラインを設計する。データ構築プロセス中に発生する正と負のサンプルを十分に活用するために、トレーニング手法として直接選好最適化(DPO)を選択する。我々は,LLMのソフト制約追従能力を向上させるための手法の有効性を実験的に評価した。
参考スコア（独自算出の注目度）: 39.114513139453756
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: It is crucial for large language models (LLMs) to follow instructions that involve multiple constraints. However, it is an unexplored area to enhance LLMs' ability to follow soft constraints. To bridge the gap, we initially design a pipeline to construct datasets with high-quality outputs automatically. Additionally, to fully utilize the positive and negative samples generated during the data construction process, we choose Direct Preference Optimization (DPO) as the training method. Furthermore, taking into account the difficulty of soft constraints indicated by the number of constraints, we design a curriculum learning training paradigm based on the constraint quantity. We experimentally evaluate the effectiveness of our methods in improving LLMs' soft constraint following ability and analyze the factors driving the improvements.The datasets and code are publicly available at https://github.com/Rainier-rq/FollowSoftConstraint.
Abstract（参考訳）: 大規模言語モデル(LLM)には、複数の制約を含む命令に従うことが不可欠である。しかし、LSMのソフト制約に従う能力を高めるための未探索領域である。ギャップを埋めるため、私たちは最初、高品質な出力を持つデータセットを自動構築するパイプラインを設計しました。さらに,データ構築プロセス中に発生する正と負のサンプルを十分に活用するために,トレーニング手法として直接選好最適化(DPO)を選択する。さらに,制約数によって示されるソフト制約の難しさを考慮して,制約量に基づくカリキュラム学習訓練パラダイムを設計する。本手法の有効性を実験的に評価し,LLMのソフト制約追従能力の向上と改善要因の分析を行った。データセットとコードはhttps://github.com/Rainier-rq/FollowSoftConstraintで公開されている。

関連論文リスト

Towards Efficient and Effective Alignment of Large Language Models [7.853945494882636]
大規模言語モデル(LLM)は多様なタスクにまたがる優れた能力を示すが、それらを効率的かつ効果的に人間の期待に合わせることは重要な課題である。この論文は、データ収集、トレーニング、評価において新しい方法論を導入することで、LCMアライメントを推し進める。
論文参考訳（メタデータ） (2025-06-11T02:08:52Z)
Constraint Back-translation Improves Complex Instruction Following of Large Language Models [55.60192044049083]
大きな言語モデル(LLM)は、フォーマットや長さなどの複雑な制約のある命令に従うのに苦労しています。従来の研究は、高度なLCMに複雑な命令を供給し、複雑な命令応答対を後処理する。本稿では,新しいデータ生成手法である制約バックトランスレーションを提案する。
論文参考訳（メタデータ） (2024-10-31T17:42:26Z)
Divide-Verify-Refine: Aligning LLM Responses with Complex Instructions [33.18076221854853]
LLMは、複数の制約を持つ複雑な命令に従うのに苦労する。最近の研究によると、LLM、特にオープンソースモデルは、複数の制約を持つ複雑な命令に従うのに苦労している。 3つのステップでDVR(Divide-Verify-Refine)フレームワークを提案する。 LLama3.1-8Bの制約準拠性を6つの制約で2倍にすることで,フレームワークのパフォーマンスが大幅に向上することを示す。
論文参考訳（メタデータ） (2024-10-16T04:01:55Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文参考訳（メタデータ） (2024-10-07T23:38:58Z)
Soft Prompting for Unlearning in Large Language Models [11.504012974208466]
この研究は、データ保護規制を動機とした大規模言語モデルのための機械学習の研究に焦点をあてる。我々はtextbfUntextbflearning (SPUL) のための textbfSoft textbfPrompting フレームワークを提案する。本研究では,提案手法の厳密な評価を行い,SPULが実用性と忘れとのトレードオフを大幅に改善できることを示す。
論文参考訳（メタデータ） (2024-06-17T19:11:40Z)
Conifer: Improving Complex Constrained Instruction-Following Ability of Large Language Models [23.17547206140014]
大規模言語モデルのための命令チューニングデータセットであるConiferを紹介する。複雑な制約のある命令に従うために、Coniferでモデルをトレーニングします。いくつかのインストラクション追従ベンチマークでは、我々の7Bモデルは最先端のオープンソース7Bモデルよりも優れています。
論文参考訳（メタデータ） (2024-04-03T15:55:39Z)
CoDa: Constrained Generation based Data Augmentation for Low-Resource NLP [46.95923453967386]
CoDaは、低リソース(データスカース)NLPのための制御可能で、効果的で、トレーニング不要なデータ拡張技術である。提案手法は,市販の命令追従型大規模言語モデルに基づく。 CoDaは、拡張生成プロセスに対する明示的な制御を提供する最初のフレームワークである。
論文参考訳（メタデータ） (2024-03-30T16:47:06Z)
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。 FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文参考訳（メタデータ） (2023-10-31T12:32:38Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
Teaching the Old Dog New Tricks: Supervised Learning with Constraints [18.88930622054883]
機械学習に制約サポートを追加することは、データ駆動型AIシステムにおいて際立った問題に対処する可能性がある。既存のアプローチでは、MLトレーニングに制約付き最適化手法を適用し、モデル設計を調整することによって制約満足度を強制するか、あるいは出力を修正するために制約を使用するのが一般的である。そこで本研究では,教師付きML手法に対する制約満足度を,最先端制約解決器の直接利用により,それぞれ異なる,補完的な制約満足度に基づく戦略について検討する。
論文参考訳（メタデータ） (2020-02-25T09:47:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。