Fugu-MT 論文翻訳(概要): FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models

論文の概要: FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models

arxiv url: http://arxiv.org/abs/2310.20410v1
Date: Tue, 31 Oct 2023 12:32:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 15:21:41.638831
Title: FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models
Title（参考訳）: FollowBench: 大規模言語モデルのベンチマークに続くマルチレベルきめ細かい制約
Authors: Yuxin Jiang, Yufei Wang, Xingshan Zeng, Wanjun Zhong, Liangyou Li, Fei Mi, Lifeng Shang, Xin Jiang, Qun Liu, Wei Wang
Abstract要約: 命令に従う能力は、様々な現実世界のアプリケーションを扱うために、Large Language Models (LLM) にとって不可欠である。 FollowBench は LLM のベンチマークに従うマルチレベルきめ細かい制約である。
参考スコア（独自算出の注目度）: 82.27118457984812
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ability to follow instructions is crucial to Large Language Models (LLMs) to handle various real-world applications. Existing benchmarks primarily focus on evaluating superficial response quality, which does not necessarily indicate instruction-following capability. To fill this research gap, in this paper, we propose FollowBench, a Multi-level Fine-grained Constraints Following Benchmark for LLMs. FollowBench comprehensively includes five different types (i.e., Content, Scenario, Style, Format, and Example) of fine-grained constraints. To enable a precise constraint following estimation, we introduce a Multi-level mechanism that incrementally adds a single constraint to the initial instruction at each level. To evaluate whether LLMs' outputs have satisfied every individual constraint, we propose to prompt strong LLMs with constraint evolution paths to handle challenging semantic constraints. By evaluating nine closed-source and open-source popular LLMs on FollowBench, we highlight the weaknesses of LLMs in instruction following and point towards potential avenues for future work. The data and code are publicly available at https://github.com/YJiangcm/FollowBench.
Abstract（参考訳）: 命令に従う能力は、様々な現実世界のアプリケーションを扱うための大規模言語モデル(llm)にとって不可欠である。既存のベンチマークでは、主に表面的応答品質の評価に焦点を当てている。本研究のギャップを埋めるために,LLMのベンチマークに追従する多レベルきめ細粒度制約であるFollowBenchを提案する。 followbenchは、きめ細かい制約の5つの異なるタイプ(コンテンツ、シナリオ、スタイル、フォーマット、例)を包括的に含む。推定後の厳密な制約を可能にするために,各レベルの初期命令に1つの制約を漸進的に付加するマルチレベル機構を導入する。 LLMの出力が個々の制約をすべて満たしたかどうかを評価するために,制約進化経路を持つ強いLLMを,難解なセマンティック制約に対処するよう提案する。 FollowBench 上で9つのオープンソースおよびオープンソースの人気 LLM を評価することにより,今後の研究への道のりを示唆する指導における LLM の弱点を明らかにする。データとコードはhttps://github.com/yjiangcm/followbenchで公開されている。

関連論文リスト

Reasoning with Preference Constraints: A Benchmark for Language Models in Many-to-One Matching Markets [13.111181135818184]
大規模言語モデル (LLM) は、最適化を含む複雑な数学的タスクにおいて強い性能を示している。優先的かつ構造的な制約の下で推論を必要とする問題にLLMを適用することは、まだ未定である。我々は,大学入学問題の369件の新たなベンチマークを用いて,実用性,安定性,最適性といった重要な次元にわたるLSMを評価する。
論文参考訳（メタデータ） (2025-09-16T14:48:46Z)
Order Matters: Investigate the Position Bias in Multi-constraint Instruction Following [39.114513139453756]
複数の制約を持つ実世界の命令は、既存の大規模言語モデル(LLM)に重大な課題をもたらす。我々は,CDDI(Difficulty Distribution Index)による制約の難易度分布を定量的に測定する。難解な順序で制約を提示した場合, LLM はより高性能であることが判明した。
論文参考訳（メタデータ） (2025-02-24T14:39:28Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
Step-by-Step Mastery: Enhancing Soft Constraint Following Ability of Large Language Models [39.114513139453756]
大規模言語モデル(LLM)には、複数の制約を含む命令に従うことが不可欠である。高品質な出力を持つデータセットを自動構築するパイプラインを設計する。データ構築プロセス中に発生する正と負のサンプルを十分に活用するために、トレーニング手法として直接選好最適化(DPO)を選択する。我々は,LLMのソフト制約追従能力を向上させるための手法の有効性を実験的に評価した。
論文参考訳（メタデータ） (2025-01-09T03:34:07Z)
Divide-Verify-Refine: Aligning LLM Responses with Complex Instructions [33.18076221854853]
LLMは、複数の制約を持つ複雑な命令に従うのに苦労する。最近の研究によると、LLM、特にオープンソースモデルは、複数の制約を持つ複雑な命令に従うのに苦労している。 3つのステップでDVR(Divide-Verify-Refine)フレームワークを提案する。 LLama3.1-8Bの制約準拠性を6つの制約で2倍にすることで,フレームワークのパフォーマンスが大幅に向上することを示す。
論文参考訳（メタデータ） (2024-10-16T04:01:55Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文参考訳（メタデータ） (2024-10-06T21:20:06Z)
SysBench: Can Large Language Models Follow System Messages? [30.701602680394686]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがって実装されており、これらのモデルを特定のシナリオにカスタマイズすることがますます重要になっている。 AI駆動型ソリューションを最適化するシステムメッセージの可能性は認識されているが、LLMがシステムメッセージにどの程度うまく従うかを評価するためのベンチマークは、特に欠落している。我々は,既存のLLMの3つの制限の観点から,システムメッセージ追従能力を体系的に解析するベンチマークであるSysBenchを紹介する。
論文参考訳（メタデータ） (2024-08-20T15:33:16Z)
CFBench: A Comprehensive Constraints-Following Benchmark for LLMs [33.19756888719116]
CFBenchは大規模言語モデルのベンチマークに従う大規模な包括的制約である。 200以上の実生活シナリオと50以上のNLPタスクをカバーする1,000のキュレートされたサンプルがある。 CFBenchは実世界の命令から厳密に制約をコンパイルし、制約型のための革新的な体系的なフレームワークを構築する。
論文参考訳（メタデータ） (2024-08-02T09:03:48Z)
Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文参考訳（メタデータ） (2024-07-04T14:50:45Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
Benchmarking Large Language Models on Controllable Generation under Diversified Instructions [34.89012022437519]
大型言語モデル (LLM) は命令追従能力に優れていた。様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
論文参考訳（メタデータ） (2024-01-01T07:35:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。