論文の概要: Benchmarking Complex Instruction-Following with Multiple Constraints Composition
- arxiv url: http://arxiv.org/abs/2407.03978v2
- Date: Thu, 11 Jul 2024 06:44:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 21:58:43.570367
- Title: Benchmarking Complex Instruction-Following with Multiple Constraints Composition
- Title(参考訳): 複数制約構成による複合命令のベンチマーク
- Authors: Bosi Wen, Pei Ke, Xiaotao Gu, Lindong Wu, Hao Huang, Jinfeng Zhou, Wenchuang Li, Binxin Hu, Wendy Gao, Jiaxin Xu, Yiming Liu, Jie Tang, Hongning Wang, Minlie Huang,
- Abstract要約: 大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。
既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。
複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
- 参考スコア(独自算出の注目度): 72.82640456309821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction following is one of the fundamental capabilities of large language models (LLMs). As the ability of LLMs is constantly improving, they have been increasingly applied to deal with complex human instructions in real-world scenarios. Therefore, how to evaluate the ability of complex instruction-following of LLMs has become a critical research problem. Existing benchmarks mainly focus on modeling different types of constraints in human instructions while neglecting the composition of different constraints, which is an indispensable constituent in complex instructions. To this end, we propose ComplexBench, a benchmark for comprehensively evaluating the ability of LLMs to follow complex instructions composed of multiple constraints. We propose a hierarchical taxonomy for complex instructions, including 4 constraint types, 19 constraint dimensions, and 4 composition types, and manually collect a high-quality dataset accordingly. To make the evaluation reliable, we augment LLM-based evaluators with rules to effectively verify whether generated texts can satisfy each constraint and composition. Furthermore, we obtain the final evaluation score based on the dependency structure determined by different composition types. ComplexBench identifies significant deficiencies in existing LLMs when dealing with complex instructions with multiple constraints composition.
- Abstract(参考訳): 以下の命令は、大規模言語モデル(LLM)の基本機能のひとつです。
LLMの能力は常に改善されているため、現実のシナリオにおいて複雑なヒューマンインストラクションを扱うためにますます応用されている。
そのため,LLMの複雑な指示追従能力の評価方法が重要な研究課題となっている。
既存のベンチマークは主に、複雑な命令において必須の構成要素である異なる制約の構成を無視しながら、人間の命令で異なるタイプの制約をモデル化することに焦点を当てている。
この目的のために,複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するベンチマークである ComplexBench を提案する。
本研究では,4つの制約型,19個の制約次元,4つの構成型を含む複雑な命令に対する階層的な分類法を提案し,それに従って高品質なデータセットを手作業で収集する。
評価を信頼性のあるものにするため、LLMに基づく評価器をルールで強化し、生成されたテキストがそれぞれの制約や構成を満たすことができるかどうかを効果的に検証する。
さらに,異なる構成型によって決定される依存性構造に基づいて,最終的な評価スコアを得る。
ComplexBenchは、複数の制約構成を持つ複雑な命令を扱う際に、既存のLLMの重大な欠陥を特定する。
関連論文リスト
- Constraint Back-translation Improves Complex Instruction Following of Large Language Models [55.60192044049083]
大きな言語モデル(LLM)は、フォーマットや長さなどの複雑な制約のある命令に従うのに苦労しています。
従来の研究は、高度なLCMに複雑な命令を供給し、複雑な命令応答対を後処理する。
本稿では,新しいデータ生成手法である制約バックトランスレーションを提案する。
論文 参考訳(メタデータ) (2024-10-31T17:42:26Z) - From Complex to Simple: Enhancing Multi-Constraint Complex Instruction Following Ability of Large Language Models [43.869374263102934]
複雑な制約の強化に有効なトレーニングデータについて検討する。
複数の制約を含む命令でLLMを訓練することで、複雑な命令の理解が促進されることが判明した。
提案手法は,汎用的な命令に従うモデルの能力を向上し,ドメイン外,ドメイン内,対向的な設定で効果的に一般化する。
論文 参考訳(メタデータ) (2024-04-24T12:51:14Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - Benchmarking Large Language Models on Controllable Generation under
Diversified Instructions [34.89012022437519]
大型言語モデル (LLM) は命令追従能力に優れていた。
様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。
命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
論文 参考訳(メタデータ) (2024-01-01T07:35:31Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。