論文の概要: FollowBench: A Multi-level Fine-grained Constraints Following Benchmark
for Large Language Models
- arxiv url: http://arxiv.org/abs/2310.20410v1
- Date: Tue, 31 Oct 2023 12:32:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 15:21:41.638831
- Title: FollowBench: A Multi-level Fine-grained Constraints Following Benchmark
for Large Language Models
- Title(参考訳): FollowBench: 大規模言語モデルのベンチマークに続くマルチレベルきめ細かい制約
- Authors: Yuxin Jiang, Yufei Wang, Xingshan Zeng, Wanjun Zhong, Liangyou Li, Fei
Mi, Lifeng Shang, Xin Jiang, Qun Liu, Wei Wang
- Abstract要約: 命令に従う能力は、様々な現実世界のアプリケーションを扱うために、Large Language Models (LLM) にとって不可欠である。
FollowBench は LLM のベンチマークに従うマルチレベルきめ細かい制約である。
- 参考スコア(独自算出の注目度): 82.27118457984812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to follow instructions is crucial to Large Language Models (LLMs)
to handle various real-world applications. Existing benchmarks primarily focus
on evaluating superficial response quality, which does not necessarily indicate
instruction-following capability. To fill this research gap, in this paper, we
propose FollowBench, a Multi-level Fine-grained Constraints Following Benchmark
for LLMs. FollowBench comprehensively includes five different types (i.e.,
Content, Scenario, Style, Format, and Example) of fine-grained constraints. To
enable a precise constraint following estimation, we introduce a Multi-level
mechanism that incrementally adds a single constraint to the initial
instruction at each level. To evaluate whether LLMs' outputs have satisfied
every individual constraint, we propose to prompt strong LLMs with constraint
evolution paths to handle challenging semantic constraints. By evaluating nine
closed-source and open-source popular LLMs on FollowBench, we highlight the
weaknesses of LLMs in instruction following and point towards potential avenues
for future work. The data and code are publicly available at
https://github.com/YJiangcm/FollowBench.
- Abstract(参考訳): 命令に従う能力は、様々な現実世界のアプリケーションを扱うための大規模言語モデル(llm)にとって不可欠である。
既存のベンチマークでは、主に表面的応答品質の評価に焦点を当てている。
本研究のギャップを埋めるために,LLMのベンチマークに追従する多レベルきめ細粒度制約であるFollowBenchを提案する。
followbenchは、きめ細かい制約の5つの異なるタイプ(コンテンツ、シナリオ、スタイル、フォーマット、例)を包括的に含む。
推定後の厳密な制約を可能にするために,各レベルの初期命令に1つの制約を漸進的に付加するマルチレベル機構を導入する。
LLMの出力が個々の制約をすべて満たしたかどうかを評価するために,制約進化経路を持つ強いLLMを,難解なセマンティック制約に対処するよう提案する。
FollowBench 上で9つのオープンソースおよびオープンソースの人気 LLM を評価することにより,今後の研究への道のりを示唆する指導における LLM の弱点を明らかにする。
データとコードはhttps://github.com/yjiangcm/followbenchで公開されている。
関連論文リスト
- Multitask-based Evaluation of Open-Source LLM on Software Vulnerability [2.7692028382314815]
本稿では,公開データセットを用いた対話型LCMの定量的評価パイプラインを提案する。
我々は,4つの共通ソフトウェア脆弱性タスクをカバーするBig-Vulを用いて,LLMの広範な技術的評価を行う。
既存の最先端手法は、ソフトウェア脆弱性検出において、LLMよりも一般的に優れていることが判明した。
論文 参考訳(メタデータ) (2024-04-02T15:52:05Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [19.130941716491716]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - Benchmarking Large Language Models on Controllable Generation under
Diversified Instructions [34.89012022437519]
大型言語モデル (LLM) は命令追従能力に優れていた。
様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。
命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
論文 参考訳(メタデータ) (2024-01-01T07:35:31Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Self-prompted Chain-of-Thought on Large Language Models for Open-domain
Multi-hop Reasoning [70.74928578278957]
オープンドメイン質問回答(ODQA)では、ほとんどの既存の質問はコモンセンスのシングルホップ推論を必要とする。
大規模言語モデル(LLM)は、外部コーパスなしでODQAを促進するために重要な有用性を見出した。
高品質なCoTを大量生産する自動化フレームワークSP-CoTを提案する。
論文 参考訳(メタデータ) (2023-10-20T14:51:10Z) - Towards LLM-based Fact Verification on News Claims with a Hierarchical
Step-by-Step Prompting Method [9.099277246096861]
本稿では,大規模事前学習型言語モデル (LLM) とコンテキスト内学習 (ICL) を併用して,ニュースクレームの検証を行う。
階層的なステップ・バイ・ステップ(HiSS)のプロンプト手法を導入し,LLMに対して複数のサブ文を分割し,複数の問合せを段階的に検証する手法を提案する。
2つの公開誤報データセットの実験結果から、HiSSのプロンプトは最先端の完全教師付きアプローチと強力な数発のICL対応ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-09-30T08:33:04Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。