論文の概要: FollowBench: A Multi-level Fine-grained Constraints Following Benchmark
for Large Language Models
- arxiv url: http://arxiv.org/abs/2310.20410v2
- Date: Tue, 14 Nov 2023 11:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 17:49:01.724338
- Title: FollowBench: A Multi-level Fine-grained Constraints Following Benchmark
for Large Language Models
- Title(参考訳): FollowBench: 大規模言語モデルのベンチマークに続くマルチレベルきめ細かい制約
- Authors: Yuxin Jiang, Yufei Wang, Xingshan Zeng, Wanjun Zhong, Liangyou Li, Fei
Mi, Lifeng Shang, Xin Jiang, Qun Liu, Wei Wang
- Abstract要約: FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench 上での10 つの LLM の評価により,LLM の弱さを強調し,今後の研究への道のりを示唆する。
- 参考スコア(独自算出の注目度): 82.27118457984812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to follow instructions is crucial for Large Language Models
(LLMs) to handle various real-world applications. Existing benchmarks primarily
focus on evaluating pure response quality, rather than assessing whether the
response follows constraints stated in the instruction. To fill this research
gap, in this paper, we propose FollowBench, a Multi-level Fine-grained
Constraints Following Benchmark for LLMs. FollowBench comprehensively includes
five different types (i.e., Content, Situation, Style, Format, and Example) of
fine-grained constraints. To enable a precise constraint following estimation
on diverse difficulties, we introduce a Multi-level mechanism that
incrementally adds a single constraint to the initial instruction at each
increased level. To assess whether LLMs' outputs have satisfied every
individual constraint, we propose to prompt strong LLMs with
constraint-evolution paths to handle challenging open-ended instructions. By
evaluating ten closed-source and open-source popular LLMs on FollowBench, we
highlight the weaknesses of LLMs in instruction following and point towards
potential avenues for future work. The data and code are publicly available at
https://github.com/YJiangcm/FollowBench.
- Abstract(参考訳): 命令に従う能力は、LLM(Large Language Models)が様々な現実世界のアプリケーションを扱うために不可欠である。
既存のベンチマークは主に、命令に記載された制約に従って応答を評価するのではなく、純粋な応答品質を評価することに焦点を当てている。
本研究のギャップを埋めるために,LLMのベンチマークに追従する多レベルきめ細粒度制約であるFollowBenchを提案する。
followbenchは、きめ細かい制約の5つの異なるタイプ(コンテンツ、状況、スタイル、フォーマット、例)を包括的に含む。
様々な難易度に対する推定に追従する厳密な制約を実現するために,各レベルに1つの制約をインクリメンタルに追加するマルチレベル機構を導入する。
LLMの出力が個々の制約をすべて満たしたかどうかを評価するため,制約進化経路を持つ強いLCMをオープンエンド命令に対処するために提案する。
FollowBench上での10のオープンソースおよびオープンソースLLMの評価により,今後の研究への道のりを示唆する指導におけるLLMの弱点を強調した。
データとコードはhttps://github.com/yjiangcm/followbenchで公開されている。
関連論文リスト
- PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Peer-review-in-LLMs: Automatic Evaluation Method for LLMs in
Open-environment [19.954915320147148]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - Benchmarking Large Language Models on Controllable Generation under
Diversified Instructions [34.89012022437519]
大型言語モデル (LLM) は命令追従能力に優れていた。
様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。
命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
論文 参考訳(メタデータ) (2024-01-01T07:35:31Z) - State of What Art? A Call for Multi-Prompt LLM Evaluation [29.99545703896457]
我々は650万インスタンスにわたる単発評価により得られた結果の脆さを包括的に分析した。
解析のロバスト性を改善するために,多様なプロンプトのセットを用いてLSMを評価することを提案する。
論文 参考訳(メタデータ) (2023-12-31T22:21:36Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - A Comprehensive Evaluation of Constrained Text Generation for Large
Language Models [58.761655924438585]
本研究では,大言語モデル(LLM)の制約付きテキスト生成について検討する。
本稿では,ChatGPT や GPT-4 など複数の LLM について検討し,制約を語彙型,構造型,関係型に分類する。
この研究は、LLMが制約に準拠する範囲など、いくつかの重要な研究課題に対処する。
論文 参考訳(メタデータ) (2023-10-25T03:58:49Z) - Self-prompted Chain-of-Thought on Large Language Models for Open-domain
Multi-hop Reasoning [70.74928578278957]
オープンドメイン質問回答(ODQA)では、ほとんどの既存の質問はコモンセンスのシングルホップ推論を必要とする。
大規模言語モデル(LLM)は、外部コーパスなしでODQAを促進するために重要な有用性を見出した。
高品質なCoTを大量生産する自動化フレームワークSP-CoTを提案する。
論文 参考訳(メタデータ) (2023-10-20T14:51:10Z) - Towards LLM-based Fact Verification on News Claims with a Hierarchical
Step-by-Step Prompting Method [9.099277246096861]
本稿では,大規模事前学習型言語モデル (LLM) とコンテキスト内学習 (ICL) を併用して,ニュースクレームの検証を行う。
階層的なステップ・バイ・ステップ(HiSS)のプロンプト手法を導入し,LLMに対して複数のサブ文を分割し,複数の問合せを段階的に検証する手法を提案する。
2つの公開誤報データセットの実験結果から、HiSSのプロンプトは最先端の完全教師付きアプローチと強力な数発のICL対応ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-09-30T08:33:04Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。