論文の概要: InFoBench: Evaluating Instruction Following Ability in Large Language
Models
- arxiv url: http://arxiv.org/abs/2401.03601v1
- Date: Sun, 7 Jan 2024 23:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 18:01:36.877520
- Title: InFoBench: Evaluating Instruction Following Ability in Large Language
Models
- Title(参考訳): InFoBench: 大規模言語モデルの能力によるインストラクションの評価
- Authors: Yiwei Qin, Kaiqiang Song, Yebowen Hu, Wenlin Yao, Sangwoo Cho,
Xiaoyang Wang, Xuansheng Wu, Fei Liu, Pengfei Liu, Dong Yu
- Abstract要約: Decomposed Requirements following Ratio (DRFR) は、命令に従うLarge Language Models (LLM) 能力を評価するための新しい指標である。
InFoBenchは500の多様な命令と2250の分解された質問を複数の制約カテゴリに分けたベンチマークである。
- 参考スコア(独自算出の注目度): 57.27152890085759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the Decomposed Requirements Following Ratio (DRFR), a
new metric for evaluating Large Language Models' (LLMs) ability to follow
instructions. Addressing a gap in current methodologies, DRFR breaks down
complex instructions into simpler criteria, facilitating a detailed analysis of
LLMs' compliance with various aspects of tasks. Alongside this metric, we
present InFoBench, a benchmark comprising 500 diverse instructions and 2,250
decomposed questions across multiple constraint categories. Our experiments
compare DRFR with traditional scoring methods and explore annotation sources,
including human experts, crowd-sourced workers, and GPT-4. The findings
demonstrate DRFR's higher reliability and the effectiveness of using GPT-4 as a
cost-efficient annotator. The evaluation of several advanced LLMs using this
framework reveals their strengths and areas needing improvement, particularly
in complex instruction-following. This study contributes a novel metric and
benchmark, offering insights for future LLM development and evaluation.
- Abstract(参考訳): 本稿では,Large Language Models(LLM)の指示に従う能力を評価するための新しい指標であるDRFR(Decomposed Requirements following Ratio)を紹介する。
現在の方法論のギャップに対処するため、DRFRは複雑な命令をより単純な基準に分解し、LCMのタスクの様々な側面へのコンプライアンスを詳細に分析する。
InFoBenchは500の多様な命令と2,250の分解された質問を複数の制約カテゴリに分けたベンチマークである。
実験では,DRFRと従来のスコアリング手法を比較し,人的専門家,クラウドソースワーカー,GPT-4などのアノテーション源を探索した。
その結果,DRFRの信頼性が高く,GPT-4を低コストアノテータとして用いる効果が示された。
このフレームワークによるいくつかの高度なLCMの評価は、特に複雑な命令追従において、その強みと改善が必要な領域を明らかにしている。
本研究は,将来のLCM開発と評価のための洞察を提供する,新しいメトリクスとベンチマークを提供する。
関連論文リスト
- CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large
Language Model [128.46104068327435]
逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。
CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。
従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
論文 参考訳(メタデータ) (2024-03-13T08:54:31Z) - Uncertainty-Aware Explainable Recommendation with Large Language Models [15.229417987212631]
GPT-2のプロンプトとしてユーザおよびアイテム入力のIDベクトルを利用するモデルを開発する。
マルチタスク学習フレームワークには,推薦タスクと説明タスクの両方を最適化するために,共同トレーニング機構が採用されている。
提案手法はYelp, TripAdvisor, Amazon のデータセット上でそれぞれ 1.59 DIV, 0.57 USR, 0.41 FCR を達成する。
論文 参考訳(メタデータ) (2024-01-31T14:06:26Z) - FollowEval: A Multi-Dimensional Benchmark for Assessing the
Instruction-Following Capability of Large Language Models [42.72420855478716]
FollowEvalベンチマークは、英語と中国語の両方のインスタンスで構成されている。
それぞれのテスト例は、複数の次元を評価するように設計されています。
我々は、FollowEvalベンチマークを用いて様々なLCMを評価し、その性能が人間のそれよりかなり遅れていることを発見した。
論文 参考訳(メタデータ) (2023-11-16T11:53:31Z) - Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。
BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文 参考訳(メタデータ) (2023-11-07T06:36:39Z) - Evaluating Large Language Models at Evaluating Instruction Following [57.74447923909296]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,これらの「LLM評価器」の有効性について検討する。
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - A Survey on Large Language Models for Recommendation [80.01023231943205]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z) - Towards Building the Federated GPT: Federated Instruction Tuning [66.7900343035733]
本稿では,大規模言語モデル(LLM)の命令チューニングのための学習フレームワークとして,FedIT(Federated Instruction Tuning)を紹介する。
我々は,FedITを用いてクライアントの終端における多種多様な命令セットを活用することにより,ローカル命令のみを限定した集中学習に比べ,LLMの性能を向上させることを実証した。
論文 参考訳(メタデータ) (2023-05-09T17:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。