Fugu-MT 論文翻訳(概要): InFoBench: Evaluating Instruction Following Ability in Large Language Models

論文の概要: InFoBench: Evaluating Instruction Following Ability in Large Language Models

arxiv url: http://arxiv.org/abs/2401.03601v1
Date: Sun, 7 Jan 2024 23:01:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 18:01:36.877520
Title: InFoBench: Evaluating Instruction Following Ability in Large Language Models
Title（参考訳）: InFoBench: 大規模言語モデルの能力によるインストラクションの評価
Authors: Yiwei Qin, Kaiqiang Song, Yebowen Hu, Wenlin Yao, Sangwoo Cho, Xiaoyang Wang, Xuansheng Wu, Fei Liu, Pengfei Liu, Dong Yu
Abstract要約: Decomposed Requirements following Ratio (DRFR) は、命令に従うLarge Language Models (LLM) 能力を評価するための新しい指標である。 InFoBenchは500の多様な命令と2250の分解された質問を複数の制約カテゴリに分けたベンチマークである。
参考スコア（独自算出の注目度）: 57.27152890085759
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces the Decomposed Requirements Following Ratio (DRFR), a new metric for evaluating Large Language Models' (LLMs) ability to follow instructions. Addressing a gap in current methodologies, DRFR breaks down complex instructions into simpler criteria, facilitating a detailed analysis of LLMs' compliance with various aspects of tasks. Alongside this metric, we present InFoBench, a benchmark comprising 500 diverse instructions and 2,250 decomposed questions across multiple constraint categories. Our experiments compare DRFR with traditional scoring methods and explore annotation sources, including human experts, crowd-sourced workers, and GPT-4. The findings demonstrate DRFR's higher reliability and the effectiveness of using GPT-4 as a cost-efficient annotator. The evaluation of several advanced LLMs using this framework reveals their strengths and areas needing improvement, particularly in complex instruction-following. This study contributes a novel metric and benchmark, offering insights for future LLM development and evaluation.
Abstract（参考訳）: 本稿では,Large Language Models(LLM)の指示に従う能力を評価するための新しい指標であるDRFR(Decomposed Requirements following Ratio)を紹介する。現在の方法論のギャップに対処するため、DRFRは複雑な命令をより単純な基準に分解し、LCMのタスクの様々な側面へのコンプライアンスを詳細に分析する。 InFoBenchは500の多様な命令と2,250の分解された質問を複数の制約カテゴリに分けたベンチマークである。実験では,DRFRと従来のスコアリング手法を比較し,人的専門家,クラウドソースワーカー,GPT-4などのアノテーション源を探索した。その結果,DRFRの信頼性が高く,GPT-4を低コストアノテータとして用いる効果が示された。このフレームワークによるいくつかの高度なLCMの評価は、特に複雑な命令追従において、その強みと改善が必要な領域を明らかにしている。本研究は,将来のLCM開発と評価のための洞察を提供する,新しいメトリクスとベンチマークを提供する。

関連論文リスト

Text Chunking for Document Classification for Urban System Management using Large Language Models [0.0]
都市システムは複雑なテキストドキュメンテーションを用いて管理され、要求を設定し、構築された環境性能を評価する。本稿では,大規模言語モデル(LLM)を定性的な符号化活動に適用し,資源要求の低減に寄与する。
論文参考訳（メタデータ） (2025-03-31T22:48:30Z)
IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval [11.978909077813556]
我々は、専門家ドメインにおける指示追従情報検索を評価するために設計された、最初の包括的なベンチマークであるIFIRを紹介する。 IFIRには2,426の高品質な例があり、金融、法律、医療、科学文学という4つの専門分野にまたがる8つのサブセットをカバーしている。
論文参考訳（メタデータ） (2025-03-06T17:32:22Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
Diverse and Fine-Grained Instruction-Following Ability Exploration with Synthetic Data [20.451720017247066]
本稿では,細粒度で多彩なインストラクションフォロー評価データセットであるINGOを紹介する。実世界のユーザリクエストから派生した130ノードからなる、手動で注釈付き、きめ細かな、マルチレベルのカテゴリツリーに基づいている。
論文参考訳（メタデータ） (2024-07-04T13:54:41Z)
Can Many-Shot In-Context Learning Help LLMs as Evaluators? A Preliminary Empirical Study [19.461541208547136]
本稿では,文脈内サンプル数の増加が評価結果の一貫性と品質に及ぼす影響について検討する。 GPT-4oのような先進LLMは、ゼロショットや少数ショットのレギュレーションよりも多ショットのレギュレーションにおいて優れた性能を示すことを示す実験結果が得られた。
論文参考訳（メタデータ） (2024-06-17T15:11:58Z)
Enhancing and Assessing Instruction-Following with Fine-Grained Instruction Variants [28.691691883519542]
複雑な命令を単純なサブコンポーネントに分解し、それらを修正し、それらを新しい変種に再構成する手法を導入する。 DeMoReconに基づくFGIVデータセットは,1,773個のシード命令の微粒化を含む。以上の結果から,FGIVを微調整したLDMは,命令追従ベンチマークと一般的な命令追従ベンチマークの両方において,大幅な性能向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-06-17T08:08:11Z)
Large Language Models as Evaluators for Recommendation Explanations [23.938202791437337]
我々は,LLMがレコメンデーション・リコメンデーション・リコメンデーションの評価に役立てられるかどうかを検討する。我々は,評価者ラベルとユーザが提供する真実との相関を計測するために,3段階のメタ評価戦略を設計し,適用する。本研究は,LLMを評価対象として活用することは,レコメンデーション説明文の評価において,正確かつ再現可能で費用対効果の高いソリューションであることを示す。
論文参考訳（メタデータ） (2024-06-05T13:23:23Z)
FollowEval: A Multi-Dimensional Benchmark for Assessing the Instruction-Following Capability of Large Language Models [42.72420855478716]
FollowEvalベンチマークは、英語と中国語の両方のインスタンスで構成されている。それぞれのテスト例は、複数の次元を評価するように設計されています。我々は、FollowEvalベンチマークを用いて様々なLCMを評価し、その性能が人間のそれよりかなり遅れていることを発見した。
論文参考訳（メタデータ） (2023-11-16T11:53:31Z)
Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文参考訳（メタデータ） (2023-11-15T18:25:26Z)
Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。 BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文参考訳（メタデータ） (2023-11-07T06:36:39Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
L-Eval: Instituting Standardized Evaluation for Long Context Language Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。 20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文参考訳（メタデータ） (2023-07-20T17:59:41Z)
Towards Building the Federated GPT: Federated Instruction Tuning [66.7900343035733]
本稿では,大規模言語モデル(LLM)の命令チューニングのための学習フレームワークとして,FedIT(Federated Instruction Tuning)を紹介する。我々は,FedITを用いてクライアントの終端における多種多様な命令セットを活用することにより,ローカル命令のみを限定した集中学習に比べ,LLMの性能を向上させることを実証した。
論文参考訳（メタデータ） (2023-05-09T17:42:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。