論文の概要: LIFBench: Evaluating the Instruction Following Performance and Stability of Large Language Models in Long-Context Scenarios
- arxiv url: http://arxiv.org/abs/2411.07037v2
- Date: Mon, 16 Dec 2024 07:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:05.529694
- Title: LIFBench: Evaluating the Instruction Following Performance and Stability of Large Language Models in Long-Context Scenarios
- Title(参考訳): LIFBench: 長期シナリオにおける大規模言語モデルのパフォーマンスと安定性によるインストラクションの評価
- Authors: Xiaodong Wu, Minhao Wang, Yichen Liu, Xiaoming Shi, He Yan, Xiangju Lu, Junmin Zhu, Wei Zhang,
- Abstract要約: LIFBenchは、大規模言語モデルの命令フォロー機能と長期にわたる安定性を評価するために設計されたスケーラブルなデータセットである。
LIFEvalは、複雑なLCM応答の正確な自動スコアリングを可能にするルーリックベースの評価手法である。
我々の研究はLIFBenchとLIFEvalを、複雑で長いコンテキスト設定でLLMのパフォーマンスを評価するための堅牢なツールとして貢献しています。
- 参考スコア(独自算出の注目度): 16.72802527902692
- License:
- Abstract: As Large Language Models (LLMs) evolve in natural language processing (NLP), their ability to stably follow instructions in long-context inputs has become critical for real-world applications. However, existing benchmarks seldom focus on instruction-following in long-context scenarios or stability on different inputs. To bridge this gap, we introduce LIFBench, a scalable dataset designed to evaluate LLMs' instruction-following capabilities and stability across long contexts. LIFBench comprises three long-context scenarios and eleven diverse tasks, featuring 2,766 instructions generated through an automated expansion method across three dimensions: length, expression, and variables. For evaluation, we propose LIFEval, a rubric-based assessment method that enables precise, automated scoring of complex LLM responses without reliance on LLM-assisted assessments or human judgment. This method allows for a comprehensive analysis of model performance and stability from multiple perspectives. We conduct detailed experiments on 20 prominent LLMs across six length intervals. Our work contributes LIFBench and LIFEval as robust tools for assessing LLM performance in complex and long-context settings, offering valuable insights to guide future advancements in LLM development.
- Abstract(参考訳): 自然言語処理(NLP)において,Large Language Models (LLMs) が進化するにつれて,Long-context 入力における命令を安定的に追従する能力は,現実のアプリケーションにとって重要なものになりつつある。
しかし、既存のベンチマークでは、長いコンテキストシナリオでの命令追従や、異なる入力に対する安定性にはほとんど注目しない。
このギャップを埋めるために,LLMの命令追従能力と長期にわたる安定性を評価するために設計された,スケーラブルなデータセットであるLIFBenchを紹介した。
LIFBenchは3つの長文シナリオと11の多様なタスクから構成されており、長さ、式、変数の3次元にわたる自動拡張メソッドを通じて、2,766の命令が生成される。
評価のために,LLM支援評価や人的判断に頼ることなく,複雑なLCM応答の正確な自動スコアリングを可能にするルーリックに基づく評価手法LIFEvalを提案する。
この方法では、複数の観点からモデルの性能と安定性を総合的に分析することができる。
我々は6時間間隔で20個の顕著なLDMについて詳細な実験を行った。
我々の研究は、LIFBench と LIFEval を、LLM 開発における将来的な進歩を導く貴重な洞察を提供する、複雑で長期の文脈で LLM のパフォーマンスを評価するための堅牢なツールとして貢献しています。
関連論文リスト
- CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - LongIns: A Challenging Long-context Instruction-based Exam for LLMs [44.51209510772957]
大規模言語モデル(LLM)の長いコンテキスト能力は近年ホットな話題となっている。
本稿ではLongInsベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-25T14:31:26Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。