論文の概要: SysBench: Can Large Language Models Follow System Messages?
- arxiv url: http://arxiv.org/abs/2408.10943v1
- Date: Tue, 20 Aug 2024 15:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-21 13:05:41.882397
- Title: SysBench: Can Large Language Models Follow System Messages?
- Title(参考訳): SysBench: 大規模言語モデルはシステムメッセージをフォローできるか?
- Authors: Yanzhao Qin, Tao Zhang, Tao Zhang, Yanjun Shen, Wenjing Luo, Haoze Sun, Yan Zhang, Yujing Qiao, Weipeng Chen, Zenan Zhou, Wentao Zhang, Bin Cui,
- Abstract要約: 大規模言語モデル (LLM) は様々なアプリケーションで実装されており、これらのモデルのカスタマイズがますます重要になっている。
AI駆動型ソリューションを最適化するシステムメッセージの可能性は認識されているが、これらのシステムメッセージに異なるLLMがどの程度うまく従うかを評価するための包括的なベンチマークが存在しないことは注目すべきである。
SysBenchは,制約複雑性,命令ミスアライメント,マルチターン安定性という3つの課題の観点から,システムメッセージの追従能力を体系的に解析するベンチマークである。
- 参考スコア(独自算出の注目度): 30.701602680394686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have become instrumental across various applications, with the customization of these models to specific scenarios becoming increasingly critical. System message, a fundamental component of LLMs, is consist of carefully crafted instructions that guide the behavior of model to meet intended goals. Despite the recognized potential of system messages to optimize AI-driven solutions, there is a notable absence of a comprehensive benchmark for evaluating how well different LLMs follow these system messages. To fill this gap, we introduce SysBench, a benchmark that systematically analyzes system message following ability in terms of three challenging aspects: constraint complexity, instruction misalignment and multi-turn stability. In order to enable effective evaluation, SysBench constructs multi-turn user conversations covering various interaction relationships, based on six common types of constraints from system messages in real-world scenarios. Our dataset contains 500 system messages from various domains, each paired with 5 turns of user conversations, which have been manually formulated and checked to guarantee high quality. SysBench provides extensive evaluation across various LLMs, measuring their ability to follow specified constraints given in system messages. The results highlight both the strengths and weaknesses of existing models, offering key insights and directions for future research. The open source library SysBench is available at https://github.com/PKU-Baichuan-MLSystemLab/SysBench.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なアプリケーションにまたがって実装されており、これらのモデルを特定のシナリオにカスタマイズすることがますます重要になっている。
LLMの基本コンポーネントであるシステムメッセージは、意図した目標を達成するためのモデルの振る舞いをガイドする、慎重に構築された命令で構成されています。
AI駆動型ソリューションを最適化するシステムメッセージの可能性は認識されているが、これらのシステムメッセージに異なるLLMがどの程度うまく従うかを評価するための包括的なベンチマークが存在しないことは注目すべきである。
このギャップを埋めるために、SysBenchという、制約複雑性、命令ミスアライメント、マルチターン安定性という3つの課題の観点から、システムメッセージの追従能力を体系的に解析するベンチマークを紹介した。
効果的な評価を実現するため、SysBenchは現実世界のシナリオにおけるシステムメッセージからの6つの一般的な制約に基づいて、様々なインタラクション関係をカバーするマルチターンユーザー会話を構築している。
私たちのデータセットには、さまざまなドメインからの500のシステムメッセージが含まれています。
SysBenchは様々なLLMに対して広範な評価を提供し、システムメッセージで指定された制約に従う能力を測定する。
この結果は、既存のモデルの長所と短所の両方を強調し、将来の研究に重要な洞察と方向性を提供する。
SysBenchのオープンソースライブラリはhttps://github.com/PKU-Baichuan-MLSystemLab/SysBenchで公開されている。
関連論文リスト
- A System Model Generation Benchmark from Natural Language Requirements [29.820716110232553]
今回紹介するSysMBenchは,広く普及しているドメインにまたがる151の人間計算シナリオで構成されている。
各シナリオは、主に自然言語要求記述、特定のモデル記述言語で表現されたシステムモデル、可視化されたシステムモデル図で構成されます。
生成したシステムモデルの品質を評価するためのセマンティック・アウェア評価指標であるSysMEvalを紹介する。
論文 参考訳(メタデータ) (2025-08-05T08:45:19Z) - Can large language models assist choice modelling? Insights into prompting strategies and current models capabilities [0.0]
大規模言語モデル(LLM)は様々な分野をサポートするために広く使われているが、その選択肢モデリングの可能性はいまだに解明されていない。
本研究は, LLMの仕様における補助エージェントとしての可能性を検討するとともに, 技術的に実現可能なマルチノードロジットモデルの推定を行う。
論文 参考訳(メタデータ) (2025-07-29T13:24:44Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - A Comprehensive Review on Harnessing Large Language Models to Overcome Recommender System Challenges [5.436611859202691]
大規模言語モデル(LLM)は、レコメンデータシステムにおいて重要な課題に取り組むために利用することができる。
LLMはパーソナライズ、セマンティックアライメント、解釈可能性を高める。
LLMはゼロショットと少数ショットの推論を可能にし、コールドスタートとロングテールのシナリオでシステムが効果的に動作できるようにする。
論文 参考訳(メタデータ) (2025-07-17T06:03:57Z) - Beyond Next Word Prediction: Developing Comprehensive Evaluation Frameworks for measuring LLM performance on real world applications [3.686808512438363]
大規模言語モデル (LLM) には多くのユースケースがあり、すでにかなりの数の企業採用を獲得している。
本稿では,従来のゲームおよびツールベースのアーキテクチャに基づく,より包括的な評価フレームワークの基礎を提供する。
論文 参考訳(メタデータ) (2025-03-05T06:44:38Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale [3.378738346115004]
大規模言語モデル (LLM) を評価するベンチマーク RES-Q を開発した。
我々は,Qurrent OS上に構築されたリポジトリ編集システムにおける言語エージェントとして,最先端のLLMを評価した。
論文 参考訳(メタデータ) (2024-06-24T17:08:17Z) - UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
UBENCHは、大きな言語モデルを評価するためのベンチマークである。
これには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。
また,15個のLPMの信頼性を評価し,GLM4が最も優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-18T16:50:38Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - ChEF: A Comprehensive Evaluation Framework for Standardized Assessment
of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。
本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。
詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文 参考訳(メタデータ) (2023-11-05T16:01:40Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。