論文の概要: GuideBench: Benchmarking Domain-Oriented Guideline Following for LLM Agents
- arxiv url: http://arxiv.org/abs/2505.11368v1
- Date: Fri, 16 May 2025 15:32:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.470124
- Title: GuideBench: Benchmarking Domain-Oriented Guideline Following for LLM Agents
- Title(参考訳): GuideBench: LLMエージェントのドメイン指向ガイドラインのベンチマーク
- Authors: Lingxiao Diao, Xinyue Xu, Wanxuan Sun, Cheng Yang, Zhuosheng Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、ユーザ指示に従うことができ、現実世界のアプリケーションで決定を下すことができる自律エージェントとして広くデプロイされている。
GuideBench は LLM のパフォーマンスに対するガイドラインを評価するために設計されたベンチマークである。
- 参考スコア(独自算出の注目度): 22.390137173904943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have been widely deployed as autonomous agents capable of following user instructions and making decisions in real-world applications. Previous studies have made notable progress in benchmarking the instruction following capabilities of LLMs in general domains, with a primary focus on their inherent commonsense knowledge. Recently, LLMs have been increasingly deployed as domain-oriented agents, which rely on domain-oriented guidelines that may conflict with their commonsense knowledge. These guidelines exhibit two key characteristics: they consist of a wide range of domain-oriented rules and are subject to frequent updates. Despite these challenges, the absence of comprehensive benchmarks for evaluating the domain-oriented guideline following capabilities of LLMs presents a significant obstacle to their effective assessment and further development. In this paper, we introduce GuideBench, a comprehensive benchmark designed to evaluate guideline following performance of LLMs. GuideBench evaluates LLMs on three critical aspects: (i) adherence to diverse rules, (ii) robustness to rule updates, and (iii) alignment with human preferences. Experimental results on a range of LLMs indicate substantial opportunities for improving their ability to follow domain-oriented guidelines.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ユーザ指示に従うことができ、現実世界のアプリケーションで決定を下すことができる自律エージェントとして広くデプロイされている。
従来の研究は、LLMの一般領域における命令に従う能力のベンチマークにおいて顕著な進歩を遂げており、その本来のコモンセンス知識に主眼を置いている。
近年,LLMはドメイン指向のエージェントとして,共通知識と矛盾する可能性のあるドメイン指向のガイドラインに依存している。
これらのガイドラインは、広範囲のドメイン指向のルールで構成され、頻繁に更新されるという、2つの重要な特徴を示している。
これらの課題にもかかわらず、LLMの能力に追従するドメイン指向ガイドラインを評価するための包括的なベンチマークが欠如していることは、その効果的な評価とさらなる開発に重大な障害をもたらす。
本稿では,LLMの性能評価のための総合ベンチマークである GuideBench について紹介する。
GuideBenchがLLMを3つの重要な側面で評価する。
一 多様な規則に従うこと。
(二 規則更新に対する堅牢性、及び
(三)人間の嗜好に沿うこと。
LLMの様々な実験結果は、ドメイン指向のガイドラインに従う能力を改善するためのかなりの機会を示している。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Beyond Instruction Following: Evaluating Inferential Rule Following of Large Language Models [25.337295202341608]
大規模言語モデル(LLM)は、安全で正確でインテリジェントな実世界のシナリオによって制御され、ガイドされるはずである。
LLMの推論規則追従能力を評価しようとする従来の研究は、推論規則追従のシナリオと命令追従のシナリオを区別することができない。
本稿では、まず、推論規則追従の概念を明らかにし、推論規則追従能力の多様化範囲を評価するための総合的なベンチマークであるルールベンチを提案する。
論文 参考訳(メタデータ) (2024-07-11T12:26:55Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs [49.32067576992511]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - PRISMA-DFLLM: An Extension of PRISMA for Systematic Literature Reviews
using Domain-specific Finetuned Large Language Models [0.0]
本稿では,Large Language Models(LLMs)のパワーと,PRISMA(Preferred Reporting Items for Systematic Reviews and Meta-Analyses)の厳密な報告ガイドラインを組み合わせたAI対応方法論フレームワークを提案する。
厳密なSLRプロセスの結果として選択されたドメイン固有の学術論文にLCMを微調整することにより、提案するPRISMA-DFLLMレポートガイドラインは、より効率、再利用性、拡張性を達成する可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-15T02:52:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。