論文の概要: Beyond Ideal Instruction: A Comprehensive Framework for Evaluating LLMs in Realistic Interactions
- arxiv url: http://arxiv.org/abs/2606.03318v2
- Date: Wed, 03 Jun 2026 03:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 13:59:43.536815
- Title: Beyond Ideal Instruction: A Comprehensive Framework for Evaluating LLMs in Realistic Interactions
- Title(参考訳): 理想的インストラクションを超えて:現実的相互作用におけるLLM評価のための包括的フレームワーク
- Authors: Xuan Yang, Hao Xu, Tingfeng Hui, Hongsheng Xin, Kaike Zhang, Chunxiao Liu, Ning Miao,
- Abstract要約: RUT-Benchは大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々は,このベンチマークを用いて,広く採用されている19のオープンソースおよびプロプライエタリ LLM の評価を行った。
テスト済みのLCMは40%以上の成功率を達成することができず、ほとんど全員が、より複雑な非理想的なユーザ入力に直面した時に顕著なパフォーマンス低下を経験しています。
- 参考スコア(独自算出の注目度): 27.32526689836774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite great advances in tool-use capabilities of large language models (LLMs), existing evaluation benchmarks struggle to fully align with real-world scenarios. Such benchmarks mostly rely on simulated idealized user assumptions and lacks experience-oriented evaluation. These limitations fail to account for the ambiguity, uncooperative behaviors, and shifting intentions characteristic of real-world users. To fill this gap, we propose RUT-Bench, a dedicated benchmark designed to assess LLMs under diverse Real-world User Tool calling scenarios. RUT-Bench supports high-fidelity simulations covering both ideal rational patterns and heterogeneous non-ideal behaviors across single-turn and multi-turn dialogues. We conduct comprehensive evaluations on 19 widely adopted open-source and proprietary LLMs using our benchmark. Experimental results reveal that no tested LLMs achieve an overall success rate above 40%, and nearly all of them experience noticeable performance drops when facing more complicated non-ideal user inputs. Our code and data is available at https://github.com/Miaow-Lab/RUT-Bench.
- Abstract(参考訳): 大きな言語モデル(LLM)のツール使用能力が大幅に向上したにもかかわらず、既存の評価ベンチマークは現実のシナリオと完全に整合するのに苦労している。
このようなベンチマークは、主にシミュレーションされた理想化されたユーザー仮定に依存しており、経験指向の評価が欠如している。
これらの制限は、現実のユーザ特有の曖昧さ、非協力的行動、およびシフトする意図を説明できない。
このギャップを埋めるために、様々な実世界のユーザツール呼び出しシナリオ下でLLMを評価するために設計された専用のベンチマークであるRUT-Benchを提案する。
RUT-Benchは、理想的有理パターンと、単ターンと多ターンの対話における不均一な非理想的振る舞いの両方をカバーする高忠実性シミュレーションをサポートしている。
我々はベンチマークを用いて、広く採用されている19のオープンソースおよびプロプライエタリなLCMについて包括的な評価を行う。
実験の結果、テスト済みのLLMは40%以上の成功率を達成することができず、ほとんど全員がより複雑な非理想的ユーザ入力に直面した場合に顕著なパフォーマンス低下を経験していることがわかった。
私たちのコードとデータはhttps://github.com/Miaow-Lab/RUT-Bench.comで公開されています。
関連論文リスト
- Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - Beyond Synthetic Benchmarks: Evaluating LLM Performance on Real-World Class-Level Code Generation [3.9189409002585567]
大規模言語モデル(LLM)は関数レベルのコード生成ベンチマークで強い性能を示している。
本稿では,実環境下での一般化を評価するために,実世界のオープンソースリポジトリから得られたベンチマークを紹介する。
入力仕様の完全性と検索拡張生成が複数の最先端LCMのクラスレベルの正しさにどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-10-30T04:30:23Z) - TRUEBench: Can LLM Response Meet Real-world Constraints as Productivity Assistant? [11.400738388392654]
大規模言語モデル(LLM)は生産性アシスタントとしてますます統合されている。
既存のベンチマークは、実世界の命令追跡能力を厳格に評価するに足りていない。
LLMベースの生産性アシスタント用に特別に設計されたベンチマークであるTRUEBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T08:05:32Z) - StoryBench: A Dynamic Benchmark for Evaluating Long-Term Memory with Multi Turns [7.60350050736492]
長期記憶は、自律的な知性を達成するために、大規模言語モデルにとって不可欠である。
既存のベンチマークでは、知識保持と動的シーケンシャル推論を評価する上で、課題に直面している。
インタラクティブなフィクションゲームに基づく新しいベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-16T10:54:31Z) - Meeseeks: A Feedback-Driven, Iterative Self-Correction Benchmark evaluating LLMs' Instruction Following Capability [21.96694731466089]
フィードバック機構を組み込んだ完全に自動化された命令追従ベンチマークであるMeeseeksを紹介した。
Meeseeksは、モデル応答における誤ったコンポーネントを特定し、対応するフィードバックを正確に提供することで、モデルを自己補正に向けて反復的に導く。
我々は、マクロレベルとインスタンスレベルの両方から包括的な分析を行い、現在の最先端モデルでよく見られる多くの共通問題を明らかにした。
論文 参考訳(メタデータ) (2025-04-30T13:28:19Z) - ACEBench: Who Wins the Match Point in Tool Usage? [86.79310356779108]
ACEBenchは、Large Language Models (LLMs)におけるツールの使用状況を評価するための包括的なベンチマークである。
データを評価方法論に基づく3つの主要なタイプに分類する。
これは、異なるデータタイプにわたるエラー原因をよりきめ細かい検査を提供する。
論文 参考訳(メタデータ) (2025-01-22T12:59:08Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。