論文の概要: TRUEBench: Can LLM Response Meet Real-world Constraints as Productivity Assistant?
- arxiv url: http://arxiv.org/abs/2509.22715v1
- Date: Wed, 24 Sep 2025 08:05:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.819184
- Title: TRUEBench: Can LLM Response Meet Real-world Constraints as Productivity Assistant?
- Title(参考訳): TRUEBench: LLMの反応は生産性アシスタントとして現実の制約に対応できるのか?
- Authors: Jiho Park, Jongyoon Song, Minjin Choi, Kyuho Heo, Taehun Huh, Ji Won Kim,
- Abstract要約: 大規模言語モデル(LLM)は生産性アシスタントとしてますます統合されている。
既存のベンチマークは、実世界の命令追跡能力を厳格に評価するに足りていない。
LLMベースの生産性アシスタント用に特別に設計されたベンチマークであるTRUEBenchを紹介する。
- 参考スコア(独自算出の注目度): 11.400738388392654
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly integral as productivity assistants, but existing benchmarks fall short in rigorously evaluating their real-world instruction-following capabilities. Current benchmarks often (i) lack sufficient multilinguality, (ii) fail to capture the implicit constraints inherent in user requests, and (iii) overlook the complexities of multi-turn dialogue. To address these critical gaps and provide a more realistic assessment, we introduce TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark)1, a novel benchmark specifically designed for LLM-based productivity assistants. TRUEBench distinguishes itself by featuring input prompts across 12 languages, incorporating intra-instance multilingual instructions, employing rigorous evaluation criteria to capture both explicit and implicit constraints, and including complex multi-turn dialogue scenarios with both accumulating constraints and context switches. Furthermore, to ensure reliability in evaluation, we refined constraints using an LLM validator. Extensive experiments demonstrate that TRUEBench presents significantly greater challenges than existing benchmarks; for instance, a strong model like OpenAI o1 achieved only a 69.07% overall pass rate. TRUEBench offers a demanding and realistic assessment of LLMs in practical productivity settings, highlighting their capabilities and limitations.
- Abstract(参考訳): 大規模言語モデル(LLM)は生産性アシスタントとしてますます統合されているが、既存のベンチマークは実世界の命令追従能力を厳格に評価するに足りていない。
現在のベンチマークはしばしば
一 十分な多言語性がないこと。
(ii)ユーザ要求に固有の暗黙の制約を捕捉できず、
(三)マルチターン対話の複雑さを見落としている。
これらの重要なギャップに対処し、より現実的な評価を提供するために、LLMベースの生産性アシスタント用に特別に設計された新しいベンチマークであるTRUEBench(Trustworthy Real-world Usage Evaluation Benchmark)1を導入する。
TRUEBenchは、12言語にまたがるインプットプロンプトを特徴付け、インスタンス内の多言語命令を取り入れ、明示的制約と暗黙的制約の両方をキャプチャするための厳密な評価基準を採用し、制約とコンテキストスイッチの両方を蓄積した複雑なマルチターン対話シナリオを含むことで、自分自身を差別化している。
さらに,評価の信頼性を確保するため,LLMバリデータを用いた制約を改良した。
例えば、OpenAI o1のような強力なモデルでは、パスレートは69.07%に過ぎなかった。
TRUEBenchは、実用的生産性設定におけるLLMの要求と現実的な評価を提供し、その能力と制限を強調している。
関連論文リスト
- EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [64.70546873396624]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。
EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。
また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-10T02:39:55Z) - Meeseeks: A Feedback-Driven, Iterative Self-Correction Benchmark evaluating LLMs' Instruction Following Capability [21.96694731466089]
フィードバック機構を組み込んだ完全に自動化された命令追従ベンチマークであるMeeseeksを紹介した。
Meeseeksは、モデル応答における誤ったコンポーネントを特定し、対応するフィードバックを正確に提供することで、モデルを自己補正に向けて反復的に導く。
我々は、マクロレベルとインスタンスレベルの両方から包括的な分析を行い、現在の最先端モデルでよく見られる多くの共通問題を明らかにした。
論文 参考訳(メタデータ) (2025-04-30T13:28:19Z) - Line Goes Up? Inherent Limitations of Benchmarks for Evaluating Large Language Models [0.0]
私は、ベンチマークのパラダイムに固有の制限が、認知タスクに対する一般的な能力の指標として、ベンチマークのパフォーマンスを非常に適さないと論じます。
総合LLM認知能力の信頼性指標としてベンチマーク性能を用いるべきではないと結論づける。
論文 参考訳(メタデータ) (2025-02-20T07:13:29Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。