論文の概要: LexInstructEval: Lexical Instruction Following Evaluation for Large Language Models
- arxiv url: http://arxiv.org/abs/2511.17561v1
- Date: Thu, 13 Nov 2025 08:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.277339
- Title: LexInstructEval: Lexical Instruction Following Evaluation for Large Language Models
- Title(参考訳): LexInstructEval:Lexical InstructionとLexical Instructionによる大規模言語モデルの評価
- Authors: Huimin Ren, Yan Liang, Baiqiao Su, Chaobo Sun, Hengtong Lu, Kaike Zhang, Chen Wei,
- Abstract要約: LexInstructEvalは新しいベンチマークと評価フレームワークである。
私たちのフレームワークは、複雑な命令を標準手順、関係性、値>三重項に分解する形式的なルールベースの文法の上に構築されています。
この文法は、多段階のヒューマン・イン・ザ・ループパイプラインを通じて多様なデータセットを体系的に生成することを可能にする。
- 参考スコア(独自算出の注目度): 7.921987175359344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability of Large Language Models (LLMs) to precisely follow complex and fine-grained lexical instructions is a cornerstone of their utility and controllability. However, evaluating this capability remains a significant challenge. Current methods either rely on subjective and costly human evaluation or on automated LLM-as-a-judge systems, which suffer from inherent biases and unreliability. Existing programmatic benchmarks, while objective, often lack the expressiveness to test intricate, compositional constraints at a granular level. To address these limitations, we introduce LexInstructEval, a new benchmark and evaluation framework for fine-grained lexical instruction following. Our framework is built upon a formal, rule-based grammar that deconstructs complex instructions into a canonical <Procedure, Relation, Value> triplet. This grammar enables the systematic generation of a diverse dataset through a multi-stage, human-in-the-loop pipeline and facilitates objective verification via a transparent, programmatic engine. We release our dataset and open-source evaluation tools to facilitate further research into the controllability and reliability of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)が複雑できめ細かな語彙命令を正確に追従する能力は、その実用性と制御性の基礎となる。
しかし、この能力を評価することは依然として大きな課題である。
現在の手法は、主観的かつコストのかかる人的評価や、固有のバイアスと信頼性の欠如に悩まされる自動的なLCM-as-a-judgeシステムに依存している。
既存のプログラムベンチマークは客観的ではあるが、複雑な構成的制約を粒度レベルでテストする表現力に欠けることが多い。
これらの制限に対処するため、我々はLexInstructEvalという新しいベンチマークと評価フレームワークを紹介した。
私たちのフレームワークは、複雑な命令を標準の<Procedure, Relation, Value>三重項に分解する形式的なルールベースの文法に基づいて構築されています。
この文法は、多段階のHuman-in-the-loopパイプラインを通じて多様なデータセットを体系的に生成し、透過的なプログラムエンジンによる客観的検証を容易にする。
LLMの可制御性と信頼性に関するさらなる研究を支援するため,我々のデータセットとオープンソース評価ツールをリリースする。
関連論文リスト
- RELIC: Evaluating Compositional Instruction Following via Language Recognition [37.49115450182637]
大規模言語モデル(LLM)は、コンテキストで提供されるタスクの仕様に基づいてのみタスクを実行することがますます期待されている。
本稿では,言語認識を用いたインコンテキスト認識(RELIC)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-06-05T16:17:24Z) - MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。
MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。
LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文 参考訳(メタデータ) (2025-03-26T11:09:21Z) - Find the Intention of Instruction: Comprehensive Evaluation of Instruction Understanding for Large Language Models [8.020688053947547]
LLM(Large Language Models)の重要な強みの1つは、与えられた指示に対する適切な応答を生成することによって、人間と対話する能力である。
この能力は命令追従能力として知られ、様々な分野におけるLSMの使用の基礎を確立している。
我々は、LLMが命令形式文によって容易に気を散らすことができ、それによって命令理解スキルの監視に繋がる可能性があることを指摘した。
論文 参考訳(メタデータ) (2024-12-27T04:37:39Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。