論文の概要: The Instruction Gap: LLMs get lost in Following Instruction
- arxiv url: http://arxiv.org/abs/2601.03269v1
- Date: Fri, 19 Dec 2025 15:27:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.585842
- Title: The Instruction Gap: LLMs get lost in Following Instruction
- Title(参考訳): インストラクションギャップ:フォローインストラクションでLLMが失われる
- Authors: Vishesh Tripathi, Uday Allu, Biddwan Ahmed,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示している。
本研究は,命令順守,応答精度,性能指標を含む13のLLMを総合的に評価する。
- 参考スコア(独自算出の注目度): 1.4018975578160686
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models (LLMs) have shown remarkable capabilities in natural language understanding and generation, yet their deployment in enterprise environments reveals a critical limitation: inconsistent adherence to custom instructions. This study presents a comprehensive evaluation of 13 leading LLMs across instruction compliance, response accuracy, and performance metrics in realworld RAG (Retrieval-Augmented Generation) scenarios. Through systematic testing with samples and enterprise-grade evaluation protocols, we demonstrate that instruction following varies dramatically across models, with Claude-Sonnet-4 and GPT-5 achieving the highest results. Our findings reveal the "instruction gap" - a fundamental challenge where models excel at general tasks but struggle with precise instruction adherence required for enterprise deployment. This work provides practical insights for organizations deploying LLM-powered solutions and establishes benchmarks for instruction-following capabilities across major model families.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示していますが、エンタープライズ環境への展開には重要な制限があります。
本研究では,実世界のRAG(Retrieval-Augmented Generation)シナリオにおいて,命令コンプライアンス,応答精度,パフォーマンス指標の13のLLMを包括的に評価する。
サンプルと企業レベルの評価プロトコルを用いて系統的なテストを行うことで、Claude-Sonnet-4 と GPT-5 が最高の結果を得るとともに、モデル間で命令の追従が劇的に変化することを示した。
一般的なタスクにおいてモデルが優れているが、企業展開に必要な正確な命令順守に苦労する、基本的な課題である。
この研究は、LLMを使ったソリューションをデプロイする組織に実践的な洞察を与え、主要なモデルファミリにまたがる命令追従能力のベンチマークを確立する。
関連論文リスト
- How well do Large Language Models Recognize Instructional Moves? Establishing Baselines for Foundation Models in Educational Discourse [0.15469452301122177]
大規模言語モデル(LLM)は、様々なタスクで教育技術に採用されつつある。
我々は6つのLDMを比較して,授業書の授業動作の分類という,単純だが重要な課題のベースライン性能を推定した。
その結果, ゼロショット性能は中等度であり, 総合例では最先端モデルの性能が有意に向上した。
論文 参考訳(メタデータ) (2025-12-22T22:08:32Z) - Benchmarking Large Language Models for Personalized Guidance in AI-Enhanced Learning [4.990353320509215]
大規模言語モデル(LLM)は、パーソナライズされた学習のためのインテリジェントアシスタントとしてますます考えられている。
本研究では,現実的な学習環境を模擬した学習課題における3つの最先端LLMの実証的比較を行った。
論文 参考訳(メタデータ) (2025-09-02T14:21:59Z) - Meeseeks: A Feedback-Driven, Iterative Self-Correction Benchmark evaluating LLMs' Instruction Following Capability [21.96694731466089]
フィードバック機構を組み込んだ完全に自動化された命令追従ベンチマークであるMeeseeksを紹介した。
Meeseeksは、モデル応答における誤ったコンポーネントを特定し、対応するフィードバックを正確に提供することで、モデルを自己補正に向けて反復的に導く。
我々は、マクロレベルとインスタンスレベルの両方から包括的な分析を行い、現在の最先端モデルでよく見られる多くの共通問題を明らかにした。
論文 参考訳(メタデータ) (2025-04-30T13:28:19Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。