論文の概要: When Models Can't Follow: Testing Instruction Adherence Across 256 LLMs
- arxiv url: http://arxiv.org/abs/2510.18892v1
- Date: Sat, 18 Oct 2025 16:33:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.140576
- Title: When Models Can't Follow: Testing Instruction Adherence Across 256 LLMs
- Title(参考訳): モデルが追跡できないとき - 256 LLMで命令の整合性をテストする
- Authors: Richard J. Young, Brandon Gillins, Alice M. Matthews,
- Abstract要約: 本稿では,20個のプロンプトを慎重に設計し,指示追従の評価を行う合理化評価フレームワークを提案する。
我々は2025年10月14日に行われた大規模な実証的研究を通じて、この枠組みを実証した。
本研究は、一貫した障害モードを明らかにし、特定の課題を呈する特定の命令タイプを特定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite widespread deployment of Large Language Models, systematic evaluation of instruction-following capabilities remains challenging. While comprehensive benchmarks exist, focused assessments that quickly diagnose specific instruction adherence patterns are valuable. As newer models may be trained on existing benchmarks, novel evaluation approaches are needed to assess genuine capabilities rather than memorized performance. This paper presents a streamlined evaluation framework using twenty carefully designed prompts to assess LLM instruction-following across diverse task categories. We demonstrate this framework through a large-scale empirical study conducted on October 14, 2025, testing 256 verified working models from 331 available via OpenRouter. To ensure methodological rigor and prevent selection bias, we first verified each model's basic functionality before inclusion. Unlike large-scale benchmarks requiring extensive computational resources, our approach offers a practical diagnostic tool researchers and practitioners can readily apply. Our methodology builds upon verifiable instructions while introducing a compact test suite balancing comprehensiveness with efficiency. Each prompt targets distinct aspects of instruction following, including format compliance, content constraints, logical sequencing, and multi-step task execution. We evaluate models from major providers (OpenAI, Anthropic, Google, Meta, Mistral) and emerging implementations (Qwen, DeepSeek, community models), providing comparative performance analysis. Our findings reveal consistent failure modes and identify specific instruction types posing particular challenges. This work contributes both a practical evaluation tool and one of the most comprehensive empirical analyses of instruction-following capabilities across the contemporary LLM landscape.
- Abstract(参考訳): 大規模言語モデルの広範な展開にもかかわらず、命令追従能力の体系的評価は依然として困難である。
包括的なベンチマークは存在するが、特定の命令順守パターンを迅速に診断する集中評価は有用である。
新しいモデルが既存のベンチマークでトレーニングされるため、記憶されたパフォーマンスではなく、真の能力を評価するための新しい評価アプローチが必要である。
本稿では,LLM命令追従を多種多様なタスクカテゴリで評価するために,20個の慎重に設計されたプロンプトを用いた合理化評価フレームワークを提案する。
2025年10月14日に行われた大規模な実証実験を通じて、このフレームワークを実演し、OpenRouterで利用可能な331から256の検証作業モデルをテストする。
方法論的厳密性を確保し,選択バイアスを防止するため,まず,各モデルの基本機能を包含する前に検証した。
大規模なベンチマークでは膨大な計算資源を必要とするが,本手法は研究者や実践者が容易に応用できる実用的な診断ツールを提供する。
提案手法は,完全性と効率性のバランスをとるコンパクトなテストスイートを導入しながら,検証可能な命令に基づいて構築する。
各プロンプトは、フォーマットコンプライアンス、コンテント制約、論理シークエンシング、マルチステップタスク実行など、命令従属の異なる側面をターゲットにしている。
我々は,主要なプロバイダ (OpenAI, Anthropic, Google, Meta, Mistral) と新興実装 (Qwen, DeepSeek, Community Model) のモデルを評価し,比較性能分析を行った。
本研究は、一貫した障害モードを明らかにし、特定の課題を呈する特定の命令タイプを特定する。
この研究は、実践的な評価ツールと、現代のLLMランドスケープにおける命令追従能力に関する最も包括的な実証分析の双方に貢献する。
関連論文リスト
- Previously on... Automating Code Review [4.096540146408279]
モダンコードレビュー(MCR)は、ソフトウェアエンジニアリングにおける標準的なプラクティスであるが、かなりの時間とリソース投資を必要とする。
最近の研究は、機械学習(ML)とディープラーニング(DL)を用いたコアレビュータスクの自動化をますます検討している。
本研究は,MCR自動化研究の総合的な分析を初めて行った。
論文 参考訳(メタデータ) (2025-08-25T13:12:48Z) - How Many Instructions Can LLMs Follow at Once? [0.16874375111244325]
ビジネスレポート作成タスクのための500のキーワード包含命令の単純なベンチマークであるIFScaleを導入し、命令密度が増大するにつれて、命令追従性能がどのように低下するかを測定する。
我々は、7つの主要プロバイダにわたる20の最先端モデルを評価し、最高のフロンティアモデルでさえ500命令の最大密度で68%の精度しか達成できないことを発見した。
私たちの洞察は、実世界のアプリケーションにおける命令密度プロンプトの設計に役立ち、重要なパフォーマンスとレイテンシのトレードオフを浮き彫りにします。
論文 参考訳(メタデータ) (2025-07-15T17:59:42Z) - Tests as Prompt: A Test-Driven-Development Benchmark for LLM Code Generation [1.7268889851975326]
私たちは、テスト駆動開発(TDD)タスクにおいて、大規模言語モデル(LLM)を評価するための新しいベンチマークであるWebApp1Kを紹介します。
自然言語のプロンプトに依存する従来のアプローチとは異なり、我々のベンチマークでは、LLMがテストケースから直接機能を解釈し実装する能力を強調しています。
論文 参考訳(メタデータ) (2025-05-13T23:47:12Z) - Meeseeks: A Feedback-Driven, Iterative Self-Correction Benchmark evaluating LLMs' Instruction Following Capability [21.96694731466089]
フィードバック機構を組み込んだ完全に自動化された命令追従ベンチマークであるMeeseeksを紹介した。
Meeseeksは、モデル応答における誤ったコンポーネントを特定し、対応するフィードバックを正確に提供することで、モデルを自己補正に向けて反復的に導く。
我々は、マクロレベルとインスタンスレベルの両方から包括的な分析を行い、現在の最先端モデルでよく見られる多くの共通問題を明らかにした。
論文 参考訳(メタデータ) (2025-04-30T13:28:19Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Beyond Content Relevance: Evaluating Instruction Following in Retrieval Models [25.301280441283147]
本研究では,コンテンツ関連性を超えた各種検索モデルの指示追従能力について検討した。
6つの文書レベル属性にまたがる新しい検索評価ベンチマークを開発した。
その結果,命令対応検索データセットの微調整モデルでは性能が向上するが,ほとんどのモデルでは命令順守に欠けることがわかった。
論文 参考訳(メタデータ) (2024-10-31T11:47:21Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - OPT-IML: Scaling Language Model Instruction Meta Learning through the
Lens of Generalization [101.37439352091612]
モデルサイズとベンチマークサイズの両方をスケールする際のダウンストリームタスク性能に対する命令チューニング決定の影響について述べる。
我々は、OPT-30Bに適用された命令調整決定に関する知見を提示し、さらにこれらの知見を活用して、OPTの命令調整版であるOPT-IML 30Bと175Bを訓練する。
論文 参考訳(メタデータ) (2022-12-22T19:56:09Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。