論文の概要: KCIF: Knowledge-Conditioned Instruction Following
- arxiv url: http://arxiv.org/abs/2410.12972v3
- Date: Fri, 23 May 2025 16:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.449812
- Title: KCIF: Knowledge-Conditioned Instruction Following
- Title(参考訳): KCIF:知識に則った教育
- Authors: Rudra Murthy, Praveen Venkateswaran, Prince Kumar, Danish Contractor,
- Abstract要約: 我々は,知識と指示の相互作用について検討し,LLMが単純な回答修正命令に従うのに苦労していることを観察する。
本結果は,従来の知識・推論・指導の分離の限界を強調し,これらの機能の共同研究が重要であることを示唆している。
- 参考スコア(独自算出の注目度): 4.945902994386117
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: LLM evaluation benchmarks have traditionally separated the testing of knowledge/reasoning capabilities from instruction following. In this work, we study the interaction between knowledge and instruction following, and observe that LLMs struggle to follow simple answer modifying instructions, and are also distracted by instructions that should have no bearing on the original knowledge task answer. We leverage existing multiple-choice answer based knowledge benchmarks and apply a set of simple instructions which include manipulating text (eg.: change case), numeric quantities (eg.: increase value, change formatting), operate on lists (eg.: sort answer candidates) and distractor instructions (eg.: change case of numeric answers). We evaluate models at varying parameter sizes (1B-405B) from different model families and find that, surprisingly, all models report a significant drop in performance on such simple task compositions. While large-sized and frontier models report performance drops of 40-50%, in small and medium sized models the drop is severe (sometimes exceeding 80%). Our results highlight a limitation in the traditional separation of knowledge/reasoning and instruction following, and suggest that joint-study of these capabilities are important. We release our benchmark dataset, evaluation framework code, and results for future work.
- Abstract(参考訳): LLM評価ベンチマークは伝統的に、知識/推論能力の試験を次の命令から分離してきた。
本研究では,知識と指示の相互作用について検討し,LLMが単純な回答修正命令に従うのに苦労していることを観察するとともに,本来の知識タスク応答に無関係な指示に気を散らされていることも確認した。
既存の複数回答に基づく知識ベンチマークを活用し、テキスト操作(例えば、変更ケース)、数値量(例えば、値の増大、変更フォーマット)、リスト操作(例えば、回答候補のソート)、インタプリタ命令(例えば、数値回答の変更ケース)を含む一連の簡単な命令を適用する。
異なるモデル群から異なるパラメータサイズ(1B-405B)のモデルを評価し、驚くべきことに、これらの単純なタスク構成に対して、すべてのモデルが顕著な性能低下を報告している。
大規模モデルとフロンティアモデルでは40~50%のパフォーマンス低下が報告されているが、中小モデルでは、ドロップは厳しい(時には80%を超える)。
本結果は,従来の知識・推論・指導の分離の限界を強調し,これらの機能の共同研究が重要であることを示唆している。
ベンチマークデータセット、評価フレームワークコード、将来の作業結果をリリースします。
関連論文リスト
- IQ Test for LLMs: An Evaluation Framework for Uncovering Core Skills in LLMs [27.291294878333765]
本稿では,因子分析を用いて,ベンチマーク間での潜在スキルの駆動性能を推定する新しい評価パラダイムを提案する。
これらの洞察を、冗長なタスクを識別し、モデル選択を支援し、各潜伏するスキルに沿ってプロファイルモデルをプロファイルする実践的なツールに変換する。
論文 参考訳(メタデータ) (2025-07-27T10:11:16Z) - How Many Instructions Can LLMs Follow at Once? [0.16874375111244325]
ビジネスレポート作成タスクのための500のキーワード包含命令の単純なベンチマークであるIFScaleを導入し、命令密度が増大するにつれて、命令追従性能がどのように低下するかを測定する。
我々は、7つの主要プロバイダにわたる20の最先端モデルを評価し、最高のフロンティアモデルでさえ500命令の最大密度で68%の精度しか達成できないことを発見した。
私たちの洞察は、実世界のアプリケーションにおける命令密度プロンプトの設計に役立ち、重要なパフォーマンスとレイテンシのトレードオフを浮き彫りにします。
論文 参考訳(メタデータ) (2025-07-15T17:59:42Z) - Minerva: A Programmable Memory Test Benchmark for Language Models [18.474144165594225]
本稿では、モデルがメモリを効果的に活用できる能力を評価するために、包括的なテストを自動的に生成するフレームワークを提案する。
我々は、検索、リコール、編集、マッチング、文脈記憶における情報の比較といったアトミックなタスクのモデルを評価する。
また、より複雑で統合されたタスクを実行するモデルの能力を調べるために、複合テストも設計する。
論文 参考訳(メタデータ) (2025-02-05T16:53:45Z) - LLMs can be easily Confused by Instructional Distractions [16.060402139507644]
大規模言語モデルは、タスクに続く命令において例外的なスキルを示す。
この強度は、モデルが特定の命令を無視しなければならない場合に脆弱性になる可能性がある。
DIM-Benchと呼ばれる新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-02-05T04:52:57Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Find the Intention of Instruction: Comprehensive Evaluation of Instruction Understanding for Large Language Models [8.020688053947547]
LLM(Large Language Models)の重要な強みの1つは、与えられた指示に対する適切な応答を生成することによって、人間と対話する能力である。
この能力は命令追従能力として知られ、様々な分野におけるLSMの使用の基礎を確立している。
我々は、LLMが命令形式文によって容易に気を散らすことができ、それによって命令理解スキルの監視に繋がる可能性があることを指摘した。
論文 参考訳(メタデータ) (2024-12-27T04:37:39Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models [48.455388608863785]
本稿では,複数の命令を逐次的に追従するモデルの性能を評価するためのベンチマークを提案する。
我々のベンチマークは,4つのタスク(テキスト修正,質問応答,数学,セキュリティルール)を用いて,指示に従うことを評価する。
より最近のモデルでは、SIFoタスクにおいて、より古いモデルやより小さなモデルよりも大幅に優れており、ベンチマークの有効性が検証されている。
論文 参考訳(メタデータ) (2024-06-28T15:34:26Z) - Deconstructing In-Context Learning: Understanding Prompts via Corruption [13.37109575313212]
プロンプト全体を4つのコンポーネント(タスク記述、デモインプット、ラベル、インラインインストラクション)に分解する。
分類と生成タスクをカバーする10のデータセットを用いて,1.5Bから70Bのモデルについて検討した。
プロンプト内の繰り返しテキストはモデル性能を向上し、より大きなモデルはプロンプトのセマンティクスに敏感であることがわかった。
論文 参考訳(メタデータ) (2024-04-02T15:50:55Z) - Don't Half-listen: Capturing Key-part Information in Continual Instruction Tuning [13.535110749767451]
キーパート情報ゲイン(KPIG)に基づく新しい連続的命令チューニング手法を提案する。
本手法は,マスク部分の情報ゲインを計算し,データを動的に再生し,トレーニング対象を洗練させる。
実験により,本手法は観察タスクと保留タスクの両方において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-15T06:54:20Z) - CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [121.23360004498893]
逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。
CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。
従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
論文 参考訳(メタデータ) (2024-03-13T08:54:31Z) - KIWI: A Dataset of Knowledge-Intensive Writing Instructions for
Answering Research Questions [63.307317584926146]
ユーザ命令に従うように適応された大規模言語モデル(LLM)は、現在では会話エージェントとして広くデプロイされている。
そこで本研究では,より一般的な命令追従タスクとして,長文の回答作成を支援することを提案する。
我々は、科学領域における知識集約的な記述命令のデータセットKIWIを構築した。
論文 参考訳(メタデータ) (2024-03-06T17:16:44Z) - Large Language Models can Learn Rules [106.40747309894236]
大規模言語モデル(LLM)を用いた推論のためのルールライブラリを学習するフレームワークであるHtTを提案する。
リレーショナル推論、数値推論、概念学習に関する実験は、HtTが既存のプロンプト法を改善することを示す。
学習されたルールは、異なるモデルや同じ問題の異なる形式にも転送可能である。
論文 参考訳(メタデータ) (2023-10-10T23:07:01Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。
実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文 参考訳(メタデータ) (2023-08-19T09:17:19Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z) - Did You Read the Instructions? Rethinking the Effectiveness of Task
Definitions in Instruction Learning [74.70157466822612]
教科学習におけるタスク定義の役割を体系的に研究する。
タスク出力を記述する内容を削除すると,モデルの性能が大幅に低下することがわかった。
本稿では,モデルのタスク命令の活用を支援するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2023-06-01T21:11:24Z) - Enhancing Large Language Models Against Inductive Instructions with
Dual-critique Prompting [55.15697111170836]
本稿では,大規模言語モデル(LLM)のテクスト誘導的指示に対する行動を明らかにするとともに,その真しさと有用性を高める。
広範囲な人的・自動的な評価の結果,帰納的命令処理において LLM に共通する脆弱性が発見された。
異なる帰納的スタイルがモデルに同じエラーを識別する能力に影響を及ぼし、基礎となる仮定の複雑さがモデルの性能にも影響を及ぼす。
論文 参考訳(メタデータ) (2023-05-23T06:38:20Z) - Investigating the Effectiveness of Task-Agnostic Prefix Prompt for
Instruction Following [44.701091969256055]
本稿では,TAPP(Task-Agnostic Prefix Prompt)を入力にプリプションすることで,各種大規模言語モデル(LLM)の命令追従能力が向上することを示す。
我々は、ベースLLM(命令に従うように微調整されていない)と命令調整モデルの両方がTAPPの恩恵を受けており、平均で34.58%、12.26%の改善が得られた。
論文 参考訳(メタデータ) (2023-02-28T16:06:35Z) - Large Language Models Are Human-Level Prompt Engineers [31.98042013940282]
本稿では,自動命令生成と選択のための自動プロンプトエンジニアを提案する。
APEを駆使したプロンプトは、真理性や情報性に対するステアモデルに適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-03T15:43:03Z) - Few-shot Learning with Retrieval Augmented Language Models [75.63572749426473]
大規模な言語モデルは、広範囲のタスクにおいて、印象的な数ショットの結果を示しています。
このような結果に知識が鍵となる場合、知識を格納するための膨大なパラメータ数が必要であると考えられる。
我々はAtlasについて紹介する。Atlasは、慎重に設計され、事前訓練された検索言語モデルで、非常に少ないトレーニング例で知識集約的なタスクを学習することができる。
論文 参考訳(メタデータ) (2022-08-05T17:39:22Z) - CLUES: Few-Shot Learning Evaluation in Natural Language Understanding [81.63968985419982]
我々は,NLUモデルの少数ショット学習能力を評価するためのベンチマークであるCLUESを紹介する。
近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。
論文 参考訳(メタデータ) (2021-11-04T00:43:15Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。