論文の概要: Evaluating the Instruction-following Abilities of Language Models using Knowledge Tasks
- arxiv url: http://arxiv.org/abs/2410.12972v2
- Date: Mon, 17 Mar 2025 10:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:57:35.643063
- Title: Evaluating the Instruction-following Abilities of Language Models using Knowledge Tasks
- Title(参考訳): 知識課題を用いた言語モデルの指示追従能力の評価
- Authors: Rudra Murthy, Praveen Venkateswaran, Prince Kumar, Danish Contractor,
- Abstract要約: 我々は,知識と指示の相互作用について検討し,LLMが単純な回答修正命令に従うのに苦労していることを観察する。
テキスト操作や数値処理,リスト操作,インタプリタ命令など,単純な命令のセットを適用する。
- 参考スコア(独自算出の注目度): 4.945902994386117
- License:
- Abstract: LLM evaluation benchmarks have traditionally separated the testing of knowledge/reasoning capabilities from instruction following. In this work, we study the interaction between knowledge and instruction following, and observe that LLMs struggle to follow simple answer modifying instructions, and are also distracted by instructions that should have no bearing on the original knowledge task answer. We leverage existing multiple-choice answer based knowledge benchmarks and apply a set of simple instructions which include manipulating text (eg.: change case), numeric quantities (eg.: increase value, change formatting), operate on lists (eg.: sort answer candidates) and distractor instructions (eg.: change case of numeric answers).
- Abstract(参考訳): LLM評価ベンチマークは伝統的に、知識/推論能力の試験を次の命令から分離してきた。
本研究は,知識と指示の相互作用を考察し,LLMが単純な回答修正命令に従うのに苦労していることを観察すると共に,本来の知識タスク応答に無関係な指示に気を散らされていることも観察する。
既存の複数回答に基づく知識ベンチマークを活用し、テキスト操作(例えば、変更ケース)、数値量(例えば、値の増大、変更フォーマット)、リスト操作(例えば、回答候補のソート)、インタプリタ命令(例えば、数値回答の変更ケース)を含む一連の簡単な命令を適用する。
関連論文リスト
- LLMs can be easily Confused by Instructional Distractions [16.060402139507644]
大規模言語モデルは、タスクに続く命令において例外的なスキルを示す。
この強度は、モデルが特定の命令を無視しなければならない場合に脆弱性になる可能性がある。
DIM-Benchと呼ばれる新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-02-05T04:52:57Z) - Find the Intention of Instruction: Comprehensive Evaluation of Instruction Understanding for Large Language Models [8.020688053947547]
LLM(Large Language Models)の重要な強みの1つは、与えられた指示に対する適切な応答を生成することによって、人間と対話する能力である。
この能力は命令追従能力として知られ、様々な分野におけるLSMの使用の基礎を確立している。
我々は、LLMが命令形式文によって容易に気を散らすことができ、それによって命令理解スキルの監視に繋がる可能性があることを指摘した。
論文 参考訳(メタデータ) (2024-12-27T04:37:39Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models [48.455388608863785]
本稿では,複数の命令を逐次的に追従するモデルの性能を評価するためのベンチマークを提案する。
我々のベンチマークは,4つのタスク(テキスト修正,質問応答,数学,セキュリティルール)を用いて,指示に従うことを評価する。
より最近のモデルでは、SIFoタスクにおいて、より古いモデルやより小さなモデルよりも大幅に優れており、ベンチマークの有効性が検証されている。
論文 参考訳(メタデータ) (2024-06-28T15:34:26Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z) - Did You Read the Instructions? Rethinking the Effectiveness of Task
Definitions in Instruction Learning [74.70157466822612]
教科学習におけるタスク定義の役割を体系的に研究する。
タスク出力を記述する内容を削除すると,モデルの性能が大幅に低下することがわかった。
本稿では,モデルのタスク命令の活用を支援するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2023-06-01T21:11:24Z) - Large Language Models Are Human-Level Prompt Engineers [31.98042013940282]
本稿では,自動命令生成と選択のための自動プロンプトエンジニアを提案する。
APEを駆使したプロンプトは、真理性や情報性に対するステアモデルに適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-03T15:43:03Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。