論文の概要: Find the Intention of Instruction: Comprehensive Evaluation of Instruction Understanding for Large Language Models
- arxiv url: http://arxiv.org/abs/2412.19450v2
- Date: Thu, 23 Jan 2025 00:45:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 19:43:34.214367
- Title: Find the Intention of Instruction: Comprehensive Evaluation of Instruction Understanding for Large Language Models
- Title(参考訳): インストラクションの意図を探る:大規模言語モデルにおけるインストラクション理解の包括的評価
- Authors: Hyeonseok Moon, Jaehyung Seo, Seungyoon Lee, Chanjun Park, Heuiseok Lim,
- Abstract要約: LLM(Large Language Models)の重要な強みの1つは、与えられた指示に対する適切な応答を生成することによって、人間と対話する能力である。
この能力は命令追従能力として知られ、様々な分野におけるLSMの使用の基礎を確立している。
我々は、LLMが命令形式文によって容易に気を散らすことができ、それによって命令理解スキルの監視に繋がる可能性があることを指摘した。
- 参考スコア(独自算出の注目度): 8.020688053947547
- License:
- Abstract: One of the key strengths of Large Language Models (LLMs) is their ability to interact with humans by generating appropriate responses to given instructions. This ability, known as instruction-following capability, has established a foundation for the use of LLMs across various fields and serves as a crucial metric for evaluating their performance. While numerous evaluation benchmarks have been developed, most focus solely on clear and coherent instructions. However, we have noted that LLMs can become easily distracted by instruction-formatted statements, which may lead to an oversight of their instruction comprehension skills. To address this issue, we introduce the Intention of Instruction (IoInst) benchmark. This benchmark evaluates LLMs' capacity to remain focused and understand instructions without being misled by extraneous instructions. The primary objective of this benchmark is to identify the appropriate instruction that accurately guides the generation of a given context. Our findings suggest that even recently introduced state-of-the-art models still lack instruction understanding capability. Along with the proposition of IoInst in this study, we also present broad analyses of the several strategies potentially applicable to IoInst.
- Abstract(参考訳): LLM(Large Language Models)の重要な強みの1つは、与えられた指示に対する適切な応答を生成することによって、人間と対話する能力である。
この能力は命令追従能力として知られ、様々な分野にわたるLSMの使用の基礎を確立し、その性能を評価する上で重要な指標となっている。
多くの評価ベンチマークが開発されているが、ほとんどは明確で一貫性のある命令のみに焦点を当てている。
しかし,LLMは命令形式的文によって容易に注意をそらすことができ,命令理解スキルの監視に繋がる可能性があることに留意した。
この問題に対処するため、IoInst(Intention of Instruction)ベンチマークを導入します。
このベンチマークは、余分な命令に誤解されることなく、LLMが集中し、指示を理解する能力を評価する。
このベンチマークの主な目的は、与えられたコンテキストの生成を正確に導く適切な命令を特定することである。
この結果から,最近導入された最先端モデルにおいても,命令理解能力が不足していることが示唆された。
本研究におけるIoInstの提案とともに、IoInstに適用可能ないくつかの戦略を幅広く分析する。
関連論文リスト
- Evaluating the Instruction-following Abilities of Language Models using Knowledge Tasks [4.945902994386117]
本稿では,タスク性能と命令追従機能の両方を検証し易い命令追従ベンチマークの開発に焦点をあてる。
既存の知識ベンチマークを適応させ、(a)知識タスクを正しく答える条件付きで強化するか、(b)複数の知識回答タスクにおいて候補オプションの空間を使用する。
大規模な命令調整 LLM でさえ、ゼロショット設定で単純な命令に従わないことがわかった。
論文 参考訳(メタデータ) (2024-10-16T19:07:37Z) - The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models [48.455388608863785]
本稿では,複数の命令を逐次的に追従するモデルの性能を評価するためのベンチマークを提案する。
我々のベンチマークは,4つのタスク(テキスト修正,質問応答,数学,セキュリティルール)を用いて,指示に従うことを評価する。
より最近のモデルでは、SIFoタスクにおいて、より古いモデルやより小さなモデルよりも大幅に優れており、ベンチマークの有効性が検証されている。
論文 参考訳(メタデータ) (2024-06-28T15:34:26Z) - Evaluation of Instruction-Following Ability for Large Language Models on Story-Ending Generation [2.4889060833127665]
本稿では,大規模言語モデル(LLM)の物語生成の文脈における指示追従能力の評価に焦点をあてる。
本稿では,機械読影理解モデル(MRC)を用いた自動評価パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-24T06:53:36Z) - CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [121.23360004498893]
逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。
CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。
従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
論文 参考訳(メタデータ) (2024-03-13T08:54:31Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - FollowEval: A Multi-Dimensional Benchmark for Assessing the
Instruction-Following Capability of Large Language Models [42.72420855478716]
FollowEvalベンチマークは、英語と中国語の両方のインスタンスで構成されている。
それぞれのテスト例は、複数の次元を評価するように設計されています。
我々は、FollowEvalベンチマークを用いて様々なLCMを評価し、その性能が人間のそれよりかなり遅れていることを発見した。
論文 参考訳(メタデータ) (2023-11-16T11:53:31Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Enhancing Large Language Models Against Inductive Instructions with
Dual-critique Prompting [55.15697111170836]
本稿では,大規模言語モデル(LLM)のテクスト誘導的指示に対する行動を明らかにするとともに,その真しさと有用性を高める。
広範囲な人的・自動的な評価の結果,帰納的命令処理において LLM に共通する脆弱性が発見された。
異なる帰納的スタイルがモデルに同じエラーを識別する能力に影響を及ぼし、基礎となる仮定の複雑さがモデルの性能にも影響を及ぼす。
論文 参考訳(メタデータ) (2023-05-23T06:38:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。