Fugu-MT 論文翻訳(概要): InstructEval: Systematic Evaluation of Instruction Selection Methods

論文の概要: InstructEval: Systematic Evaluation of Instruction Selection Methods

arxiv url: http://arxiv.org/abs/2307.00259v1
Date: Sat, 1 Jul 2023 07:45:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-05 17:01:43.308174
Title: InstructEval: Systematic Evaluation of Instruction Selection Methods
Title（参考訳）: Instructeval: 指導選択法の体系的評価
Authors: Anirudh Ajith, Chris Pan, Mengzhou Xia, Ameet Deshpande, Karthik Narasimhan
Abstract要約: In-context Learning (ICL) は、インストラクションを使用して大きな言語モデル(LLM)とデモと呼ばれる注釈付き例の小さなセットをプロンプトすることでタスクを実行する。近年の研究では、入力の精度が命令選択アルゴリズムをインセンティブとしたICLに大きく影響していることが示されている。我々はこれらの手法の徹底的な評価を行うためのICL評価スイートを開発した。
参考スコア（独自算出の注目度）: 23.91126854026113
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In-context learning (ICL) performs tasks by prompting a large language model (LLM) using an instruction and a small set of annotated examples called demonstrations. Recent work has shown that the precise details of the inputs used in the prompt significantly impacts ICL, which has incentivized instruction selection algorithms. The effect of instruction-choice however is severely underexplored, with existing analyses being restricted to shallow subsets of models and tasks, which limits the generalizability of their insights. We develop an ICL evaluation suite to conduct a thorough assessment of these techniques. The suite includes 13 open-sourced LLMs of varying scales from 4 distinct model families and covers 9 different tasks, representing a range of task types across 3 categories. In this work, we evaluate the relative performance of 7 popular instruction selection methods using our benchmark over five desiderata relevant to ICL. We discover that using curated manually-written instructions and simple instructions without any task-specific descriptions often elicits superior ICL performance than that of automatic instruction-induction methods, pointing to a lack of generalizability among the latter. We release our evaluation suite for benchmarking instruction selection approaches, and call for more rigorous and generalizable methods in this space.
Abstract（参考訳）: In-context Learning (ICL) は、命令を使って大きな言語モデル(LLM)とデモと呼ばれる注釈付き例の小さなセットを誘導することでタスクを実行する。近年の研究では、入力の精度が命令選択アルゴリズムをインセンティブとしたICLに大きく影響していることが示されている。しかし、命令チョイスの効果は極めて過小評価されており、既存の分析はモデルやタスクの浅い部分集合に限定されており、洞察の一般化性が制限されている。我々は,これらの手法の徹底的な評価を行うためのicl評価スイートを開発した。このスイートには、4つの異なるモデルファミリからさまざまなスケールの13のオープンソースLLMが含まれ、9つの異なるタスクをカバーし、3つのカテゴリにわたるタスクタイプの範囲を表している。そこで本研究では,ICLに関連する5つのデシラタに対するベンチマークを用いて,7つの一般的な命令選択手法の相対的性能を評価する。タスク固有の記述を伴わない手作業による命令と単純な命令を用いると,命令インダクション手法よりもicl性能が優れていることが分かり,その一般化可能性の欠如が指摘された。我々は,提案手法をベンチマークするための評価スイートをリリースし,より厳密で一般化可能な手法を求めている。

関連論文リスト

Improving Alignment Between Human and Machine Codes: An Empirical Assessment of Prompt Engineering for Construct Identification in Psychology [0.0]
本稿では,テキスト中のコンストラクタをインシデントエンジニアリングで識別するために,インシデント性能を最適化するための実証的フレームワークを提案する。提案手法は,コードブックによる経験的プロンプト選択,自動プロンプトエンジニアリング,ペルソナプロンプト,チェーンオブ思考推論,説明的プロンプトという5つのプロンプト戦略を実験的に評価した。 3つの構成と2つのモデルで、分類は専門家の判断に最も適しており、コードブックに誘導された経験的プロンプト選択と自動プロンプトエンジニアリングを組み合わせた数発のプロンプトから生まれた。
論文参考訳（メタデータ） (2025-12-03T14:07:42Z)
Leveraging Information Retrieval to Enhance Spoken Language Understanding Prompts in Few-Shot Learning [4.4467858321751015]
検討されたシステムの信頼性を確保するために,正確な音声言語理解手法を開発することが重要である。現在の最先端のSLU技術は大量のトレーニングデータに依存しているが、特定のタスクや言語で利用可能な注釈付き例は限られている。 SLUタスクに適用可能な拡張プロンプトを構築するために、情報検索(IR)アプローチを利用したサンプル選択を提案する。
論文参考訳（メタデータ） (2025-06-03T16:18:45Z)
Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文参考訳（メタデータ） (2025-04-29T07:13:53Z)
RAISE: Reinforced Adaptive Instruction Selection For Large Language Models [63.122992052034554]
タスクオブジェクト駆動型命令選択フレームワークRAISE(Reinforced Adaptive Instruction Selection)を提案する。 RAISEは命令の微調整プロセス全体を最適化に取り入れ、各命令がモデルの性能改善に期待する影響に基づいて各ステップで命令を選択する。実験と結果解析は,他の命令選択法と比較して,本手法の優位性を証明している。
論文参考訳（メタデータ） (2025-04-09T21:17:52Z)
In-context Learning vs. Instruction Tuning: The Case of Small and Multilingual Language Models [3.069335774032178]
マルチリンガルモデルと小型モデルを含むシナリオは、性能の劣化したICL命令をもたらすことを示す。本研究の目的は,現在の指導方法の長所と短所の理解を深めることである。
論文参考訳（メタデータ） (2025-03-03T14:47:23Z)
Find the Intention of Instruction: Comprehensive Evaluation of Instruction Understanding for Large Language Models [8.020688053947547]
LLM(Large Language Models)の重要な強みの1つは、与えられた指示に対する適切な応答を生成することによって、人間と対話する能力である。この能力は命令追従能力として知られ、様々な分野におけるLSMの使用の基礎を確立している。我々は、LLMが命令形式文によって容易に気を散らすことができ、それによって命令理解スキルの監視に繋がる可能性があることを指摘した。
論文参考訳（メタデータ） (2024-12-27T04:37:39Z)
Evaluating the Instruction-following Abilities of Language Models using Knowledge Tasks [4.945902994386117]
本稿では,タスク性能と命令追従機能の両方を検証し易い命令追従ベンチマークの開発に焦点をあてる。既存の知識ベンチマークを適応させ、(a)知識タスクを正しく答える条件付きで強化するか、(b)複数の知識回答タスクにおいて候補オプションの空間を使用する。大規模な命令調整 LLM でさえ、ゼロショット設定で単純な命令に従わないことがわかった。
論文参考訳（メタデータ） (2024-10-16T19:07:37Z)
The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models [48.455388608863785]
本稿では,複数の命令を逐次的に追従するモデルの性能を評価するためのベンチマークを提案する。我々のベンチマークは,4つのタスク(テキスト修正,質問応答,数学,セキュリティルール)を用いて,指示に従うことを評価する。より最近のモデルでは、SIFoタスクにおいて、より古いモデルやより小さなモデルよりも大幅に優れており、ベンチマークの有効性が検証されている。
論文参考訳（メタデータ） (2024-06-28T15:34:26Z)
Evaluation of Instruction-Following Ability for Large Language Models on Story-Ending Generation [2.4889060833127665]
本稿では,大規模言語モデル(LLM)の物語生成の文脈における指示追従能力の評価に焦点をあてる。本稿では,機械読影理解モデル(MRC)を用いた自動評価パイプラインを提案する。
論文参考訳（メタデータ） (2024-06-24T06:53:36Z)
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文参考訳（メタデータ） (2024-05-25T08:23:05Z)
Benchmarking Large Language Models on Controllable Generation under Diversified Instructions [34.89012022437519]
大型言語モデル (LLM) は命令追従能力に優れていた。様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
論文参考訳（メタデータ） (2024-01-01T07:35:31Z)
One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2023-12-16T03:33:12Z)
Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文参考訳（メタデータ） (2023-05-22T13:18:17Z)
ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。 ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文参考訳（メタデータ） (2023-03-09T06:24:50Z)
CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文参考訳（メタデータ） (2021-09-10T03:23:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。