論文の概要: Retrieved In-Context Principles from Previous Mistakes
- arxiv url: http://arxiv.org/abs/2407.05682v1
- Date: Mon, 8 Jul 2024 07:32:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 16:40:17.404221
- Title: Retrieved In-Context Principles from Previous Mistakes
- Title(参考訳): 事前の誤りからコンテキスト内原則を回収する
- Authors: Hao Sun, Yong Jiang, Bo Wang, Yingyan Hou, Yan Zhang, Pengjun Xie, Fei Huang,
- Abstract要約: In-context Learning (ICL) は、入力出力の正しい例を用いて、下流のタスクにLarge Language Models (LLM) を適用するのに役立っている。
近年の進歩は、ミスから派生した原則により、モデルパフォーマンスの改善を試みている。
本稿では,新しい教師学習フレームワークであるRetrieved In-Context Principles (RICP)を提案する。
- 参考スコア(独自算出の注目度): 55.109234526031884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) has been instrumental in adapting Large Language Models (LLMs) to downstream tasks using correct input-output examples. Recent advances have attempted to improve model performance through principles derived from mistakes, yet these approaches suffer from lack of customization and inadequate error coverage. To address these limitations, we propose Retrieved In-Context Principles (RICP), a novel teacher-student framework. In RICP, the teacher model analyzes mistakes from the student model to generate reasons and insights for preventing similar mistakes. These mistakes are clustered based on their underlying reasons for developing task-level principles, enhancing the error coverage of principles. During inference, the most relevant mistakes for each question are retrieved to create question-level principles, improving the customization of the provided guidance. RICP is orthogonal to existing prompting methods and does not require intervention from the teacher model during inference. Experimental results across seven reasoning benchmarks reveal that RICP effectively enhances performance when applied to various prompting strategies.
- Abstract(参考訳): In-context Learning (ICL) は、入力出力の正しい例を用いて、下流のタスクにLarge Language Models (LLM) を適用するのに役立っている。
近年の進歩は、ミスから派生した原則によるモデル性能の向上を試みているが、これらのアプローチは、カスタマイズの欠如とエラーカバレッジの不十分さに悩まされている。
これらの制約に対処するため,新しい教師学生のためのフレームワークであるRetrieved In-Context Principles (RICP)を提案する。
RICPでは、教師モデルが生徒モデルからのミスを分析し、同様のミスを防ぐための理由と洞察を生成する。
これらのミスは、タスクレベルの原則を開発するための基本的な理由に基づいてクラスタ化され、原則のエラーカバレッジが向上します。
推論中、各質問の最も関連性の高い誤りを検索し、質問レベルの原則を作成し、提供されたガイダンスのカスタマイズを改善する。
RICPは既存のプロンプト法と直交しており、推論中に教師モデルからの介入を必要としない。
7つの推論ベンチマークによる実験結果から、RICPは様々なプロンプト戦略に適用した場合、性能を効果的に向上することが明らかとなった。
関連論文リスト
- Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。
このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。
本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文 参考訳(メタデータ) (2024-06-29T17:16:04Z) - Tag and correct: high precision post-editing approach to correction of speech recognition errors [0.0]
ASR(Automatic Speech Recognition)仮説の単語を単語単位で修正する方法を学ぶニューラルネットワークタグと、タグによって返される修正を適用する修正モジュールとから構成される。
提案手法はアーキテクチャによらず,任意のASRシステムに適用可能である。
論文 参考訳(メタデータ) (2024-06-11T09:52:33Z) - TPD: Enhancing Student Language Model Reasoning via Principle Discovery
and Guidance [0.0]
原則発見による指導(TPD)と呼ばれる原則に基づく教員教育の枠組みを導入する。
人間の学習メカニズムにインスパイアされたPDは、原則に基づくアプローチを用いて教師と学生の相互作用を模倣する。
TPDは学生モデルの性能を著しく改善し、平均6.2%の利益を得た。
論文 参考訳(メタデータ) (2024-01-24T23:11:33Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Policy-Gradient Training of Language Models for Ranking [29.940468096858066]
テキスト検索は、意思決定の事実知識を言語処理パイプラインに組み込む上で重要な役割を担っている。
現在の最先端テキスト検索モデルは、事前訓練された大規模言語モデル(LLM)を活用して、競争性能を達成する。
我々は、LLMをPlanet-Luceランキングポリシーとしてインスタンス化することでランク付けを学ぶ新しいトレーニングアルゴリズムであるNeural PG-RANKを紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:55:23Z) - Remembering for the Right Reasons: Explanations Reduce Catastrophic
Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。
RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。
メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文 参考訳(メタデータ) (2020-10-04T10:05:27Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。