論文の概要: Self-AMPLIFY: Improving Small Language Models with Self Post Hoc Explanations
- arxiv url: http://arxiv.org/abs/2402.12038v2
- Date: Mon, 15 Apr 2024 14:22:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 22:56:09.956755
- Title: Self-AMPLIFY: Improving Small Language Models with Self Post Hoc Explanations
- Title(参考訳): Self-AMPLIFY: セルフポストホック説明による小言語モデルの改善
- Authors: Milan Bhan, Jean-Noel Vittaut, Nicolas Chesneau, Marie-Jeanne Lesot,
- Abstract要約: 本研究では,Small Language Models (SLM) に適用したポストホックな説明法から,自動論理式を生成するセルフAMPLIFYを提案する。
Self-AMPLIFYは、サンプルをターゲットとし、合理性を生成し、In-Context Learning (ICL)を活用するための最後のプロンプトを構築する3段階のメソッドである。
- 参考スコア(独自算出の注目度): 0.41998444721319206
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Incorporating natural language rationales in the prompt and In-Context Learning (ICL) has led to a significant improvement of Large Language Models (LLMs) performance. However, rationales currently require human-annotation or the use of auxiliary proxy models to target promising samples or generate high-quality rationales. In this work, we propose Self-AMPLIFY to generate automatically rationales from post hoc explanation methods applied to Small Language Models (SLMs) to improve their own performance. Self-AMPLIFY is a 3-step method that targets samples, generates rationales and builds a final prompt to leverage ICL. Self-AMPLIFY performance is evaluated on two SLMs and two datasets requiring reasoning abilities: these experiments show that Self-AMPLIFY achieves good results against competitors. Self-AMPLIFY is the first method to apply post hoc explanation methods to SLM to generate rationales to improve their own performance in a fully automated manner.
- Abstract(参考訳): インプロンプトとインコンテキスト学習(ICL)に自然言語の合理性を組み込むことで、LLM(Large Language Models)のパフォーマンスが大幅に向上した。
しかし、現在、有望なサンプルをターゲットにしたり、高品質な有理数を生成するために、人間のアノテーションや補助的なプロキシモデルの使用が必要である。
そこで本研究では,Small Language Models (SLM) に適用したポストホックな説明手法から,自動論理式を生成するセルフAMPLIFYを提案する。
Self-AMPLIFYは、サンプルをターゲットとし、合理性を生成し、ICLを活用するための最後のプロンプトを構築する3段階のメソッドである。
自己AMPLIFYのパフォーマンスは、推論能力を必要とする2つのSLMと2つのデータセットで評価される。
Self-AMPLIFYは、SLMにポストホックな説明法を適用して、完全に自動化された方法で自身のパフォーマンスを改善するための合理性を生成する最初の方法である。
関連論文リスト
- LMUnit: Fine-grained Evaluation with Natural Language Unit Tests [43.096722878672956]
応答品質を明示的でテスト可能な基準に分解するパラダイムである自然言語単体テストを導入する。
このパラダイムは、アノテーション間の合意を大幅に改善し、より効果的な開発を可能にする。
LMUnitは、評価ベンチマークとRewardBenchの競争結果で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-17T17:01:15Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己制限を統合したセルフプレイフレームワークで、気を散らさずに有効かつ同等の選好ペアを得る。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - RDBE: Reasoning Distillation-Based Evaluation Enhances Automatic Essay Scoring [0.0]
Reasoning Distillation-Based Evaluation (RDBE) は、解釈可能性を統合し、モデルスコアの背景にある理論的根拠を解明する。
実験により, データセットに考慮したすべてのスコアリングルーリックに対してRDBEの有効性が示された。
論文 参考訳(メタデータ) (2024-07-03T05:49:01Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Self-Refine Instruction-Tuning for Aligning Reasoning in Language Models [0.8133739801185272]
小さい言語モデルと大きい言語モデルの間の推論能力のアライメントは、主にスーパーバイザード・ファイン・チューニング(SFT)を通して行われる。
そこで本研究では,より小さな言語モデルを用いて自己定義する自己記述型指導手法を提案する。
コモンセンスと数学の推論タスクで得られた結果は、このアプローチがドメイン内とドメイン外の両方のシナリオでインストラクションチューニングを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-01T09:10:27Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - Improving Attributed Text Generation of Large Language Models via Preference Learning [28.09715554543885]
属性タスクを選好学習としてモデル化し,自動選好最適化フレームワークを導入する。
APOは、回答品質の高い最先端の引用F1を達成する。
論文 参考訳(メタデータ) (2024-03-27T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。