Fugu-MT 論文翻訳(概要): Self-AMPLIFY: Improving Small Language Models with Self Post Hoc Explanations

論文の概要: Self-AMPLIFY: Improving Small Language Models with Self Post Hoc Explanations

arxiv url: http://arxiv.org/abs/2402.12038v1
Date: Mon, 19 Feb 2024 10:47:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 17:04:52.633957
Title: Self-AMPLIFY: Improving Small Language Models with Self Post Hoc Explanations
Title（参考訳）: self-amplify: 自己後説明による小さな言語モデルの改善
Authors: Milan Bhan and Jean-Noel Vittaut and Nicolas Chesneau and Marie-Jeanne Lesot
Abstract要約: 本研究では,Small Language Models (SLM) に適用したポストホックな説明法から,自動論理式を生成するセルフAMPLIFYを提案する。 Self-AMPLIFYは、サンプルをターゲットとし、合理性を生成し、In-Context Learning (ICL)を活用するための最後のプロンプトを構築する3段階のメソッドである。
参考スコア（独自算出の注目度）: 0.45880283710344055
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Incorporating natural language rationales in the prompt and In-Context Learning (ICL) has led to a significant improvement of Large Language Models (LLMs) performance. However, rationales currently require human-annotation or the use of auxiliary proxy models to target promising samples or generate high-quality rationales. In this work, we propose Self-AMPLIFY to generate automatically rationales from post hoc explanation methods applied to Small Language Models (SLMs) to improve their own performance. Self-AMPLIFY is a 3-step method that targets samples, generates rationales and builds a final prompt to leverage ICL. Self-AMPLIFY performance is evaluated on two SLMs and two datasets requiring reasoning abilities: these experiments show that Self-AMPLIFY achieves good results against competitors. Self-AMPLIFY is the first method to apply post hoc explanation methods to SLM to generate rationales to improve their own performance in a fully automated manner.
Abstract（参考訳）: インプロンプトとインコンテキスト学習(ICL)に自然言語の合理性を組み込むことで、LLM(Large Language Models)のパフォーマンスが大幅に向上した。しかしながら、現在、有望なサンプルをターゲットにしたり、高品質な有理数を生成するために、人間アノテーションや補助プロキシモデルの使用が必要である。そこで本研究では,Small Language Models (SLM) に適用したポストホックな説明手法から,自動論理式を生成するセルフAMPLIFYを提案する。 Self-AMPLIFYは、サンプルをターゲットとし、合理性を生成し、ICLを活用するための最後のプロンプトを構築する3段階のメソッドである。自己AMPLIFYのパフォーマンスは、推論能力を必要とする2つのSLMと2つのデータセットで評価される。 Self-AMPLIFYは、SLMにポストホックな説明法を適用して、完全に自動化された方法で自身のパフォーマンスを改善するための合理性を生成する最初の方法である。

関連論文リスト

Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines [71.14354526117958]
In-context Learning (ICL) は、事前訓練された大規模言語モデル(LLM)の重要かつ完全には理解されていない能力である。タスク言語とフォーマット特性をキャプチャする2つのガイドラインの並列ストリームを効率よく生成するLongGuideを提案する。 LongGuideはガイドラインの最良の組み合わせを自動的に選択し、ゼロショット設定と少数ショット設定の両方で、強力なオープンソースLLMとクローズドソースLLMの両方を5%以上改善する。
論文参考訳（メタデータ） (2025-06-02T02:35:24Z)
Latent Principle Discovery for Language Model Self-Improvement [14.137106102563514]
本稿では, 自己補正設定で明示的にモデル化することで, 人間の嗜好応答を推論する潜在属性を抽出する手法を提案する。提案手法は,LM自体から新たな原理を抽出し,発見した要素をクラスタリングにより解釈可能な集合に圧縮する。複数の反復でアルゴリズムをブートストラップすることで、より小さな言語モデルを自己改善し、AlpacaEvalの勝率+8-10%、MT-Benchの平均+0.3、IFEvalの勝率+19-23%を達成できることを示した。
論文参考訳（メタデータ） (2025-05-22T17:20:18Z)
Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling [3.253908111652627]
大型言語モデル(LLM)は、しばしば幻覚に対する形式的正当で使用可能なモデルを生成するのに苦労する。本稿では,検証リワードを用いた強化学習を用いた最適化モデルのためのLLMの信頼性を向上する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-17T02:32:03Z)
Process-based Self-Rewarding Language Models [47.119444722849025]
大規模言語モデルは、様々な下流タスクで優れたパフォーマンスを示し、複数のシナリオで広く適用されてきた。人間の嗜好データは、人間のパフォーマンスの上限に制約されるLCMの性能をさらに向上させるために訓練に使用される。本稿では,LLM-as-a-Judgeとステップワイズ優先最適化を導入した,言語モデルのためのプロセスベースの自己回帰パイプラインを提案する。
論文参考訳（メタデータ） (2025-03-05T18:58:44Z)
LMUnit: Fine-grained Evaluation with Natural Language Unit Tests [43.096722878672956]
応答品質を明示的でテスト可能な基準に分解するパラダイムである自然言語単体テストを導入する。このパラダイムは、アノテーション間の合意を大幅に改善し、より効果的な開発を可能にする。 LMUnitは、評価ベンチマークとRewardBenchの競争結果で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-17T17:01:15Z)
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文参考訳（メタデータ） (2024-12-16T09:47:43Z)
Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。 SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文参考訳（メタデータ） (2024-12-02T20:24:17Z)
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文参考訳（メタデータ） (2024-11-27T10:51:00Z)
Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文参考訳（メタデータ） (2024-11-04T06:07:53Z)
RDBE: Reasoning Distillation-Based Evaluation Enhances Automatic Essay Scoring [0.0]
Reasoning Distillation-Based Evaluation (RDBE) は、解釈可能性を統合し、モデルスコアの背景にある理論的根拠を解明する。実験により, データセットに考慮したすべてのスコアリングルーリックに対してRDBEの有効性が示された。
論文参考訳（メタデータ） (2024-07-03T05:49:01Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Self-Refine Instruction-Tuning for Aligning Reasoning in Language Models [0.8133739801185272]
小さい言語モデルと大きい言語モデルの間の推論能力のアライメントは、主にスーパーバイザード・ファイン・チューニング(SFT)を通して行われる。そこで本研究では,より小さな言語モデルを用いて自己定義する自己記述型指導手法を提案する。コモンセンスと数学の推論タスクで得られた結果は、このアプローチがドメイン内とドメイン外の両方のシナリオでインストラクションチューニングを著しく上回っていることを示している。
論文参考訳（メタデータ） (2024-05-01T09:10:27Z)
Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文参考訳（メタデータ） (2024-04-26T03:41:28Z)
Improving Attributed Text Generation of Large Language Models via Preference Learning [28.09715554543885]
属性タスクを選好学習としてモデル化し,自動選好最適化フレームワークを導入する。 APOは、回答品質の高い最先端の引用F1を達成する。
論文参考訳（メタデータ） (2024-03-27T09:19:13Z)
AutoMix: Automatically Mixing Language Models [62.51238143437967]
大規模言語モデル(LLM)は、さまざまなサイズと構成のクラウドAPIプロバイダから利用可能になった。より小さなLMからの出力の近似精度に基づいて,クエリを大規模LMに戦略的にルーティングする手法であるAutomixを提案する。
論文参考訳（メタデータ） (2023-10-19T17:57:39Z)
Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-02T04:29:40Z)
SimOAP: Improve Coherence and Consistency in Persona-based Dialogue Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文参考訳（メタデータ） (2023-05-18T17:23:00Z)
Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners [23.150999852147283]
本研究は,differiAble pRompT (DART) という新規で効率的なアプローチを提案する。小さな言語モデルを、素早いエンジニアリングなしで、より優れた数ショットの学習者に変換することができる。標準NLPタスクの包括的な評価は、提案手法がより優れた数ショット性能を実現することを示す。
論文参考訳（メタデータ） (2021-08-30T12:29:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。