論文の概要: Distilled Self-Critique of LLMs with Synthetic Data: a Bayesian
Perspective
- arxiv url: http://arxiv.org/abs/2312.01957v1
- Date: Mon, 4 Dec 2023 15:16:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 14:51:13.927741
- Title: Distilled Self-Critique of LLMs with Synthetic Data: a Bayesian
Perspective
- Title(参考訳): 合成データを用いたLLMの蒸留自己批判:ベイズ的視点
- Authors: Victor Gallego
- Abstract要約: 本稿では, 蒸留自己批判(dSC)を導入し, RLAIFをベイズ推論として解釈する。
dSCは、後に微調整されたモデルに蒸留されるギブス・サンプルラーを通してLLMの出力を精製する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an interpretation of RLAIF as Bayesian inference by
introducing distilled Self-Critique (dSC), which refines the outputs of a LLM
through a Gibbs sampler that is later distilled into a fine-tuned model. Only
requiring synthetic data, dSC is exercised in experiments regarding safety,
sentiment, and privacy control, showing it can be a viable and cheap
alternative to align LLMs. Code released at
\url{https://github.com/vicgalle/distilled-self-critique}.
- Abstract(参考訳): 本稿では,RLAIFを蒸留した自己臨界(dSC)を導入してベイズ推論として解釈し,後に微調整モデルに蒸留したギブスサンプリング器を用いてLCMの出力を精製する手法を提案する。
合成データのみを必要とするため、dSCは安全性、感情、プライバシコントロールに関する実験で実施されており、LCMの整列のための実用的で安価な代替手段であることを示している。
コードは \url{https://github.com/vicgalle/distilled-self-critique}。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Syntriever: How to Train Your Retriever with Synthetic Data from LLMs [4.079147243688765]
ブラックボックスLLMの合成データを用いた検索者のための学習フレームワークであるSyntrieverを提案する。
そこで我々は,LLM選好を正規化して学習するために,部分的なPockett-Luceランキングと呼ばれる選好モデルを提案する。
実験により、Syntrieverは様々なドメインのベンチマークデータセット上で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-02-06T07:19:59Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Differentially Private Steering for Large Language Model Alignment [55.30573701583768]
本稿では,大規模言語モデルとプライベートデータセットの整合性に関する最初の研究について述べる。
本研究では, LLM underlineAment (PSA) アルゴリズムのためのtextitunderlinePrivate underlineSteeringを提案する。
以上の結果から,PSAはLPMアライメントのDP保証を実現し,性能の低下を最小限に抑えることができた。
論文 参考訳(メタデータ) (2025-01-30T17:58:36Z) - Distilling Fine-grained Sentiment Understanding from Large Language Models [26.9647773533975]
きめ細かい感情分析(FSA)は、膨大な意見テキストからユーザー意見を抽出し、要約することを目的としている。
本稿では,大言語モデル(LLM)から小言語モデル(SLM)への微粒な感情理解の蒸留について検討する。
論文 参考訳(メタデータ) (2024-12-24T17:05:26Z) - LLM4VV: Exploring LLM-as-a-Judge for Validation and Verification Testsuites [6.796136787585992]
大規模言語モデル(LLM)は進化し、ソフトウェア開発のランドスケープに大きな革命をもたらしています。
本稿では,ディレクティブプログラミングモデルのコンパイラ実装を評価するために使用されるテストの判定について考察する。
論文 参考訳(メタデータ) (2024-08-21T15:54:17Z) - GOLD: Generalized Knowledge Distillation via Out-of-Distribution-Guided Language Data Generation [21.56082253577229]
金はタスクに依存しないデータ生成および知識蒸留フレームワークである。
LLMには反復的なアウト・オブ・ディストリビューション誘導フィードバック機構が採用されている。
ノイズ発生データを扱うためのエネルギーベースOOD評価手法も導入されている。
論文 参考訳(メタデータ) (2024-03-28T18:08:22Z) - $\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。
我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。
我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:08:00Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。