論文の概要: Generation, Distillation and Evaluation of Motivational
Interviewing-Style Reflections with a Foundational Language Model
- arxiv url: http://arxiv.org/abs/2402.01051v1
- Date: Thu, 1 Feb 2024 22:54:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 17:26:52.218004
- Title: Generation, Distillation and Evaluation of Motivational
Interviewing-Style Reflections with a Foundational Language Model
- Title(参考訳): 基礎言語モデルを用いたモチベーション型インタビュースタイル反射の生成, 蒸留, 評価
- Authors: Andrew Brown, Jiading Zhu, Mohamed Abdelwahab, Alec Dong, Cindy Wang,
Jonathan Rose
- Abstract要約: 本稿では,基礎言語モデルからより小さなモデルへの反射の発生を蒸留する方法を提案する。
まず、ゼロショットプロンプトを用いたGPT-4は、ほぼ100%の成功率で反射を生成できることを示す。
また, 蒸留モデルの品質評価において, GPT-4は労働集約的な作業に有効であることを示す。
- 参考スコア(独自算出の注目度): 2.33956825429387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Foundational Language Models are capable of performing many tasks at a
high level but are difficult to deploy in many applications because of their
size and proprietary ownership. Many will be motivated to distill specific
capabilities of foundational models into smaller models that can be owned and
controlled. In the development of a therapeutic chatbot, we wish to distill a
capability known as reflective listening, in which a therapist produces
reflections of client speech. These reflections either restate what a client
has said, or connect what was said to a relevant observation, idea or guess
that encourages and guides the client to continue contemplation. In this paper,
we present a method for distilling the generation of reflections from a
Foundational Language Model (GPT-4) into smaller models. We first show that
GPT-4, using zero-shot prompting, can generate reflections at near 100% success
rate, superior to all previous methods. Using reflections generated by GPT-4,
we fine-tune different sizes of the GPT-2 family. The GPT-2-small model
achieves 83% success on a hold-out test set and the GPT-2 XL achieves 90%
success. We also show that GPT-4 can help in the labor-intensive task of
evaluating the quality of the distilled models, using it as a zero-shot
classifier. Using triple-human review as a guide, the classifier achieves a
Cohen-Kappa of 0.66, a substantial inter-rater reliability figure.
- Abstract(参考訳): 大規模な基礎言語モデルは高いレベルで多くのタスクを実行することができるが、そのサイズとプロプライエタリなオーナシップのため、多くのアプリケーションにデプロイすることは困難である。
その多くは、基礎モデルの特定の能力を、所有および制御可能なより小さなモデルに蒸留する動機がある。
治療用チャットボットの開発において,セラピストがクライアント音声のリフレクションを生成するリフレクティブ・リスニング(reflective listening)と呼ばれる機能を抽出したい。
これらのリフレクションは、クライアントが言ったことを復活させるか、あるいは関連する観察、アイデア、推測を結び付けて、クライアントが熟考を続けるように促し導く。
本稿では,基礎言語モデル(GPT-4)からより小さなモデルへの反射の発生を蒸留する方法を提案する。
まず,ゼロショットプロンプトを用いたGPT-4は,従来の手法よりも100%近い成功率でリフレクションを生成可能であることを示す。
GPT-4により生成された反射を用いて、GPT-2ファミリーのサイズを微調整する。
GPT-2小モデルはホールドアウトテストセットで83%成功し、GPT-2 XLは90%成功している。
また, GPT-4は, ゼロショット分類器として使用することにより, 蒸留モデルの品質を評価する作業に有効であることを示す。
分類器は、トリプル・ヒューマン・レビューをガイドとして、実質的なレート間信頼性図である0.66のコーエン・カッパを達成する。
関連論文リスト
- Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report) [6.789534723913505]
大規模言語モデル(LLM)は、サードパーティにデータを提供する必要をなくすことで、データのプライバシ保護を可能にする。
持続可能な開発目標マッピングタスクにおいて,様々な言語モデルの性能を比較した。
この研究の結果によると、LLaMA 2とGemmaは依然として改善の余地がある。
論文 参考訳(メタデータ) (2024-08-05T03:05:02Z) - Teaching Language Models to Self-Improve by Learning from Language Feedback [40.649677201161744]
本稿では、モデルフィードバックをアライメントに活用するSRT(Self-Refinement Tuning)を提案する。
SRTはベース言語モデル(例えばTulu2)を使用して、より高度なモデルによって批判され洗練される初期応答を生成する。
SRTはさらに、自己生成したフィードバックと改善から学び、モデルの改善を促進するフィードバックループを作成することで、モデルを最適化する。
論文 参考訳(メタデータ) (2024-06-11T11:20:05Z) - On Zero-Shot Counterspeech Generation by LLMs [23.39818166945086]
対音声生成のためのゼロショット設定において,4つの大規模言語モデル(LLM)の性能を包括的に解析する。
モデルの種類を考えると、GPT-2とFlanT5モデルは対音声品質においてかなり優れている。
ChatGPTは、すべてのメトリクスの他のモデルよりも、カウンタースピーチを生成するのがはるかに優れている。
論文 参考訳(メタデータ) (2024-03-22T04:13:10Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - NERIF: GPT-4V for Automatic Scoring of Drawn Models [0.6278186810520364]
最近リリースされたGPT-4Vは、科学的モデリングの実践を前進させるユニークな機会を提供する。
我々は,GPT-4Vに学生の描画モデルを評価するための指導音とルーブリックを用いた手法を開発した。
GPT-4Vのスコアを人間の専門家のスコアと比較し、スコアの精度を計算した。
論文 参考訳(メタデータ) (2023-11-21T20:52:04Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z) - RL4F: Generating Natural Language Feedback with Reinforcement Learning
for Repairing Model Outputs [27.777809444120827]
以前の作業では、アウトプットを修復する際のガイドとして、自然言語フィードバックを備えた言語モデルの提供が提案されていた。
我々は,GPT-3のエンドタスク性能を最大化するために,批判生成を訓練するマルチエージェント協調フレームワークRL4Fを紹介する。
複数のテキスト類似度指標の相対的な改善は、他の学習、検索強化、あるいはプロンプトに基づく批判ジェネレータと比べて最大10%向上する。
論文 参考訳(メタデータ) (2023-05-15T17:57:16Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Elaboration-Generating Commonsense Question Answering at Scale [77.96137534751445]
一般的な感覚を必要とする質問応答では、言語モデル(例えばGPT-3)が背景知識を表すテキストを生成するために使われてきた。
より小さな言語モデルを微調整して有用な中間コンテキストを生成します。
私たちのフレームワークは、2つの言語モデルの更新 – 開発中のジェネレータと応答予測器 – を交互に行います。
論文 参考訳(メタデータ) (2022-09-02T18:32:09Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。
その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。
GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文 参考訳(メタデータ) (2021-09-16T09:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。