論文の概要: Tuna: Instruction Tuning using Feedback from Large Language Models
- arxiv url: http://arxiv.org/abs/2310.13385v1
- Date: Fri, 20 Oct 2023 09:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 23:35:43.527293
- Title: Tuna: Instruction Tuning using Feedback from Large Language Models
- Title(参考訳): tuna: 大きな言語モデルからのフィードバックによる命令チューニング
- Authors: Haoran Li, Yiran Liu, Xingxing Zhang, Wei Lu, Furu Wei
- Abstract要約: 本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
- 参考スコア(独自算出の注目度): 74.04950416204551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning of open-source large language models (LLMs) like LLaMA,
using direct outputs from more powerful LLMs such as Instruct-GPT and GPT-4,
has proven to be a cost-effective way to align model behaviors with human
preferences. However, the instruction-tuned model has only seen one response
per instruction, lacking the knowledge of potentially better responses. In this
paper, we propose finetuning an instruction-tuned LLM using our novel
\textit{probabilistic ranking} and \textit{contextual ranking} approaches to
increase the likelihood of generating better responses. Probabilistic ranking
enables the instruction-tuned model to inherit the relative rankings of
high-quality and low-quality responses from the teacher LLM. On the other hand,
learning with contextual ranking allows the model to refine its own response
distribution using the contextual understanding ability of stronger LLMs.
Furthermore, we apply probabilistic ranking and contextual ranking sequentially
to the instruction-tuned LLM. The resulting model, which we call \textbf{Tuna},
consistently improves the performance on Super Natural Instructions (119 test
tasks), LMentry (25 test tasks), Vicuna QA, and can even obtain better results
than several strong reinforcement learning baselines. Our code and data are
available at \url{ https://github.com/microsoft/LMOps}.
- Abstract(参考訳): LLaMAのようなオープンソースの大規模言語モデル(LLM)のインストラクションチューニングは、インストラクト-GPTやGPT-4のようなより強力なLLMからの直接出力を使用しており、モデルの振る舞いを人間の好みに合わせるためのコスト効率の良い方法であることが証明されている。
しかし、命令調整モデルでは命令毎に1つの応答しか見られず、より優れた応答の知識が欠落している。
本稿では,より優れた応答を生成する可能性を高めるために,新しい \textit{probabilistic ranking} と \textit{contextual ranking} を用いた命令調整llmの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方,文脈ランキングを用いた学習では,より強固なllmの文脈理解能力を用いて,モデルが独自の応答分布を洗練することができる。
さらに,命令調整 LLM に対して確率的ランキングと文脈的ランキングを順次適用する。
得られたモデルは \textbf{tuna}と呼ばれ、超自然命令(119テストタスク)、lmentry(25テストタスク)、vicuna qaのパフォーマンスを一貫して向上させ、強力な強化学習ベースラインよりも優れた結果を得ることができます。
私たちのコードとデータは、 \url{ https://github.com/microsoft/lmops}で利用可能です。
関連論文リスト
- Show, Don't Tell: Aligning Language Models with Demonstrated Feedback [54.10302745921713]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Can Small Language Models be Good Reasoners for Sequential Recommendation? [34.098264212413305]
SLIM (Step-by-step knowLedge dIstillation fraMework for recommendation)
より大規模な教師モデルのためのユーザ行動系列に基づくCoTプロンプトを導入する。
教師モデルによって生成される理論的根拠をラベルとして利用し、下流のより小さな学生モデルを蒸留する。
論文 参考訳(メタデータ) (2024-03-07T06:49:37Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。
LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation [43.270424225285105]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z) - Evaluating Instruction-Tuned Large Language Models on Code Comprehension
and Generation [4.310519298899164]
本研究では,4つの代表的コード理解および生成タスクに対して,オープンソースのLLMを10個評価する。
ゼロショット設定では、命令されたLLMはコード理解と生成タスクに非常に競合する。
数ショット設定では,実演例の追加がLLMの性能向上に有効であることが判明した。
論文 参考訳(メタデータ) (2023-08-02T15:54:22Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - Investigating the Effectiveness of Task-Agnostic Prefix Prompt for
Instruction Following [44.701091969256055]
本稿では,TAPP(Task-Agnostic Prefix Prompt)を入力にプリプションすることで,各種大規模言語モデル(LLM)の命令追従能力が向上することを示す。
我々は、ベースLLM(命令に従うように微調整されていない)と命令調整モデルの両方がTAPPの恩恵を受けており、平均で34.58%、12.26%の改善が得られた。
論文 参考訳(メタデータ) (2023-02-28T16:06:35Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。