論文の概要: Weaver: Foundation Models for Creative Writing
- arxiv url: http://arxiv.org/abs/2401.17268v1
- Date: Tue, 30 Jan 2024 18:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 13:44:33.785426
- Title: Weaver: Foundation Models for Creative Writing
- Title(参考訳): Weaver: 創造的記述のための基礎モデル
- Authors: Tiannan Wang, Jiamin Chen, Qingrui Jia, Shuai Wang, Ruoyu Fang, Huilin
Wang, Zhaowei Gao, Chunzhao Xie, Chuou Xu, Jihong Dai, Yibin Liu, Jialong Wu,
Shengwei Ding, Long Li, Zhiwei Huang, Xinle Deng, Teng Yu, Gangan Ma, Han
Xiao, Zixin Chen, Danjun Xiang, Yunxia Wang, Yuanyuan Zhu, Yi Xiao, Jing
Wang, Yiru Wang, Siran Ding, Jiayang Huang, Jiayi Xu, Yilihamu Tayier, Zhenyu
Hu, Yuan Gao, Chengfeng Zheng, Yueshu Ye, Yihang Li, Lei Wan, Xinyue Jiang,
Yujie Wang, Siyu Cheng, Zhule Song, Xiangru Tang, Xiaohua Xu, Ningyu Zhang,
Huajun Chen, Yuchen Eleanor Jiang, and Wangchunshu Zhou
- Abstract要約: 私たちはWeaverを紹介します。これは、コンテンツ作成専用の大規模言語モデル(LLM)の最初のファミリーです。
Weaverは、大規模言語モデルの書き込み機能の改善に焦点を当てた、慎重に選択されたコーパスで事前トレーニングされている。
創造的かつ専門的な執筆目的のためにWeaverを微調整し、プロの作家の好みに合わせて調整します。
- 参考スコア(独自算出の注目度): 61.26716770063019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work introduces Weaver, our first family of large language models (LLMs)
dedicated to content creation. Weaver is pre-trained on a carefully selected
corpus that focuses on improving the writing capabilities of large language
models. We then fine-tune Weaver for creative and professional writing purposes
and align it to the preference of professional writers using a suit of novel
methods for instruction data synthesis and LLM alignment, making it able to
produce more human-like texts and follow more diverse instructions for content
creation. The Weaver family consists of models of Weaver Mini (1.8B), Weaver
Base (6B), Weaver Pro (14B), and Weaver Ultra (34B) sizes, suitable for
different applications and can be dynamically dispatched by a routing agent
according to query complexity to balance response quality and computation cost.
Evaluation on a carefully curated benchmark for assessing the writing
capabilities of LLMs shows Weaver models of all sizes outperform generalist
LLMs several times larger than them. Notably, our most-capable Weaver Ultra
model surpasses GPT-4, a state-of-the-art generalist LLM, on various writing
scenarios, demonstrating the advantage of training specialized LLMs for writing
purposes. Moreover, Weaver natively supports retrieval-augmented generation
(RAG) and function calling (tool usage). We present various use cases of these
abilities for improving AI-assisted writing systems, including integration of
external knowledge bases, tools, or APIs, and providing personalized writing
assistance. Furthermore, we discuss and summarize a guideline and best
practices for pre-training and fine-tuning domain-specific LLMs.
- Abstract(参考訳): この作業では、コンテンツ生成専用の大規模言語モデル(LLM)の最初のファミリーであるWeaverを紹介します。
weaverは、大規模な言語モデルの書き込み能力の向上に焦点を当てた、慎重に選択されたコーパスで事前トレーニングされている。
次に、創造的かつ専門的な執筆目的でWeaverを微調整し、命令データ合成とLCMアライメントのための新しい方法のスーツを用いてプロのライターの好みに合わせることにより、より人間的なテキストを生成し、コンテンツ作成のためのより多様な指示に従うことができる。
WeaverファミリーはWeaver Mini (1.8B)、Weaver Base (6B)、Weaver Pro (14B)、Weaver Ultra (34B)のモデルで構成され、異なるアプリケーションに適している。
LLMの書き込み能力を評価するための厳格なベンチマークの評価は、すべてのサイズのWeaverモデルの方がジェネラリストLLMよりも数倍大きいことを示している。
特に、我々の最も有能なWeaver Ultraモデルは、様々な書き込みシナリオにおいて、最先端のジェネラリストLLMであるGPT-4を超越し、書き込み目的に特殊なLLMを訓練する利点を示している。
さらにWeaverは、検索拡張生成(RAG)と関数呼び出し(ツール使用)をネイティブにサポートする。
本稿では、外部知識ベース、ツール、apiの統合、パーソナライズドライティング支援など、ai支援ライティングシステムの改善のためのこれらの能力のさまざまなユースケースを紹介する。
さらに,事前学習とドメイン固有llmの微調整のためのガイドラインとベストプラクティスについて概説する。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Large Language Models as Narrative-Driven Recommenders [0.051205673783866146]
大規模言語モデル(LLM)は、一般的な自然言語クエリの処理に優れていることが示されている。
映画レコメンデーション設定において,38個のオープンソース LLM とクローズドソース LLM のパフォーマンスを比較した。
以上の結果から,LLMがコンテキストに関連のある映画レコメンデーションを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-10-17T14:39:24Z) - Fine-Tuned 'Small' LLMs (Still) Significantly Outperform Zero-Shot Generative AI Models in Text Classification [0.0]
Generative AIは、テキスト分類タスク用の小さなBERTスタイルのLLMを微調整する、シンプルでプロンプトベースの代替手段を提供する。
テキスト分類において、より小さく微調整されたLLMは、より大きく、ゼロショットの引き起こされるモデルよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2024-06-12T21:46:13Z) - LiPost: Improved Content Understanding With Effective Use of Multi-task Contrastive Learning [2.611731148829789]
多様なセマンティックラベリングタスクから得られたデータとマルチタスクのコントラスト学習を用いて、事前学習されたトランスフォーマーベースのLLMを微調整する。
我々のモデルはゼロショット学習のベースラインを上回り、多言語サポートの改善を提供する。
この作業は、LLMを特定のアプリケーションにカスタマイズし、微調整するLinkedInの垂直チームにとって、堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2024-05-18T17:28:29Z) - Navigating the Path of Writing: Outline-guided Text Generation with Large Language Models [8.920436030483872]
本稿では,Large Language Models (LLMs) をユーザ整列テキスト生成のガイドとして,明示的なアウトラインを用いたLinging Pathを提案する。
我々のアプローチは、構造化された記述計画と推論パスからインスピレーションを得て、書き込みプロセス全体を通してユーザの意図を捉え、反映することに重点を置いています。
論文 参考訳(メタデータ) (2024-04-22T06:57:43Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - Open-Source LLMs for Text Annotation: A Practical Guide for Model Setting and Fine-Tuning [5.822010906632045]
本稿では、政治科学研究に典型的なテキスト分類タスクにおけるオープンソースのLarge Language Models(LLM)の性能について検討する。
姿勢・話題・関連分類などの課題を調べることで,テキスト分析におけるLLMの使用に関する情報的判断を学者に指導することを目指す。
論文 参考訳(メタデータ) (2023-07-05T10:15:07Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。