論文の概要: Finetuning an LLM on Contextual Knowledge of Classics for Q&A
- arxiv url: http://arxiv.org/abs/2312.07848v1
- Date: Wed, 13 Dec 2023 02:32:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 16:58:09.686094
- Title: Finetuning an LLM on Contextual Knowledge of Classics for Q&A
- Title(参考訳): q&aにおける古典の文脈知識に関するllmの微調整
- Authors: Shane Storm Strachan
- Abstract要約: このプロジェクトは、クラシックの知識と人工知能の能力を統合する試みである。
本研究の目的は,文脈知識を正確に再現するだけでなく,一貫した「個性」を示すLLMを開発することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The open-source publishing of large language models (LLMs) has created many
possibilities for how anyone who understands language and has access to a
computer can interact with significant tools of artificial intelligence,
particularly in the context of learning and knowledge dissemination. However,
the utility of these models in specialized fields like Classics is still
largely unexplored. This project is an attempt to merge the knowledge of
Classics with the capabilities of artificial intelligence by finetuning an LLM
to cater to the specific needs of learners and professionals. The goal of this
project is to develop an LLM that not only reproduces contextual knowledge
accurately but also exhibits a consistent "personality" - and, indeed, has
consistent propriety - to appeal to a diverse audience who possess differing
levels of knowledge. A significant portion of this project was dedicated to
refining the dataset, following the principle of "garbage in, garbage out," to
ensure the model generates relevant, useful, and creative responses when given
a prompt (a statement, question, or single word). After training and
evaluation, my model's ability to handle a vast array of different types of
inputs and prompting exceeded expectations for a 355M parameter model, though
its occasional hallucinations (especially when set with a high temperature),
particularly in its assertions about historical events or its own identity,
make it seem somewhat capricious and more work in the form of continuous
finetuning will be undertaken.
- Abstract(参考訳): 大規模言語モデル(LLM)のオープンソース公開は、言語を理解し、コンピュータにアクセス可能な人なら誰でも、人工知能の重要なツール、特に学習と知識の普及の文脈で対話できる多くの可能性を生み出している。
しかし、古典などの専門分野におけるこれらのモデルの実用性は、いまだにほとんど解明されていない。
このプロジェクトは、学習者と専門家の特定のニーズに対応するためにllmを微調整することで、古典の知識と人工知能の能力を統合する試みである。
このプロジェクトの目標は、文脈的知識を正確に再現するだけでなく、一貫性のある「個人性」を示すllmを開発し、異なるレベルの知識を持つ多様なオーディエンスにアピールすることである。
このプロジェクトの大きな部分は、"ガーベージイン、ガベージアウト"の原則に従ってデータセットの精錬に費やされ、モデルがプロンプト(文、質問、単一単語)を与えられたときに、関連する、有用な、創造的な応答を生成することを保証する。
トレーニングと評価の後、私のモデルは様々な入力を処理し、355mのパラメータモデルに期待を上回ったが、その時々の幻覚(特に高温で設定された場合)、特に歴史的な出来事やそれ自身のアイデンティティに関する主張において、幾分キャピタリティーになり、継続的な微調整という形での作業が行われる。
関連論文リスト
- Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - LLM Processes: Numerical Predictive Distributions Conditioned on Natural Language [35.84181171987974]
我々のゴールは、数値データを処理し、任意の場所で確率的予測を行うレグレッションモデルを構築することである。
まず、大規模言語モデルから明示的で一貫性のある数値予測分布を抽出する戦略を探求する。
本研究では,テキストを数値予測に組み込む能力を示し,予測性能を改善し,定性的な記述を反映した定量的な構造を与える。
論文 参考訳(メタデータ) (2024-05-21T15:13:12Z) - Prompt-Time Symbolic Knowledge Capture with Large Language Models [0.0]
ユーザ固有の知識で大きな言語モデル(LLM)を拡張することは、パーソナルAIアシスタントのような現実世界のアプリケーションにとって不可欠である。
本稿では,既存のLLM機能を活用して,迅速な知識獲得を実現する。
論文 参考訳(メタデータ) (2024-02-01T08:15:28Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - MechGPT, a language-based strategy for mechanics and materials modeling
that connects knowledge across scales, disciplines and modalities [0.0]
我々は,Large Language Model (LLM) を用いて,質問応答対を原料から抽出し,微調整する。
得られたMechGPT LLM基盤モデルは、知識検索、様々な言語タスク、仮説生成、異なる領域にわたる知識の接続能力を調べるために、一連の計算実験で使用される。
論文 参考訳(メタデータ) (2023-10-16T14:29:35Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Generated Knowledge Prompting for Commonsense Reasoning [53.88983683513114]
本稿では,汎用的なプロンプト形式を用いて,言語モデルから直接知識文を生成することを提案する。
このアプローチは、4つのコモンセンス推論タスクにおいて、既製の言語モデルと微調整された言語モデルの両方のパフォーマンスを向上させる。
特に、モデルが生成した知識を使用することで、予測が改善できることが分かる。
論文 参考訳(メタデータ) (2021-10-15T21:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。