論文の概要: Reformulating Domain Adaptation of Large Language Models as
Adapt-Retrieve-Revise
- arxiv url: http://arxiv.org/abs/2310.03328v1
- Date: Thu, 5 Oct 2023 05:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 19:09:01.876364
- Title: Reformulating Domain Adaptation of Large Language Models as
Adapt-Retrieve-Revise
- Title(参考訳): 適応検索改訂による大規模言語モデルのドメイン適応の再構築
- Authors: Zhen wan, Yating Zhang, Yexiang Wang, Fei Cheng, Sadao Kurohashi
- Abstract要約: GPT-4は、中国法のような特定の領域における幻覚を伴うコンテンツを生成し、これらの領域におけるそれらの適用を妨げる。
本稿では,生成をtextbfadapt-retrieve-revise プロセスとして再構成することで,GPT-4 の簡易かつ効果的なドメイン適応フレームワークを提案する。
中国の4つの法的タスクのゼロショット設定では、GPT-4による直接生成と比較して精度が33.3%向上する。
- 参考スコア(独自算出の注目度): 34.4546877502907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) like GPT-4 have recently demonstrated
astonishing zero-shot capabilities in general domain tasks, they often generate
content with hallucinations in specific domains such as Chinese law, hindering
their application in these areas. This is typically due to the absence of
training data that encompasses such a specific domain, preventing GPT-4 from
acquiring in-domain knowledge. A pressing challenge is that it's not plausible
to continue training LLMs of such scale on in-domain data.
This paper introduces a simple and effective domain adaptation framework for
GPT-4 by reformulating generation as an \textbf{adapt-retrieve-revise} process.
The initial step is to \textbf{adapt} an affordable 7B LLM to the target domain
by continuing learning on in-domain data. When solving a task, we leverage the
adapted LLM to generate a draft answer given a task query. Then, the draft
answer will be used to \textbf{retrieve} supporting evidence candidates from an
external in-domain knowledge base. Finally, the draft answer and retrieved
evidence are concatenated into a whole prompt to let GPT-4 assess the evidence
and \textbf{revise} the draft answer to generate the final answer.
Our proposal combines the advantages of the efficiency of adapting a smaller
7B model with the evidence-assessing capability of GPT-4 and effectively
prevents GPT-4 from generating hallucinatory content. In the zero-shot setting
of four Chinese legal tasks, our method improves accuracy by 33.3\% compared to
the direct generation by GPT-4. When compared to two stronger retrieval-based
baselines, our method outperforms them by 15.4\% and 23.9\%. Our code will be
released
- Abstract(参考訳): gpt-4のような大規模言語モデル(llm)は、最近、一般的なドメインタスクでゼロショット機能を驚くべきものにすることを示したが、中国の法則のような特定のドメインで幻覚を伴うコンテンツを生成することが多く、これらの領域での応用を妨げている。
これは通常、そのような特定のドメインを含むトレーニングデータがないためであり、GPT-4がドメイン内の知識を取得するのを妨げている。
強調すべき課題は、ドメイン内のデータでそのような規模のLLMをトレーニングし続けることが不可能であることです。
本稿では,GPT-4の簡易かつ効果的なドメイン適応フレームワークを提案する。
最初のステップは、ドメイン内のデータについて学び続けることで、ターゲットドメインに安価な7B LLMを \textbf{adapt} することです。
タスクを解く際には、順応したLCMを利用してタスククエリを与えられたドラフト回答を生成する。
次に、ドラフトの回答は、外部のドメイン内知識ベースから証拠候補をサポートする \textbf{retrieve} に使用される。
最後に、ドラフト回答と検索された証拠は、gpt-4に証拠を評価するための全プロンプトにまとめられ、最終回答を生成するためにドラフト回答を \textbf{revise} する。
本提案では,より小型の7BモデルとGPT-4のエビデンス評価能力を併用することにより,GPT-4の幻覚内容の生成を効果的に防止する。
4つの中国の法的タスクのゼロショット設定では、gpt-4による直接生成に比べて33.3\%精度が向上する。
2つのより強い検索ベースラインと比較すると、15.4\%と23.9\%に優れる。
私たちのコードはリリースされます
関連論文リスト
- Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - From Tarzan to Tolkien: Controlling the Language Proficiency Level of LLMs for Content Generation [10.009516150364371]
本稿では,この課題に対するいくつかの重要なアプローチの有効性を評価する。
この結果から,プロンプトベース戦略を用いた場合,GPT-4とオープンソースモデルの間に大きな性能差があることが判明した。
我々の最良のモデルであるCALM (CEFR-Aligned Language Model) は、GPT-4やその他の戦略の性能をほんの少しのコストで上回ります。
論文 参考訳(メタデータ) (2024-06-05T07:57:17Z) - GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection [51.43589678946244]
本稿では、一般的な視覚異常検出(AD)タスクにおけるVQA指向のGPT-4Vの可能性について検討する。
MVTec ADとVisAデータセットで定性的かつ定量的な評価を行ったのは、これが初めてである。
論文 参考訳(メタデータ) (2023-11-05T10:01:18Z) - Instances Need More Care: Rewriting Prompts for Instances with LLMs in the Loop Yields Better Zero-Shot Performance [11.595274304409937]
大規模言語モデル(LLM)はゼロショットタスクのパフォーマンスに革命をもたらした。
レッツ・シンク・バイ・ステップ(Let's Think by Step)」のようなトリガーフレーズを使った現在の手法は依然として限られている。
本研究では,タスクインスタンスのゼロショットプロンプトを最適化するPRomPTedを導入する。
論文 参考訳(メタデータ) (2023-10-03T14:51:34Z) - Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with
Code-based Self-Verification [40.83776920225375]
OpenAIのGPT-4の最新バージョンは、GPT-4 Code Interpreterと呼ばれ、挑戦的な数学データセットにおいて顕著なパフォーマンスを示している。
新規かつ効果的なUlinecode-based ulineself-ulineverification(CSV)を提案する。
我々はMATHデータセット textbf (53.9% $to 84.3%) で印象的なゼロショット精度を達成した。
論文 参考訳(メタデータ) (2023-08-15T17:58:45Z) - Generalized Planning in PDDL Domains with Pretrained Large Language
Models [82.24479434984426]
PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。
7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
論文 参考訳(メタデータ) (2023-05-18T14:48:20Z) - Can GPT-4 Perform Neural Architecture Search? [56.98363718371614]
ニューラルアーキテクチャサーチ(NAS)におけるGPT-4の可能性について検討する。
提案手法である textbfGPT-4 textbfEnhanced textbfNeural archtextbfItecttextbfUre textbfSearch (GENIUS)
我々は、いくつかのベンチマークでGENIUSを評価し、既存のNAS技術と比較し、その効果を実証した。
論文 参考訳(メタデータ) (2023-04-21T14:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。