論文の概要: Reformulating Domain Adaptation of Large Language Models as Adapt-Retrieve-Revise: A Case Study on Chinese Legal Domain
- arxiv url: http://arxiv.org/abs/2310.03328v3
- Date: Mon, 26 Aug 2024 02:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 01:07:17.566401
- Title: Reformulating Domain Adaptation of Large Language Models as Adapt-Retrieve-Revise: A Case Study on Chinese Legal Domain
- Title(参考訳): アダプティブ・リトリーブ・リビジョンとしての大規模言語モデルのドメイン適応の改革:中国語法ドメインを事例として
- Authors: Zhen wan, Yating Zhang, Yexiang Wang, Fei Cheng, Sadao Kurohashi,
- Abstract要約: GPT-4は、中国法のような特定の領域における幻覚を伴うコンテンツを生成し、これらの領域におけるそれらの適用を妨げる。
本稿では,生成をtextbfadapt-retrieve-revise プロセスとして再構成することで,GPT-4 の簡易かつ効果的なドメイン適応フレームワークを提案する。
中国の4つの法的タスクのゼロショット設定では、GPT-4による直接生成と比較して精度が33.3%向上する。
- 参考スコア(独自算出の注目度): 32.11522364248498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) like GPT-4 have recently demonstrated astonishing zero-shot capabilities in general domain tasks, they often generate content with hallucinations in specific domains such as Chinese law, hindering their application in these areas. This is typically due to the absence of training data that encompasses such a specific domain, preventing GPT-4 from acquiring in-domain knowledge. A pressing challenge is that it's not plausible to continue training LLMs of such scale on in-domain data. This paper introduces a simple and effective domain adaptation framework for GPT-4 by reformulating generation as an \textbf{adapt-retrieve-revise} process. The initial step is to \textbf{adapt} an affordable 7B LLM to the target domain by continuing learning on in-domain data. When solving a task, we leverage the adapted LLM to generate a draft answer given a task query. Then, the draft answer will be used to \textbf{retrieve} supporting evidence candidates from an external in-domain knowledge base. Finally, the draft answer and retrieved evidence are concatenated into a whole prompt to let GPT-4 assess the evidence and \textbf{revise} the draft answer to generate the final answer. Our proposal combines the advantages of the efficiency of adapting a smaller 7B model with the evidence-assessing capability of GPT-4 and effectively prevents GPT-4 from generating hallucinatory content. In the zero-shot setting of four Chinese legal tasks, our method improves accuracy by 33.3\% compared to the direct generation by GPT-4. When compared to two stronger retrieval-based baselines, our method outperforms them by 15.4\% and 23.9\%. Our code will be released
- Abstract(参考訳): GPT-4のような大規模言語モデル(LLM)は、最近、一般的なドメインタスクにおいてゼロショット機能に驚きを見せている。
これは通常、そのような特定のドメインを含むトレーニングデータがないためであり、GPT-4がドメイン内の知識を取得するのを妨げている。
強調すべき課題は、ドメイン内のデータでこのような規模のLLMを継続的にトレーニングすることは不可能である、ということです。
本稿では, GPT-4 の簡易かつ効果的なドメイン適応フレームワークについて, 生成を \textbf{adapt-retrieve-revise} プロセスとして再構成することによって紹介する。
最初のステップは、ドメイン内のデータについて学び続けることで、ターゲットドメインに手頃な7B LLMを \textbf{adapt} することです。
タスクを解く際には、順応したLCMを活用し、タスククエリを与えられたドラフト回答を生成する。
次に、ドラフト回答は、外部のドメイン内の知識ベースからエビデンス候補をサポートするtextbf{retrieve} に使用される。
最後に、ドラフト回答と検索されたエビデンスを全プロンプトにまとめて、GPT-4にエビデンスを評価し、最終的な答えを生成するためにドラフト回答を \textbf{revise} にする。
本提案では,より小型の7BモデルとGPT-4のエビデンス評価能力を併用することにより,GPT-4の幻覚内容の生成を効果的に防止する。
中国の4つの法的タスクのゼロショット設定では、GPT-4による直接生成に比べて精度が33.3倍向上する。
2つのより強い検索ベースラインと比較すると、この手法は15.4\%と23.9\%より優れている。
私たちのコードはリリースされます
関連論文リスト
- Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - From Tarzan to Tolkien: Controlling the Language Proficiency Level of LLMs for Content Generation [10.009516150364371]
本稿では,この課題に対するいくつかの重要なアプローチの有効性を評価する。
この結果から,プロンプトベース戦略を用いた場合,GPT-4とオープンソースモデルの間に大きな性能差があることが判明した。
我々の最良のモデルであるCALM (CEFR-Aligned Language Model) は、GPT-4やその他の戦略の性能をほんの少しのコストで上回ります。
論文 参考訳(メタデータ) (2024-06-05T07:57:17Z) - GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection [51.43589678946244]
本稿では、一般的な視覚異常検出(AD)タスクにおけるVQA指向のGPT-4Vの可能性について検討する。
MVTec ADとVisAデータセットで定性的かつ定量的な評価を行ったのは、これが初めてである。
論文 参考訳(メタデータ) (2023-11-05T10:01:18Z) - Instances Need More Care: Rewriting Prompts for Instances with LLMs in the Loop Yields Better Zero-Shot Performance [11.595274304409937]
大規模言語モデル(LLM)はゼロショットタスクのパフォーマンスに革命をもたらした。
レッツ・シンク・バイ・ステップ(Let's Think by Step)」のようなトリガーフレーズを使った現在の手法は依然として限られている。
本研究では,タスクインスタンスのゼロショットプロンプトを最適化するPRomPTedを導入する。
論文 参考訳(メタデータ) (2023-10-03T14:51:34Z) - Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with
Code-based Self-Verification [40.83776920225375]
OpenAIのGPT-4の最新バージョンは、GPT-4 Code Interpreterと呼ばれ、挑戦的な数学データセットにおいて顕著なパフォーマンスを示している。
新規かつ効果的なUlinecode-based ulineself-ulineverification(CSV)を提案する。
我々はMATHデータセット textbf (53.9% $to 84.3%) で印象的なゼロショット精度を達成した。
論文 参考訳(メタデータ) (2023-08-15T17:58:45Z) - Generalized Planning in PDDL Domains with Pretrained Large Language
Models [82.24479434984426]
PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。
7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
論文 参考訳(メタデータ) (2023-05-18T14:48:20Z) - Can GPT-4 Perform Neural Architecture Search? [56.98363718371614]
ニューラルアーキテクチャサーチ(NAS)におけるGPT-4の可能性について検討する。
提案手法である textbfGPT-4 textbfEnhanced textbfNeural archtextbfItecttextbfUre textbfSearch (GENIUS)
我々は、いくつかのベンチマークでGENIUSを評価し、既存のNAS技術と比較し、その効果を実証した。
論文 参考訳(メタデータ) (2023-04-21T14:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。