Fugu-MT 論文翻訳(概要): Reformulating Domain Adaptation of Large Language Models as Adapt-Retrieve-Revise

論文の概要: Reformulating Domain Adaptation of Large Language Models as Adapt-Retrieve-Revise

arxiv url: http://arxiv.org/abs/2310.03328v1
Date: Thu, 5 Oct 2023 05:55:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-06 19:09:01.876364
Title: Reformulating Domain Adaptation of Large Language Models as Adapt-Retrieve-Revise
Title（参考訳）: 適応検索改訂による大規模言語モデルのドメイン適応の再構築
Authors: Zhen wan, Yating Zhang, Yexiang Wang, Fei Cheng, Sadao Kurohashi
Abstract要約: GPT-4は、中国法のような特定の領域における幻覚を伴うコンテンツを生成し、これらの領域におけるそれらの適用を妨げる。本稿では,生成をtextbfadapt-retrieve-revise プロセスとして再構成することで,GPT-4 の簡易かつ効果的なドメイン適応フレームワークを提案する。中国の4つの法的タスクのゼロショット設定では、GPT-4による直接生成と比較して精度が33.3%向上する。
参考スコア（独自算出の注目度）: 34.4546877502907
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large language models (LLMs) like GPT-4 have recently demonstrated astonishing zero-shot capabilities in general domain tasks, they often generate content with hallucinations in specific domains such as Chinese law, hindering their application in these areas. This is typically due to the absence of training data that encompasses such a specific domain, preventing GPT-4 from acquiring in-domain knowledge. A pressing challenge is that it's not plausible to continue training LLMs of such scale on in-domain data. This paper introduces a simple and effective domain adaptation framework for GPT-4 by reformulating generation as an \textbf{adapt-retrieve-revise} process. The initial step is to \textbf{adapt} an affordable 7B LLM to the target domain by continuing learning on in-domain data. When solving a task, we leverage the adapted LLM to generate a draft answer given a task query. Then, the draft answer will be used to \textbf{retrieve} supporting evidence candidates from an external in-domain knowledge base. Finally, the draft answer and retrieved evidence are concatenated into a whole prompt to let GPT-4 assess the evidence and \textbf{revise} the draft answer to generate the final answer. Our proposal combines the advantages of the efficiency of adapting a smaller 7B model with the evidence-assessing capability of GPT-4 and effectively prevents GPT-4 from generating hallucinatory content. In the zero-shot setting of four Chinese legal tasks, our method improves accuracy by 33.3\% compared to the direct generation by GPT-4. When compared to two stronger retrieval-based baselines, our method outperforms them by 15.4\% and 23.9\%. Our code will be released
Abstract（参考訳）: gpt-4のような大規模言語モデル(llm)は、最近、一般的なドメインタスクでゼロショット機能を驚くべきものにすることを示したが、中国の法則のような特定のドメインで幻覚を伴うコンテンツを生成することが多く、これらの領域での応用を妨げている。これは通常、そのような特定のドメインを含むトレーニングデータがないためであり、GPT-4がドメイン内の知識を取得するのを妨げている。強調すべき課題は、ドメイン内のデータでそのような規模のLLMをトレーニングし続けることが不可能であることです。本稿では,GPT-4の簡易かつ効果的なドメイン適応フレームワークを提案する。最初のステップは、ドメイン内のデータについて学び続けることで、ターゲットドメインに安価な7B LLMを \textbf{adapt} することです。タスクを解く際には、順応したLCMを利用してタスククエリを与えられたドラフト回答を生成する。次に、ドラフトの回答は、外部のドメイン内知識ベースから証拠候補をサポートする \textbf{retrieve} に使用される。最後に、ドラフト回答と検索された証拠は、gpt-4に証拠を評価するための全プロンプトにまとめられ、最終回答を生成するためにドラフト回答を \textbf{revise} する。本提案では,より小型の7BモデルとGPT-4のエビデンス評価能力を併用することにより,GPT-4の幻覚内容の生成を効果的に防止する。 4つの中国の法的タスクのゼロショット設定では、gpt-4による直接生成に比べて33.3\%精度が向上する。 2つのより強い検索ベースラインと比較すると、15.4\%と23.9\%に優れる。私たちのコードはリリースされます

関連論文リスト

Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文参考訳（メタデータ） (2024-11-07T22:51:47Z)
See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。 GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文参考訳（メタデータ） (2024-08-16T19:01:52Z)
RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文参考訳（メタデータ） (2024-07-02T17:59:17Z)
From Tarzan to Tolkien: Controlling the Language Proficiency Level of LLMs for Content Generation [10.009516150364371]
本稿では,この課題に対するいくつかの重要なアプローチの有効性を評価する。この結果から,プロンプトベース戦略を用いた場合,GPT-4とオープンソースモデルの間に大きな性能差があることが判明した。我々の最良のモデルであるCALM (CEFR-Aligned Language Model) は、GPT-4やその他の戦略の性能をほんの少しのコストで上回ります。
論文参考訳（メタデータ） (2024-06-05T07:57:17Z)
GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection [51.43589678946244]
本稿では、一般的な視覚異常検出(AD)タスクにおけるVQA指向のGPT-4Vの可能性について検討する。 MVTec ADとVisAデータセットで定性的かつ定量的な評価を行ったのは、これが初めてである。
論文参考訳（メタデータ） (2023-11-05T10:01:18Z)
Instances Need More Care: Rewriting Prompts for Instances with LLMs in the Loop Yields Better Zero-Shot Performance [11.595274304409937]
大規模言語モデル(LLM)はゼロショットタスクのパフォーマンスに革命をもたらした。レッツ・シンク・バイ・ステップ(Let's Think by Step)」のようなトリガーフレーズを使った現在の手法は依然として限られている。本研究では,タスクインスタンスのゼロショットプロンプトを最適化するPRomPTedを導入する。
論文参考訳（メタデータ） (2023-10-03T14:51:34Z)
Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification [40.83776920225375]
OpenAIのGPT-4の最新バージョンは、GPT-4 Code Interpreterと呼ばれ、挑戦的な数学データセットにおいて顕著なパフォーマンスを示している。新規かつ効果的なUlinecode-based ulineself-ulineverification(CSV)を提案する。我々はMATHデータセット textbf (53.9% $to 84.3%) で印象的なゼロショット精度を達成した。
論文参考訳（メタデータ） (2023-08-15T17:58:45Z)
Generalized Planning in PDDL Domains with Pretrained Large Language Models [82.24479434984426]
PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。 7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
論文参考訳（メタデータ） (2023-05-18T14:48:20Z)
Can GPT-4 Perform Neural Architecture Search? [56.98363718371614]
ニューラルアーキテクチャサーチ(NAS)におけるGPT-4の可能性について検討する。提案手法である textbfGPT-4 textbfEnhanced textbfNeural archtextbfItecttextbfUre textbfSearch (GENIUS) 我々は、いくつかのベンチマークでGENIUSを評価し、既存のNAS技術と比較し、その効果を実証した。
論文参考訳（メタデータ） (2023-04-21T14:06:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。