論文の概要: Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately
- arxiv url: http://arxiv.org/abs/2402.01722v1
- Date: Sat, 27 Jan 2024 00:18:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:13:09.254293
- Title: Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately
- Title(参考訳): 大規模言語モデルの性能向上による質問への回答と情報抽出の精度向上
- Authors: Liang Zhang, Katherine Jijo, Spurthi Setty, Eden Chung, Fatima Javid,
Natan Vidra, Tommy Clifford
- Abstract要約: 大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
- 参考スコア(独自算出の注目度): 2.1715455600756646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) generate responses to questions; however, their
effectiveness is often hindered by sub-optimal quality of answers and
occasional failures to provide accurate responses to questions. To address
these challenges, a fine-tuning process is employed, involving feedback and
examples to refine models. The objective is to enhance AI models through
continuous feedback loops, utilizing metrics such as cosine similarity, LLM
evaluation and Rouge-L scores to evaluate the models. Leveraging LLMs like
GPT-3.5, GPT4ALL, and LLaMA2, and Claude, this approach is benchmarked on
financial datasets, including the FinanceBench and RAG Instruct Benchmark
Tester Dataset, illustrating the necessity of fine-tuning. The results showcase
the capability of fine-tuned models to surpass the accuracy of zero-shot LLMs,
providing superior question and answering capabilities. Notably, the
combination of fine-tuning the LLM with a process known as Retrieval Augmented
Generation (RAG) proves to generate responses with improved accuracy.
- Abstract(参考訳): 大規模言語モデル(llm)は質問に対する応答を生成するが、その有効性は、質問に正確な応答を与えるために、回答の最適品質や時々の失敗によってしばしば妨げられる。
これらの課題に対処するために、フィードバックとモデルを洗練するための例を含む微調整プロセスが採用されている。
目的は、コサイン類似性、LLM評価、ルージュ-Lスコアなどのメトリクスを活用して、継続的なフィードバックループを通じてAIモデルを強化することである。
GPT-3.5、GPT4ALL、LLaMA2といったLLMを活用して、このアプローチはファイナンスベンチやRAG Instruct Benchmark Tester Datasetといった金融データセット上でベンチマークされ、微調整の必要性が説明される。
その結果、ゼロショットLLMの精度を超越した微調整モデルの能力を示し、優れた質問と回答能力を提供する。
特に、LLMの微調整とRAG(Retrieval Augmented Generation)と呼ばれるプロセスの組み合わせは、精度を向上して応答を生成することを証明している。
関連論文リスト
- CURATRON: Complete Robust Preference Data for Robust Alignment of Large
Language Models [1.7849982327883962]
本稿では,大規模言語モデル(LLM)と人間の価値観を協調させる上での課題について,嗜好学習(PL)を用いて検討する。
そこで本研究では,これらのデータセット内での値の頑健かつ完全再検討を行う新しい手法を提案する。
我々のアルゴリズムは、一般と選好の両方のデータセット設定において、逆ノイズと観測されていない比較をうまく処理する。
論文 参考訳(メタデータ) (2024-03-05T07:58:12Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Towards Reliable and Fluent Large Language Models: Incorporating
Feedback Learning Loops in QA Systems [10.58737969057445]
我々は,大規模な言語モデルによって生成された応答の引用,正しさ,および流布性を評価することができる評論家モデルを訓練するためのデータセットを構築した。
本稿では,批判モデルを利用して生成したテキストの異質な側面をリアルタイムにフィードバックする自動フィードバック機構を提案する。
提案手法の有効性を実験的に検証し,4%の精度向上とMAUVE測定値の約8%の精度向上を図った。
論文 参考訳(メタデータ) (2023-09-08T09:39:53Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Automatic Calibration and Error Correction for Generative Large Language
Models via Pareto Optimal Self-Supervision [13.348376207148789]
大規模言語モデル(LLM)は、広範囲のアプリケーションで顕著な機能を示しているが、未処理や誤応答の低減は依然として大きな成長領域である。
本稿では,LLM応答の系統的調整に利用可能なプログラム制御を活用できるフレームワークを提案する。
バイオメディカルおよび一般領域における標準的関係抽出および分類タスクの実験は、提案したリスクスコアが実際のLCM誤差率と高い相関があることを実証している。
論文 参考訳(メタデータ) (2023-06-28T21:11:15Z) - ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文 参考訳(メタデータ) (2023-05-23T00:16:48Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。