論文の概要: How Good Is It? Evaluating the Efficacy of Common versus Domain-Specific Prompts on Foundational Large Language Models
- arxiv url: http://arxiv.org/abs/2407.11006v1
- Date: Tue, 25 Jun 2024 20:52:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 12:29:47.752729
- Title: How Good Is It? Evaluating the Efficacy of Common versus Domain-Specific Prompts on Foundational Large Language Models
- Title(参考訳): どのくらい良いのか?基礎的大規模言語モデルにおける共通対ドメイン特化プロンプトの有効性の評価
- Authors: Oluyemi Enoch Amujo, Shanchieh Jay Yang,
- Abstract要約: 本研究は,サイバーセキュリティ,医療,金融など多種多様な分野にわたる言語モデル(LLM)を評価する。
その結果,モデルサイズと推論に用いるプロンプトの種類は応答長と品質に大きく影響した。
- 参考スコア(独自算出の注目度): 1.3812010983144802
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, large language models (LLMs) have expanded into various domains. However, there remains a need to evaluate how these models perform when prompted with commonplace queries compared to domain-specific queries, which may be useful for benchmarking prior to fine-tuning domain-specific downstream tasks. This study evaluates LLMs, specifically Gemma-2B and Gemma-7B, across diverse domains, including cybersecurity, medicine, and finance, compared to common knowledge queries. This study employs a comprehensive methodology to evaluate foundational models, encompassing problem formulation, data analysis, and the development of novel outlier detection techniques. This methodological rigor enhances the credibility of the presented evaluation frameworks. This study focused on assessing inference time, response length, throughput, quality, and resource utilization and investigated the correlations between these factors. The results indicate that model size and types of prompts used for inference significantly influenced response length and quality. In addition, common prompts, which include various types of queries, generate diverse and inconsistent responses at irregular intervals. In contrast, domain-specific prompts consistently generate concise responses within a reasonable time. Overall, this study underscores the need for comprehensive evaluation frameworks to enhance the reliability of benchmarking procedures in multidomain AI research.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) は様々な領域に拡張されている。
しかし、ドメイン固有のクエリと比較して、これらのモデルがコモンプレースクエリでトリガーされたときにどのように機能するかを評価する必要がある。
本研究では,LLM(特にGemma-2BとGemma-7B)を,一般的な知識クエリと比較して,サイバーセキュリティ,医療,ファイナンスなどさまざまな領域にわたって評価する。
本研究では, 基礎モデルの評価, 問題定式化, データ解析, 新規な外乱検出技術の開発を包含する包括的方法論を用いた。
本手法は,提案した評価フレームワークの信頼性を高める。
本研究は, 推定時間, 応答長, スループット, 品質, 資源利用量について検討し, これらの要因間の相関について検討した。
その結果,モデルサイズと推論に用いるプロンプトの種類は応答長と品質に大きく影響した。
さらに、様々な種類のクエリを含む一般的なプロンプトは、不規則な間隔で多種多様な一貫性のない応答を生成する。
対照的に、ドメイン固有のプロンプトは、合理的な時間内に簡潔な応答を一貫して生成する。
本研究は、マルチドメインAI研究におけるベンチマーク手順の信頼性を高めるための総合的な評価フレームワークの必要性を強調した。
関連論文リスト
- Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models [0.0]
自然言語処理におけるオープンドメイン質問回答(ODQA)は,大規模知識コーパスを用いて,事実質問に回答するシステムを構築する。
高品質なデータセットは、現実的なシナリオでモデルをトレーニングするために使用されます。
標準化されたメトリクスは、異なるODQAシステム間の比較を容易にする。
論文 参考訳(メタデータ) (2024-06-19T05:43:02Z) - R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - DomainRAG: A Chinese Benchmark for Evaluating Domain-specific Retrieval-Augmented Generation [19.907074685082]
Retrieval-Augmented Generationは、大規模言語モデルの様々な制限に対処する有望なソリューションを提供する。
現在の研究は、しばしばウィキペディアのような一般的な知識ソースを使って、常識的な問題を解決するモデルの能力を評価している。
対話型RAGの能力を含むRAGモデルに必要な6つの能力を特定した。
論文 参考訳(メタデータ) (2024-06-09T05:33:51Z) - GRAMMAR: Grounded and Modular Methodology for Assessment of Closed-Domain Retrieval-Augmented Language Model [6.106667677504318]
Retrieval-augmented Generation (RAG) システムは、ドメイン固有の知識ベースを問うために、様々な産業で活発に研究され、展開されている。
これらのシステムを評価することは、ドメイン固有のクエリが不足し、それに対応する基底真理が不足しているため、ユニークな課題である。
GRAMMARは,1)リレーショナルデータベースとLCMを利用して,スケーラブルな問合せ対を効率よく生成するデータ生成プロセス,2)知識ギャップと堅牢性を区別し,欠陥モジュールの識別を可能にする評価フレームワークである。
論文 参考訳(メタデータ) (2024-04-30T03:29:30Z) - DIGIC: Domain Generalizable Imitation Learning by Causal Discovery [69.13526582209165]
因果性は機械学習と組み合わせて、ドメインの一般化のための堅牢な表現を生成する。
我々は、実証データ分布を活用して、ドメインの一般化可能なポリシーの因果的特徴を発見するために、異なる試みを行っている。
DIGICと呼ばれる新しいフレームワークを設計し、実演データ分布から専門家行動の直接的な原因を見出すことにより因果的特徴を識別する。
論文 参考訳(メタデータ) (2024-02-29T07:09:01Z) - HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context Learning in Factuality Evaluation [20.178644251662316]
本稿では,文脈内学習における関連する文節の検索を促進するために,階層的思考グラフ(HGOT)を導入する。
このフレームワークは、複雑なクエリを管理可能なサブクエリに分割する、分割/クエリ戦略を採用している。
それは、最近提案された引用リコールと精度の指標を取り入れた、回答の選択のための自己一貫性の過半数投票を洗練する。
論文 参考訳(メタデータ) (2024-02-14T18:41:19Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Exploring the Power of Topic Modeling Techniques in Analyzing Customer
Reviews: A Comparative Analysis [0.0]
大量のテキストデータをオンラインで分析するために、機械学習と自然言語処理アルゴリズムがデプロイされている。
本研究では,顧客レビューに特化して用いられる5つのトピックモデリング手法について検討・比較する。
以上の結果から,BERTopicはより意味のあるトピックを抽出し,良好な結果を得ることができた。
論文 参考訳(メタデータ) (2023-08-19T08:18:04Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - f-Domain-Adversarial Learning: Theory and Algorithms [82.97698406515667]
教師なしのドメイン適応は、トレーニング中、ターゲットドメイン内のラベルなしデータにアクセス可能な、多くの機械学習アプリケーションで使用されている。
領域適応のための新しい一般化法を導出し、f-発散体の変分的特徴に基づく分布間の相違性の新しい尺度を利用する。
論文 参考訳(メタデータ) (2021-06-21T18:21:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。