論文の概要: No Dataset Needed for Downstream Knowledge Benchmarking: Response Dispersion Inversely Correlates with Accuracy on Domain-specific QA
- arxiv url: http://arxiv.org/abs/2408.13624v1
- Date: Sat, 24 Aug 2024 16:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 18:49:22.082808
- Title: No Dataset Needed for Downstream Knowledge Benchmarking: Response Dispersion Inversely Correlates with Accuracy on Domain-specific QA
- Title(参考訳): 下流知識ベンチマークに不要なデータセット:応答分散はドメイン固有のQAの精度と逆相関する
- Authors: Robert L Simione II,
- Abstract要約: 本研究は、特定のトピック領域におけるLLMの知識を比較する際に、QAデータセットの作成やLLM応答のグレーディング(チャットボット)の必要性を回避することを目的としている。
これは、LLMの内部動作へのアクセスを必要とせずに、完全にエンドユーザー中心の方法で行われ、同じプロンプトに対して異なる世代を生成するために、無作為なシードが与えられる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research seeks to obviate the need for creating QA datasets and grading (chatbot) LLM responses when comparing LLMs' knowledge in specific topic domains. This is done in an entirely end-user centric way without need for access to any inner workings of the LLM, so long as it can be prompted and given a random seed to create different generations to the same prompt. The paper does this by, for a given topic domain, defining the "response dispersion" of an LLM by repeatedly asking an LLM the same opinion question about that topic domain. Namely, the response dispersion is the count of singular values needed to explain 95% of the variance in the embedding matrix of the LLM's responses. It is found that the response dispersion is inversely correlated with accuracy on relevant QA evaluations (average spearman rank correlation stronger than -.59). A use-case analysis shows that when comparing two different LLMs on the same topic domain, comparing their response dispersion is a suitable replacement for comparing their QA accuracy between 74% and 89% of the time, the range depending on certain reasonable accuracy-difference tolerances that may be acceptable to an end-user in exchange for the labor being saved using response dispersion instead of QA accuracy for comparison. Two response embeddings are studied for creating the embedding matrix in this study, one is from OpenAI's APIs and one is a novel embedding, here named reference sentence similarity embeddings, that can be computed locally and performs very nearly as well in calculating response dispersion. Also in this research, a pre-existing dataset called the IRC-Wiki Trivia dataset, originally developed for trivia games, has been re-purposed, curated, and the curation, called IRC-WikiTriviaQA, is made available for the purpose of this research.
- Abstract(参考訳): 本研究は、特定のトピック領域におけるLLMの知識を比較する際に、QAデータセットの作成やLLM応答のグレーディング(チャットボット)の必要性を回避することを目的としている。
これは、LLMの内部動作へのアクセスを必要とせずに、完全にエンドユーザー中心の方法で行われ、同じプロンプトに対して異なる世代を生成するために、無作為なシードが与えられる。
論文は、あるトピックドメインに対して、そのトピックドメインについて同じ意見質問を繰り返しLLMに尋ねることにより、LLMの「応答分散」を定義する。
すなわち、応答分散は LLM の応答の埋め込み行列における分散の95%を説明するのに必要な特異値のカウントである。
その結果、応答分散は関連するQA評価(平均スピアマンランク相関が-.59よりも強い)の精度と逆相関していることがわかった。
ユースケース分析により、同一トピック領域上の2つの異なるLLMを比較する場合、その応答分散を比較することは、そのQAの精度を74%から89%に比較するのに適切な代替であり、QAの精度ではなく、レスポンス分散を用いて保存された労力と引き換えに、エンドユーザーに許容されるある程度の精度差耐性に依存する範囲であることが示された。
1つはOpenAIのAPIからのもので、もう1つは新しい埋め込みであり、名前付き参照文類似性埋め込みはローカルに計算でき、応答分散を計算するのにほぼ同様に機能する。
また、本研究では、もともとトリビアゲーム用に開発されたIRC-Wiki Triviaデータセットと呼ばれる既存のデータセットが再利用され、キュレーションされ、IRC-WikiTriviaQAと呼ばれるキュレーションが実施されている。
関連論文リスト
- RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Integrating SPARQL and LLMs for Question Answering over Scholarly Data Sources [0.0]
本稿では,SPARQLクエリ,分割と計算アルゴリズム,およびBERTベースのケース-SQuad2予測を組み合わせた方法論について述べる。
Exact MatchとFスコアのメトリクスで評価されたこの手法は、学術的な文脈におけるQAの精度と効率を改善することを約束している。
論文 参考訳(メタデータ) (2024-09-11T14:50:28Z) - RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。
RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。
最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文 参考訳(メタデータ) (2024-07-19T03:02:51Z) - Evaluation of RAG Metrics for Question Answering in the Telecom Domain [0.650923326742559]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)が質問応答(QA)タスクを実行できるようにするために広く使われている。
この作業は、いくつかの指標(事実性、文脈関連性、回答関連性、回答正当性、回答類似性、事実正当性)に対して修正されたこのパッケージで、プロンプトの中間出力を提供する。
次に、修正されたRAGASパッケージの出力のエキスパート評価を分析し、通信領域で使用する際の課題を観察する。
論文 参考訳(メタデータ) (2024-07-15T17:40:15Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - S-EQA: Tackling Situational Queries in Embodied Question Answering [48.43453390717167]
本研究では,家庭環境における状況問合せ(S-EQA)による身体的質問回答の課題を提示し,解決する。
まず, LLMの出力を包み込み, ユニークなコンセンサス・クエリと対応するコンセンサス・オブジェクトのデータセットを作成する, プロンプト・ジェネレート・評価手法を提案する。
本稿では,VQA(Visual Question Answering)において生成したオブジェクトコンセンサスからフレーム化されたクエリを用いて,状況に応じた質問に対して直接回答する際の精度を15.31%改善したことを報告した。
論文 参考訳(メタデータ) (2024-05-08T00:45:20Z) - CONFLARE: CONFormal LArge language model REtrieval [0.0]
Retrieval-augmented Generation (RAG)フレームワークは、大規模言語モデル(LLM)が知識ベースから関連する情報を検索し、応答を生成するコンテキストに組み込むことを可能にする。
RAGは、検索が必要な情報を応答生成のコンテキストとして識別できない場合、有効な応答を保証しない。
本稿では,RAGフレームワークにおける検索不確実性を定量化するために,共形予測を適用するための4段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-04T02:58:21Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - A Wrong Answer or a Wrong Question? An Intricate Relationship between
Question Reformulation and Answer Selection in Conversational Question
Answering [15.355557454305776]
会話の文脈における質問書き直し(QR)は、この現象により多くの光を放つことができることを示す。
TREC CAsT と QuAC (CANARD) のデータセットを用いて解析を行った。
論文 参考訳(メタデータ) (2020-10-13T06:29:51Z) - Selective Question Answering under Domain Shift [90.021577320085]
モデルがドメイン外の入力に対して過度に信頼されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不適切である。
キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。
提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。
論文 参考訳(メタデータ) (2020-06-16T19:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。