論文の概要: Likelihood as a Performance Gauge for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2411.07773v1
- Date: Tue, 12 Nov 2024 13:14:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:19:26.361084
- Title: Likelihood as a Performance Gauge for Retrieval-Augmented Generation
- Title(参考訳): 検索拡張生成のためのパフォーマンスゲージとしてのLikelihood
- Authors: Tianyu Liu, Jirui Qi, Paul He, Arianna Bisazza, Mrinmaya Sachan, Ryan Cotterell,
- Abstract要約: 言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
- 参考スコア(独自算出の注目度): 78.28197013467157
- License:
- Abstract: Recent work finds that retrieval-augmented generation with large language models is prone to be influenced by the order of retrieved documents in the context. However, the lack of in-depth analysis limits the use of this phenomenon for prompt engineering in practice. In this study, we posit that likelihoods serve as an effective gauge for language model performance. Through experiments on two question-answering datasets with a variety of state-of-the-art language models, we reveal correlations between answer accuracy and the likelihood of the question at both the corpus level and the instance level. In addition, we find that question likelihood can also indicate the position of the task-relevant information in the context. Based on these findings, we propose two methods that use question likelihood as a gauge for selecting and constructing prompts that lead to better performance. We demonstrate their effectiveness with experiments. In addition, our likelihood-based methods are efficient, as they only need to compute the likelihood of the input, requiring much fewer language model passes than heuristic prompt engineering methods that require generating responses. Our analysis deepens our understanding of how input prompts affect model performance and provides a promising direction for efficient prompt optimization.
- Abstract(参考訳): 近年の研究では,大規模な言語モデルを用いた検索拡張生成は,検索された文書の順序の影響を受けやすいことが判明している。
しかし、詳細な分析の欠如は、この現象を実際は急進的な工学に利用することを制限している。
本研究では,言語モデルの性能の効果的な指標としての可能性を示す。
様々な最先端言語モデルを用いた2つの質問回答データセットの実験を通して,回答精度と質問の確率の相関関係をコーパスレベルとインスタンスレベルの両方で明らかにした。
さらに,課題関連情報の位置を文脈で示すことも可能であることも確認した。
これらの結果に基づき,提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
実験によってその効果を実証する。
さらに、我々の可能性に基づく手法は、入力の確率を計算するだけで、応答を生成するヒューリスティックなプロンプト工学手法よりもはるかに少ない言語モデルパスを必要とするため、効率的である。
本分析は,入力がモデル性能にどのように影響するかを深く理解し,効率的なプロンプト最適化のための有望な方向性を提供する。
関連論文リスト
- Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning [32.178931149612644]
コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。
しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。
語彙定義意味論(vocabulary-defined semantics)を提案する。
論文 参考訳(メタデータ) (2024-01-29T14:29:48Z) - Evaluating Large Language Models in Semantic Parsing for Conversational
Question Answering over Knowledge Graphs [6.869834883252353]
本稿では,この課題に対して事前訓練を受けていない大規模言語モデルの性能を評価する。
その結果,大規模言語モデルでは対話からグラフクエリを生成することができることがわかった。
論文 参考訳(メタデータ) (2024-01-03T12:28:33Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Visualizing the Relationship Between Encoded Linguistic Information and
Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。
我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。
実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文 参考訳(メタデータ) (2022-03-29T19:03:10Z) - Leveraging Cognitive Search Patterns to Enhance Automated Natural
Language Retrieval Performance [0.0]
ユーザの検索行動を模倣する認知的再構成パターンが強調されている。
問合せの概念表現を考慮し,これらのパターンの適用を形式化する。
遺伝的アルゴリズムに基づく重み付けプロセスでは、概念的役割タイプに応じて用語に重点を置くことができる。
論文 参考訳(メタデータ) (2020-04-21T14:13:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。