Fugu-MT 論文翻訳(概要): Likelihood as a Performance Gauge for Retrieval-Augmented Generation

論文の概要: Likelihood as a Performance Gauge for Retrieval-Augmented Generation

arxiv url: http://arxiv.org/abs/2411.07773v1
Date: Tue, 12 Nov 2024 13:14:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.917722
Title: Likelihood as a Performance Gauge for Retrieval-Augmented Generation
Title（参考訳）: 検索拡張生成のためのパフォーマンスゲージとしてのLikelihood
Authors: Tianyu Liu, Jirui Qi, Paul He, Arianna Bisazza, Mrinmaya Sachan, Ryan Cotterell,
Abstract要約: 言語モデルの性能の効果的な指標としての可能性を示す。提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
参考スコア（独自算出の注目度）: 78.28197013467157
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Recent work finds that retrieval-augmented generation with large language models is prone to be influenced by the order of retrieved documents in the context. However, the lack of in-depth analysis limits the use of this phenomenon for prompt engineering in practice. In this study, we posit that likelihoods serve as an effective gauge for language model performance. Through experiments on two question-answering datasets with a variety of state-of-the-art language models, we reveal correlations between answer accuracy and the likelihood of the question at both the corpus level and the instance level. In addition, we find that question likelihood can also indicate the position of the task-relevant information in the context. Based on these findings, we propose two methods that use question likelihood as a gauge for selecting and constructing prompts that lead to better performance. We demonstrate their effectiveness with experiments. In addition, our likelihood-based methods are efficient, as they only need to compute the likelihood of the input, requiring much fewer language model passes than heuristic prompt engineering methods that require generating responses. Our analysis deepens our understanding of how input prompts affect model performance and provides a promising direction for efficient prompt optimization.
Abstract（参考訳）: 近年の研究では,大規模な言語モデルを用いた検索拡張生成は,検索された文書の順序の影響を受けやすいことが判明している。しかし、詳細な分析の欠如は、この現象を実際は急進的な工学に利用することを制限している。本研究では,言語モデルの性能の効果的な指標としての可能性を示す。様々な最先端言語モデルを用いた2つの質問回答データセットの実験を通して,回答精度と質問の確率の相関関係をコーパスレベルとインスタンスレベルの両方で明らかにした。さらに,課題関連情報の位置を文脈で示すことも可能であることも確認した。これらの結果に基づき,提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。実験によってその効果を実証する。さらに、我々の可能性に基づく手法は、入力の確率を計算するだけで、応答を生成するヒューリスティックなプロンプト工学手法よりもはるかに少ない言語モデルパスを必要とするため、効率的である。本分析は,入力がモデル性能にどのように影響するかを深く理解し,効率的なプロンプト最適化のための有望な方向性を提供する。

関連論文リスト

UniConv: Unifying Retrieval and Response Generation for Large Language Models in Conversations [71.79210031338464]
会話における大規模言語モデルに対する高密度検索と応答生成の統一方法を示す。目的の異なる共同微調整を行い、不整合リスクを低減するための2つのメカニズムを設計する。 5つの対話型検索データセットの評価は、我々の統合モデルがタスクを相互に改善し、既存のベースラインより優れていることを示す。
論文参考訳（メタデータ） (2025-07-09T17:02:40Z)
Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文参考訳（メタデータ） (2024-12-24T16:38:04Z)
Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning [32.178931149612644]
コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。語彙定義意味論(vocabulary-defined semantics)を提案する。
論文参考訳（メタデータ） (2024-01-29T14:29:48Z)
Evaluating Large Language Models in Semantic Parsing for Conversational Question Answering over Knowledge Graphs [6.869834883252353]
本稿では,この課題に対して事前訓練を受けていない大規模言語モデルの性能を評価する。その結果,大規模言語モデルでは対話からグラフクエリを生成することができることがわかった。
論文参考訳（メタデータ） (2024-01-03T12:28:33Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
Retrieval-Generation Synergy Augmented Large Language Models [30.53260173572783]
本稿では,反復的な検索・生成協調フレームワークを提案する。シングルホップQAとマルチホップQAタスクを含む4つの質問応答データセットの実験を行った。
論文参考訳（メタデータ） (2023-10-08T12:50:57Z)
Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文参考訳（メタデータ） (2023-10-02T18:52:35Z)
Fine-tuning and aligning question answering models for complex information extraction tasks [0.8392546351624164]
質問応答(QA)や通過検索モデルのような抽出言語モデルは、クエリ結果が適切なコンテキスト文書の境界内で見つかることを保証します。既存のドイツ語のQAモデルを微調整することで,複雑な言語的特徴の抽出タスクをカスタマイズする性能が向上することを示す。評価基準を再現するために,Levenshtein 距離,F1-Score,Exact Match,ROUGE-L の組合せを推定した。
論文参考訳（メタデータ） (2023-09-26T10:02:21Z)
Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文参考訳（メタデータ） (2023-03-23T12:28:25Z)
An Empirical Investigation of Commonsense Self-Supervision with Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文参考訳（メタデータ） (2022-05-21T19:49:04Z)
Visualizing the Relationship Between Encoded Linguistic Information and Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文参考訳（メタデータ） (2022-03-29T19:03:10Z)
Leveraging Cognitive Search Patterns to Enhance Automated Natural Language Retrieval Performance [0.0]
ユーザの検索行動を模倣する認知的再構成パターンが強調されている。問合せの概念表現を考慮し,これらのパターンの適用を形式化する。遺伝的アルゴリズムに基づく重み付けプロセスでは、概念的役割タイプに応じて用語に重点を置くことができる。
論文参考訳（メタデータ） (2020-04-21T14:13:33Z)
Improving Multi-Turn Response Selection Models with Complementary Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。 2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文参考訳（メタデータ） (2020-02-18T06:29:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。