論文の概要: Review-Feedback-Reason (ReFeR): A Novel Framework for NLG Evaluation and Reasoning
- arxiv url: http://arxiv.org/abs/2407.12877v1
- Date: Tue, 16 Jul 2024 08:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 19:52:52.728337
- Title: Review-Feedback-Reason (ReFeR): A Novel Framework for NLG Evaluation and Reasoning
- Title(参考訳): Review-Feedback-Reason (ReFeR): NLG評価と推論のための新しいフレームワーク
- Authors: Yaswanth Narsupalli, Abhranil Chandra, Sreevatsa Muppirala, Manish Gupta, Pawan Goyal,
- Abstract要約: ReFeR(Review-Feedback-Reason)は、LPMエージェントを用いたNLGのための新しい評価フレームワークである。
NLGタスクの2つの既存のベンチマークデータセットを使用して、ReFeRを厳格にテストする。
3つの推論ベンチマークに応用することで,方法論の有効性を強調した。
- 参考スコア(独自算出の注目度): 12.035509884945789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing the quality of Natural Language Generation (NLG) outputs, such as those produced by large language models (LLMs), poses significant challenges. Traditional approaches involve either resource-intensive human evaluations or automatic metrics, which often exhibit a low correlation with human judgment. In this study, we propose Review-Feedback-Reason (ReFeR), a novel evaluation framework for NLG using LLM agents. We rigorously test ReFeR using two pre-existing benchmark datasets on diverse NLG tasks. The proposed framework not only enhances the accuracy of NLG evaluation, surpassing previous benchmarks by $\sim$20\%, but also generates constructive feedback and significantly improves collective reasoning. This feedback is then leveraged for the creation of instruction-tuning datasets, which, when used to fine-tune smaller models like Mistral-7B, makes them extremely good evaluators, yielding a better correlation with human evaluations and performance nearly on par with GPT-3.5. We highlight the effectiveness of our methodology through its application on three reasoning benchmarks, where it outperforms most of the state-of-the-art methods, and also outperforms the reasoning capabilities of models like GPT-3.5 Turbo by $\sim$11.67\% and GPT-4 by $\sim$1\% on an average.
- Abstract(参考訳): 大規模言語モデル(LLM)によって生成されるような自然言語生成(NLG)出力の品質を評価することは、大きな課題となる。
従来のアプローチでは、リソース集約的な人的評価と自動メトリクスの両方が関係しており、しばしば人間の判断と相関が低い。
本研究では,LPM エージェントを用いた NLG 評価フレームワークである Review-Feedback-Reason (ReFeR) を提案する。
NLGタスクの2つの既存のベンチマークデータセットを使用して、ReFeRを厳格にテストする。
提案フレームワークは,NLG評価の精度を高め,従来のベンチマークを$\sim$20\%以上越えるだけでなく,構成的フィードバックを生成し,集合的推論を大幅に改善する。
このフィードバックは、Mistral-7Bのような小さなモデルを微調整するために使用する命令チューニングデータセットの作成に利用される。
また,GPT-3.5 Turbo を$\sim$11.67\% ,GPT-4 を$\sim$1\% で評価する。
関連論文リスト
- SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - MaFeRw: Query Rewriting with Multi-Aspect Feedbacks for Retrieval-Augmented Large Language Models [34.39053202801489]
現実世界のRAGシステムでは、現在のクエリは会話コンテキストからの音声楕円とあいまいな参照を含むことが多い。
本稿では,検索プロセスと生成結果の両方からマルチアスペクトフィードバックを統合することにより,RAG性能を向上させる新しいクエリ書き換え手法MaFeRwを提案する。
2つの対話型RAGデータセットの実験結果から、MaFeRwはベースラインよりも優れた生成指標と安定したトレーニングを達成できることが示された。
論文 参考訳(メタデータ) (2024-08-30T07:57:30Z) - Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction [10.428174043080622]
大規模言語モデルは現実世界のアプリケーションで顕著に使われ、しばしば大量の文書を推論する。
本稿では,標準テストの限界に対処する評価フレームワークであるSWiMを提案する。
また,この効果を緩和する,単純かつ効果的なトレーニングフリーアプローチであるメドイド投票を提案する。
論文 参考訳(メタデータ) (2024-07-04T05:46:20Z) - LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。
このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。
本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文 参考訳(メタデータ) (2024-06-29T17:16:04Z) - RaFe: Ranking Feedback Improves Query Rewriting for RAG [83.24385658573198]
アノテーションを使わずにクエリ書き換えモデルをトレーニングするためのフレームワークを提案する。
公開されているリランカを活用することで、フィードバックはリライトの目的とよく一致します。
論文 参考訳(メタデータ) (2024-05-23T11:00:19Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - Leveraging Reinforcement Learning and Large Language Models for Code
Optimization [14.602997316032706]
本稿では,コード最適化の複雑さを低減するための新しいフレームワークを提案する。
提案するフレームワークは,大規模言語モデル(LLM)と強化学習(RL)に基づく。
我々は,新しい強化学習アルゴリズムであるCodeT5言語モデルとRRHFを用いて,PIEデータセット上でいくつかの実験を行った。
論文 参考訳(メタデータ) (2023-12-09T19:50:23Z) - Learning to Retrieve In-Context Examples for Large Language Models [69.9707552694766]
大規模言語モデル(LLM)は、文脈内で学習する能力を示している。
文脈内学習の有効性は、選択した例の品質に大きく依存する。
高品質なインコンテキストの例を識別可能な高密度検索を反復的に学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-14T05:23:08Z) - Building an Efficient and Effective Retrieval-based Dialogue System via
Mutual Learning [27.04857039060308]
検索システムを構築するために,両世界の長所を組み合わせることを提案する。
従来の機能ベースの事前検索モデルを置き換えるために、高速なバイエンコーダを使用します。
我々は、相互学習を通じて、事前検索モデルと再評価モデルとを同時に訓練する。
論文 参考訳(メタデータ) (2021-10-01T01:32:33Z) - Learning from Context or Names? An Empirical Study on Neural Relation
Extraction [112.06614505580501]
テキストにおける2つの主要な情報ソースの効果について検討する:テキストコンテキストとエンティティ参照(名前)
本稿では,関係抽出のための実体型コントラスト事前学習フレームワーク(RE)を提案する。
我々のフレームワークは、異なるREシナリオにおけるニューラルモデルの有効性と堅牢性を改善することができる。
論文 参考訳(メタデータ) (2020-10-05T11:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。