Fugu-MT 論文翻訳(概要): xFinder: Robust and Pinpoint Answer Extraction for Large Language Models

論文の概要: xFinder: Robust and Pinpoint Answer Extraction for Large Language Models

arxiv url: http://arxiv.org/abs/2405.11874v1
Date: Mon, 20 May 2024 08:30:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-21 13:44:14.791998
Title: xFinder: Robust and Pinpoint Answer Extraction for Large Language Models
Title（参考訳）: xFinder: 大規模言語モデルのためのロバストおよびピンポイントアンサー抽出
Authors: Qingchen Yu, Zifan Zheng, Shichao Song, Zhiyu Li, Feiyu Xiong, Bo Tang, Ding Chen,
Abstract要約: キー応答抽出に特化して設計されたモデルであるxFinderを提案する。 5億のパラメータしか持たない最小の xFinder モデルでは平均解解抽出精度が93.42% であることを示す。 xFinderは、既存の評価フレームワークと比較して、強い堅牢性と高い精度を示している。
参考スコア（独自算出の注目度）: 9.22621553566816
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The continuous advancement of large language models (LLMs) has brought increasing attention to the critical issue of developing fair and reliable methods for evaluating their performance. Particularly, the emergence of subjective or non-subjective cheating phenomena, such as test set leakage and prompt format overfitting, poses significant challenges to the reliable evaluation of LLMs. Since evaluation frameworks often utilize Regular Expression (RegEx) for answer extraction, some models may adjust their responses to comply with specific formats that are easily extractable by RegEx. Nevertheless, the key answer extraction module based on RegEx frequently suffers from extraction errors. This paper conducts a comprehensive analysis of the entire LLM evaluation chain, demonstrating that optimizing the key answer extraction module can improve extraction accuracy, reduce LLMs' reliance on specific answer formats, and enhance the reliability of LLM evaluation. To address these issues, we propose xFinder, a model specifically designed for key answer extraction. As part of this process, we create a specialized dataset, the Key Answer Finder (KAF) dataset, to ensure effective model training and evaluation. Through generalization testing and evaluation in real-world scenarios, the results demonstrate that the smallest xFinder model with only 500 million parameters achieves an average answer extraction accuracy of 93.42%. In contrast, RegEx accuracy in the best evaluation framework is 74.38%. xFinder exhibits stronger robustness and higher accuracy compared to existing evaluation frameworks. All resources for xFinder are available at \url{https://github.com/IAAR-Shanghai/xFinder}.
Abstract（参考訳）: 大規模言語モデル(LLM)の継続的な進歩は、その性能を評価するための公平で信頼性の高い手法を開発するという重要な問題に注意を向けている。特に、テストセットのリークやプロンプトフォーマットのオーバーフィットといった主観的または非客観的な不正現象の出現は、LCMの信頼性評価に重大な課題をもたらす。評価フレームワークは、回答抽出に正規表現(RegEx)を利用することが多いため、RegExによって容易に抽出できる特定のフォーマットに適合するように応答を調整するモデルもある。それにもかかわらず、RegExに基づくキー回答抽出モジュールは、しばしば抽出エラーに悩まされる。本稿では,LLM評価チェーン全体の包括的解析を行い,鍵解答抽出モジュールの最適化により抽出精度が向上し,LLMが特定の解答形式に依存することが低減され,LLM評価の信頼性が向上することが実証された。これらの問題に対処するために、キー回答抽出に特化して設計されたモデルであるxFinderを提案する。このプロセスの一環として、効率的なモデルトレーニングと評価を保証するために、特別なデータセットであるKey Answer Finder (KAF)データセットを作成します。実世界のシナリオにおける一般化テストと評価により、5億のパラメータしか持たない最小のxFinderモデルが平均解解抽出精度93.42%を達成することを示した。対照的に、最高の評価フレームワークにおけるRegExの精度は74.38%である。 xFinderは、既存の評価フレームワークと比較して、強い堅牢性と高い精度を示している。 xFinder のすべてのリソースは \url{https://github.com/IAAR-Shanghai/xFinder} で利用可能である。

関連論文リスト

ReTraceQA: Evaluating Reasoning Traces of Small Language Models in Commonsense Question Answering [38.045885431565345]
本稿では,コモンセンス推論タスクのプロセスレベル評価を導入する新しいベンチマークであるReTraceQAを紹介する。専門家が注釈を付けたデータセットでは、ほとんどのケース(14-24%)において、SLMは、欠点のある推論プロセスにもかかわらず、正しい最終回答を提供する。
論文参考訳（メタデータ） (2025-10-10T13:03:33Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback [36.68929551237421]
包括的できめ細かい結果を提供する評価フレームワークであるbftextFeedbackerを紹介します。プロジェクトのホームページとデータセットはhttps://liudan193.io/Feedbacker.comで公開されています。
論文参考訳（メタデータ） (2025-05-10T16:52:40Z)
Meta-Evaluating Local LLMs: Rethinking Performance Metrics for Serious Games [3.725822359130832]
大規模言語モデル (LLMs) は、真剣なゲームにおける評価指標としてますます研究されている。本研究では,エネルギーコミュニティにおける意思決定をシミュレートするゲームであるtextitEn-join において,5つの小規模 LLM の信頼性について検討した。その結果、各モデルの長所と短所を強調し、感度、特異性、全体的なパフォーマンスのトレードオフを明らかにした。
論文参考訳（メタデータ） (2025-04-13T10:46:13Z)
R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
SCORE: Systematic COnsistency and Robustness Evaluation for Large Language Models [4.875712300661656]
本稿では,大規模言語モデルの非敵対的評価のための総合的なフレームワークであるSCORE ($mathbfS$ystematic $mathbfCO$nsistency and $mathbfR$obustness $mathbfE$valuationを提案する。 SCOREフレームワークは、様々な設定で同じベンチマークで繰り返しテストすることでモデルを評価し、精度と一貫性を現実的に見積もる。
論文参考訳（メタデータ） (2025-02-28T19:27:29Z)
Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models [69.38024658668887]
イベント抽出の現在の評価法はトークンレベルの正確な一致に依存している。トークンレベルではなくセマンティックレベルでイベント抽出結果を正確に評価する自動評価フレームワークであるRAEEを提案する。
論文参考訳（メタデータ） (2024-10-12T07:54:01Z)
A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文参考訳（メタデータ） (2024-10-04T15:44:23Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。この課題に対処するための新しい手法を提案する。典型的に必要とされるリソースの5～15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Enhancing Large Language Model Performance To Answer Questions and Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文参考訳（メタデータ） (2024-01-27T00:18:07Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.36381001664635]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文参考訳（メタデータ） (2023-12-13T18:58:04Z)
Revisiting Large Language Models as Zero-shot Relation Extractors [8.953462875381888]
リレーショナル抽出(RE)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを一貫して含む。近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、新しいタスクにうまく移行していることが示されている。本研究はゼロショット関係抽出器としてLLMを探索することに焦点を当てる。
論文参考訳（メタデータ） (2023-10-08T06:17:39Z)
ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文参考訳（メタデータ） (2023-05-23T00:16:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。