論文の概要: TALE: A Tool-Augmented Framework for Reference-Free Evaluation of Large Language Models
- arxiv url: http://arxiv.org/abs/2504.07385v1
- Date: Thu, 10 Apr 2025 02:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:23:20.257240
- Title: TALE: A Tool-Augmented Framework for Reference-Free Evaluation of Large Language Models
- Title(参考訳): TALE: 大規模言語モデルの参照不要評価のためのツール拡張フレームワーク
- Authors: Sher Badshah, Ali Emami, Hassan Sajjad,
- Abstract要約: 大規模言語モデル(LLM)は、現実の自律型アプリケーションに統合されつつある。
評価のための静的な注釈付き参照に頼ることは、コスト、スケーラビリティ、完全性において大きな課題を引き起こす。
提案するツール拡張LDM評価(TALE: Tool-Augmented LLM Evaluation)は,LLMの出力を所定の基礎的回答なしで評価するフレームワークである。
- 参考スコア(独自算出の注目度): 16.857263524133284
- License:
- Abstract: As Large Language Models (LLMs) become increasingly integrated into real-world, autonomous applications, relying on static, pre-annotated references for evaluation poses significant challenges in cost, scalability, and completeness. We propose Tool-Augmented LLM Evaluation (TALE), a framework to assess LLM outputs without predetermined ground-truth answers. Unlike conventional metrics that compare to fixed references or depend solely on LLM-as-a-judge knowledge, TALE employs an agent with tool-access capabilities that actively retrieves and synthesizes external evidence. It iteratively generates web queries, collects information, summarizes findings, and refines subsequent searches through reflection. By shifting away from static references, TALE aligns with free-form question-answering tasks common in real-world scenarios. Experimental results on multiple free-form QA benchmarks show that TALE not only outperforms standard reference-based metrics for measuring response accuracy but also achieves substantial to near-perfect agreement with human evaluations. TALE enhances the reliability of LLM evaluations in real-world, dynamic scenarios without relying on static references.
- Abstract(参考訳): 大規模言語モデル(LLM)が現実の自律型アプリケーションに統合されるにつれて、評価のための静的な注釈付き参照に頼ることが、コスト、スケーラビリティ、完全性において大きな課題となる。
提案するツール拡張LDM評価(TALE: Tool-Augmented LLM Evaluation)は,LLMの出力を所定の基礎的回答なしで評価するフレームワークである。
固定参照やLSM-as-a-judge知識のみに依存する従来のメトリクスとは異なり、TALEは外部証拠を積極的に検索し合成するツールアクセス機能を持つエージェントを使用している。
反復的にWebクエリを生成し、情報を収集し、結果を要約し、リフレクションを通じてその後の検索を洗練する。
静的参照からシフトすることで、TALEは現実世界のシナリオで一般的な自由形式の質問応答タスクと整合する。
複数の自由形QAベンチマークによる実験結果から,TALEは応答精度測定の基準基準基準基準よりも優れるだけでなく,人間の評価とほぼ完全に一致していることがわかった。
TALEは静的参照に頼ることなく、現実の動的シナリオにおけるLCM評価の信頼性を高める。
関連論文リスト
- Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Predicting Question-Answering Performance of Large Language Models
through Semantic Consistency [5.857193811761703]
本研究では,大規模言語モデルの質問応答のセマンティック一貫性を評価するタスクに対処する。
事実質問のための高品質なパラフレーズ付きベンチマークデータセットを作成し、そのデータセットをコミュニティにリリースする。
実際のQA参照レスパフォーマンス予測のためのフレームワークを構築し,評価する。
論文 参考訳(メタデータ) (2023-11-02T11:27:21Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。