論文の概要: RECKON: Large-scale Reference-based Efficient Knowledge Evaluation for Large Language Model
- arxiv url: http://arxiv.org/abs/2504.00756v1
- Date: Tue, 01 Apr 2025 13:08:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:52.104654
- Title: RECKON: Large-scale Reference-based Efficient Knowledge Evaluation for Large Language Model
- Title(参考訳): RECKON:大規模言語モデルのための大規模参照ベース効率的な知識評価
- Authors: Lin Zhang, Zhouhong Gu, Xiaoran Shi, Hongwei Feng, Yanghua Xiao,
- Abstract要約: 大規模言語モデル(RECKON)の大規模参照に基づく効率的な知識評価
RECKONは、構造化されていないデータを管理可能なユニットに整理し、クラスタ毎にターゲットの質問を生成する。
実験の結果,RECKONは従来の手法に比べて資源消費量を56.5%削減することがわかった。
- 参考スコア(独自算出の注目度): 31.71663356655724
- License:
- Abstract: As large language models (LLMs) advance, efficient knowledge evaluation becomes crucial to verifying their capabilities. Traditional methods, relying on benchmarks, face limitations such as high resource costs and information loss. We propose the Large-scale Reference-based Efficient Knowledge Evaluation for Large Language Model (RECKON), which directly uses reference data to evaluate models. RECKON organizes unstructured data into manageable units and generates targeted questions for each cluster, improving evaluation accuracy and efficiency. Experimental results show that RECKON reduces resource consumption by 56.5% compared to traditional methods while achieving over 97% accuracy across various domains, including world knowledge, code, legal, and biomedical datasets. Code is available at https://github.com/MikeGu721/reckon
- Abstract(参考訳): 大規模言語モデル(LLM)が進歩するにつれて,その能力を検証する上で,効率的な知識評価が不可欠となる。
ベンチマークに依存する従来の手法では、高いリソースコストや情報損失といった制限に直面している。
本稿では,参照データを直接使用してモデル評価を行う大規模参照ベース大規模言語モデル(RECKON)を提案する。
RECKONは、非構造化データを管理可能な単位に整理し、クラスタ毎にターゲットとする質問を生成し、評価精度と効率を向上させる。
実験の結果、RECKONは従来の手法と比較して資源消費を56.5%削減し、世界的知識、コード、法律、バイオメディカルデータセットを含む様々な領域で97%以上の精度を達成した。
コードはhttps://github.com/MikeGu721/reckonで入手できる。
関連論文リスト
- KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [73.34893326181046]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - SEEKR: Selective Attention-Guided Knowledge Retention for Continual Learning of Large Language Models [27.522743690956315]
本研究では,大規模言語モデル (LLM) のデータ効率性に基づく連続学習のためのSelective attEntion-guided Knowledge Retention法(SEEKR)を提案する。
SEEKRは、よりきめ細かい知識保持のために選択された注目ヘッドに注意蒸留を行う。
LLMのための2つの連続学習ベンチマークの実験結果は、SEEKRが既存の手法よりも性能と効率の両面で優れていることを示す。
論文 参考訳(メタデータ) (2024-11-09T13:02:36Z) - ResumeAtlas: Revisiting Resume Classification with Large-Scale Datasets and Large Language Models [0.9237437350215897]
様々な情報源から13,389人の履歴書を収集した。
我々は BERT や Gemma1.1 2B などの大規模言語モデル (LLM) を分類に用いた。
その結果,従来の機械学習手法よりも大幅に改善された。
論文 参考訳(メタデータ) (2024-06-26T07:25:18Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Which Prompts Make The Difference? Data Prioritization For Efficient
Human LLM Evaluation [9.452326973655445]
計量に基づく手法は,必要なアノテーションの数を最小化することで,人間の評価の効率を向上させる。
提案手法は,広く用いられているモデルファミリに対して有効であり,非決定的(あるいは"tie")な結果のインスタンスを最大54%削減できることを示す。
この人的努力の潜在的な削減は、我々のアプローチを将来の大規模言語モデル評価における貴重な戦略として位置づけている。
論文 参考訳(メタデータ) (2023-10-22T21:48:51Z) - Efficient Sentiment Analysis: A Resource-Aware Evaluation of Feature Extraction Techniques, Ensembling, and Deep Learning Models [0.0]
我々は,資源コストに着目した文書レベルの感情分析モデルを評価する。
より小さなデータセットでは,資源消費の差が大きくなるにつれて精度の差が小さくなることがわかった。
論文 参考訳(メタデータ) (2023-08-03T20:29:27Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Improving Candidate Generation for Low-resource Cross-lingual Entity
Linking [81.41804263432684]
XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。
本稿では,(1)エンティティ参照とKBエントリの切断を減らすこと,(2)低リソースシナリオへのモデルの堅牢性を改善すること,の3つの改良を提案する。
論文 参考訳(メタデータ) (2020-03-03T05:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。