論文の概要: Benchmarking Knowledge Boundary for Large Language Model: A Different
Perspective on Model Evaluation
- arxiv url: http://arxiv.org/abs/2402.11493v1
- Date: Sun, 18 Feb 2024 07:48:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 21:02:27.303028
- Title: Benchmarking Knowledge Boundary for Large Language Model: A Different
Perspective on Model Evaluation
- Title(参考訳): 大規模言語モデルのための知識境界のベンチマーク:モデル評価の異なる視点
- Authors: Xunjian Yin and Xu Zhang and Jie Ruan and Xiaojun Wan
- Abstract要約: 言語モデルに対する質問や限定的なパラフレーズをクエリとして評価することは,信頼性が高く,包括的ではない,と我々は主張する。
本稿では,知識境界という概念を導入し,素早い知識と素早い知識の両方を包含する。
- 参考スコア(独自算出の注目度): 46.06870141865445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, substantial advancements have been made in the development
of large language models, achieving remarkable performance across diverse
tasks. To evaluate the knowledge ability of language models, previous studies
have proposed lots of benchmarks based on question-answering pairs. We argue
that it is not reliable and comprehensive to evaluate language models with a
fixed question or limited paraphrases as the query, since language models are
sensitive to prompt. Therefore, we introduce a novel concept named knowledge
boundary to encompass both prompt-agnostic and prompt-sensitive knowledge
within language models. Knowledge boundary avoids prompt sensitivity in
language model evaluations, rendering them more dependable and robust. To
explore the knowledge boundary for a given model, we propose projected gradient
descent method with semantic constraints, a new algorithm designed to identify
the optimal prompt for each piece of knowledge. Experiments demonstrate a
superior performance of our algorithm in computing the knowledge boundary
compared to existing methods. Furthermore, we evaluate the ability of multiple
language models in several domains with knowledge boundary.
- Abstract(参考訳): 近年,多種多様なタスクにおいて顕著な性能を達成し,大規模言語モデルの開発において大きな進歩を遂げている。
言語モデルの知識能力を評価するため,従来の研究では,質問応答ペアに基づくベンチマークが多数提案されている。
我々は,言語モデルがアクティベートに敏感であるため,一定の質問や限定的なパラフレーズで言語モデルを評価することは信頼性が高く,包括的ではないと主張している。
そこで本研究では,言語モデルにおいて,知識境界という新しい概念を導入する。
知識境界は言語モデル評価の迅速な感度を回避し、より信頼性と堅牢性を高める。
与えられたモデルの知識境界を探索するために,各知識に対して最適なプロンプトを識別する新しいアルゴリズムである,セマンティック制約付き予測勾配降下法を提案する。
実験により,既存の手法と比較して知識境界の計算において,アルゴリズムの優れた性能を示す。
さらに,知識境界を持つ複数の領域における複数の言語モデルの能力を評価する。
関連論文リスト
- Knowledge Tagging with Large Language Model based Multi-Agent System [17.53518487546791]
本稿では,従来のアルゴリズムの限界に対処するマルチエージェントシステムについて検討する。
我々は,従来の手法が抱えていた課題を克服する上で,LLMベースのマルチエージェントシステムの可能性を強調した。
論文 参考訳(メタデータ) (2024-09-12T21:39:01Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - Black-box language model explanation by context length probing [7.526153863886609]
本稿では、因果言語モデルのための新しい説明手法である文脈長探索について述べる。
この技術はモデルに依存しず、トークンレベルの確率の計算以上のモデル内部へのアクセスに依存しない。
事前学習された大規模言語モデルに文脈長探索を適用し、初期分析と洞察を提供する。
論文 参考訳(メタデータ) (2022-12-30T16:24:10Z) - Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in
Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。
この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文 参考訳(メタデータ) (2022-04-13T10:32:03Z) - Generated Knowledge Prompting for Commonsense Reasoning [53.88983683513114]
本稿では,汎用的なプロンプト形式を用いて,言語モデルから直接知識文を生成することを提案する。
このアプローチは、4つのコモンセンス推論タスクにおいて、既製の言語モデルと微調整された言語モデルの両方のパフォーマンスを向上させる。
特に、モデルが生成した知識を使用することで、予測が改善できることが分かる。
論文 参考訳(メタデータ) (2021-10-15T21:58:03Z) - Are Pre-trained Language Models Knowledgeable to Ground Open Domain
Dialogues? [20.598241369838668]
我々は、事前学習された言語モデルを用いた知識基底対話生成について研究する。
知識を含む対話を微調整することで、事前学習された言語モデルは最先端のモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-11-19T08:22:49Z) - A Closer Look at Linguistic Knowledge in Masked Language Models: The
Case of Relative Clauses in American English [17.993417004424078]
トランスフォーマーに基づく言語モデルは、様々なタスクにおいて高いパフォーマンスを達成するが、それらが学習し、依存する言語知識の理解はいまだに不足している。
文レベルの探索, 診断事例, マスク付き予測タスクにより, 文法的および意味的知識をテストする3つのモデル(BERT, RoBERTa, ALBERT)を評価した。
論文 参考訳(メタデータ) (2020-11-02T13:25:39Z) - Knowledge-Grounded Dialogue Generation with Pre-trained Language Models [74.09352261943911]
我々は、事前学習された言語モデルを用いた知識基底対話生成について研究する。
本稿では,知識選択モジュールを用いた事前学習言語モデルによって定義された等価応答生成を提案する。
論文 参考訳(メタデータ) (2020-10-17T16:49:43Z) - Unsupervised Commonsense Question Answering with Self-Talk [71.63983121558843]
本稿では,コモンセンスタスクの代替として,セルフトークに基づく教師なしフレームワークを提案する。
探索に基づく探索学習にインスパイアされた我々のアプローチは、質問を求める多くの情報で言語モデルに問い合わせる。
実験結果から,ゼロショット言語モデルベースラインの性能が大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-11T20:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。