論文の概要: What Would You Ask When You First Saw $a^2+b^2=c^2$? Evaluating LLM on
Curiosity-Driven Questioning
- arxiv url: http://arxiv.org/abs/2409.17172v1
- Date: Thu, 19 Sep 2024 22:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 16:50:22.096159
- Title: What Would You Ask When You First Saw $a^2+b^2=c^2$? Evaluating LLM on
Curiosity-Driven Questioning
- Title(参考訳): 最初はa^2+b^2=c^2$?
好奇心による質問
- Authors: Shashidhar Reddy Javaji, Zining Zhu
- Abstract要約: 大規模言語モデル(LLM)は膨大な量の知識を格納できるが、新しい知識を取得する可能性はまだ不明である。
本稿では,この能力を評価する新しい評価フレームワークを提案する。
GPT-4 や Mistral 8x7b のような大規模モデルはコヒーレントで関連する質問を生成するには適しているが、より小さな Phi-2 モデルは等しく、より効果的である。
- 参考スコア(独自算出の注目度): 4.3512163406552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can store a massive amount of knowledge, yet
their potential to acquire new knowledge remains unknown. We propose a novel
evaluation framework that evaluates this capability. This framework prompts
LLMs to generate questions about a statement introducing scientific knowledge,
simulating a curious person when facing the statement for the first time. We
score the qualities of the generated questions, thereby evaluating the
knowledge acquisition potential of the LLM. We apply controlled ablation
studies to validate our scoring procedures. Additionally, we created a
synthetic dataset consisting of 1101 statements in physics, chemistry, and
maths with distinct levels of difficulties, 300 general knowledge statements,
and 567 incorrect statements. Human evaluations were conducted to validate our
model assessments, achieving an approximate weighted Cohen's kappa of 0.7 on
all three metrics considered. We find that while large models like GPT-4 and
Mistral 8x7b are adept at generating coherent and relevant questions, the
smaller Phi-2 model is equally or more effective. This indicates that size does
not solely determine a model's knowledge acquisition potential. The proposed
framework quantifies a critical model capability that was commonly overlooked
and opens up research opportunities for developing more knowledgeable AI
systems
- Abstract(参考訳): 大規模言語モデル(LLM)は膨大な量の知識を格納できるが、新しい知識を取得する可能性はまだ不明である。
本稿では,この能力を評価する新しい評価フレームワークを提案する。
このフレームワークは、LCMに科学知識を紹介する声明に関する質問を起こさせ、初めてこの声明に直面すると好奇心をそそる人物をシミュレートする。
生成した質問の質を評価し,LLMの知識獲得の可能性を評価する。
評価手順の検証に制御的アブレーション研究を適用した。
さらに, 物理, 化学, 数学の 1101 文からなり, 難易度が異なる, 一般知識の 300 文, 誤った 567 文からなる合成データセットを作成した。
モデル評価を検証し, 検討した3つの指標について, コーエンのカッパを0.7と近似的に重み付けした。
GPT-4 や Mistral 8x7b のような大規模モデルはコヒーレントで関連する質問を生成するには適しているが、より小さな Phi-2 モデルは等しく、より効果的である。
これは、サイズが単にモデルの知識獲得の可能性を決定するものではないことを示している。
提案するフレームワークは、一般的に見落とされ、より知識のあるAIシステムを開発するための研究機会を開放する重要なモデル能力を定量化する。
関連論文リスト
- What Matters in Memorizing and Recalling Facts? Multifaceted Benchmarks for Knowledge Probing in Language Models [15.057992220389604]
言語モデルは事実の知識を扱うのに苦労し、事実の幻覚の問題を呈する。
本稿では,エンコーダとデコーダを用いた事前学習言語モデルの知識リコール能力を評価するための知識探索ベンチマークBELIEF(ICL)を提案する。
非常に多様なプロンプトを持つMyriadLAMAを半自動で作成します。
論文 参考訳(メタデータ) (2024-06-18T05:11:35Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Beyond Factuality: A Comprehensive Evaluation of Large Language Models
as Knowledge Generators [78.63553017938911]
大規模言語モデル(LLM)は、下流の知識集約タスクのための情報検索技術より優れている。
しかし、コミュニティの懸念は、この無検閲の知識を使用することの事実と潜在的意味について多岐にわたる。
本研究では,6つの重要な視点から生成した知識を評価するために設計されたCONNERを紹介する。
論文 参考訳(メタデータ) (2023-10-11T08:22:37Z) - Physics of Language Models: Part 3.2, Knowledge Manipulation [51.68385617116854]
本稿では,4つの基本的な知識操作タスクについて検討する。
言語モデルは知識検索に優れるが、最も単純な分類や比較タスクにも耐え難い。
また, GPT-4のような近代的な事前学習言語モデルにも適用できる。
論文 参考訳(メタデータ) (2023-09-25T17:50:41Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - Do Large Language Models Know What They Don't Know? [74.65014158544011]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。
膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。
本研究の目的は,LLMの自己理解能力を評価することである。
論文 参考訳(メタデータ) (2023-05-29T15:30:13Z) - DisentQA: Disentangling Parametric and Contextual Knowledge with
Counterfactual Question Answering [34.70206857546496]
質問応答モデルは通常、推論時間中に「知識」の2つのソースにアクセスする。
答えが与えられた非パラメトリック知識に由来するかどうかは不明である。
本稿では,2つの知識源を解き放つために,QAモデルを訓練する新たなパラダイムを提案する。
論文 参考訳(メタデータ) (2022-11-10T15:34:44Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - What Does My QA Model Know? Devising Controlled Probes using Expert
Knowledge [36.13528043657398]
我々は,現在最先端のQAモデルが,単語定義や一般的な分類学的推論に関する一般的な知識を持っているかどうかを検討する。
さまざまなタイプの専門家の知識からデータセットを自動的に構築するための方法論を使用します。
評価の結果,変圧器を用いたQAモデルはすでにある種の構造的語彙的知識を認識できないことが確認された。
論文 参考訳(メタデータ) (2019-12-31T15:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。