論文の概要: Are Frontier Large Language Models Suitable for Q&A in Science Centres?
- arxiv url: http://arxiv.org/abs/2412.05200v1
- Date: Fri, 06 Dec 2024 17:28:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:25.914740
- Title: Are Frontier Large Language Models Suitable for Q&A in Science Centres?
- Title(参考訳): 最先端の大規模言語モデルは科学センターのQ&Aに適したのか?
- Authors: Jacob Watson, Fabrício Góes, Marco Volpe, Talles Medeiros,
- Abstract要約: 本稿では,科学センターにおけるQ&Aインタラクションにおけるフロンティア大規模言語モデル(LLM)の適合性について検討する。
OpenAIのGPT-4, Claude 3.5 Sonnet, Google Gemini 1.5。
その結果、クリエイティビティと精度のトレードオフが明らかとなり、ClaudeはGPTとGeminiを、明快さと若年層へのエンゲージメントの両方で上回った。
- 参考スコア(独自算出の注目度): 0.4326762849037007
- License:
- Abstract: This paper investigates the suitability of frontier Large Language Models (LLMs) for Q&A interactions in science centres, with the aim of boosting visitor engagement while maintaining factual accuracy. Using a dataset of questions collected from the National Space Centre in Leicester (UK), we evaluated responses generated by three leading models: OpenAI's GPT-4, Claude 3.5 Sonnet, and Google Gemini 1.5. Each model was prompted for both standard and creative responses tailored to an 8-year-old audience, and these responses were assessed by space science experts based on accuracy, engagement, clarity, novelty, and deviation from expected answers. The results revealed a trade-off between creativity and accuracy, with Claude outperforming GPT and Gemini in both maintaining clarity and engaging young audiences, even when asked to generate more creative responses. Nonetheless, experts observed that higher novelty was generally associated with reduced factual reliability across all models. This study highlights the potential of LLMs in educational settings, emphasizing the need for careful prompt engineering to balance engagement with scientific rigor.
- Abstract(参考訳): 本稿では,科学センターにおけるQ&Aインタラクションのためのフロンティア大規模言語モデル(LLM)の適合性について検討し,実際の精度を維持しつつ来訪者のエンゲージメントを高めることを目的とした。
我々は、レスターの国立宇宙センターから収集された質問のデータセットを用いて、OpenAIのGPT-4、Claude 3.5 Sonnet、Google Gemini 1.5の3つの主要なモデルで生成された回答を評価した。
それぞれのモデルは8歳の観衆に合わせた標準的な反応と創造的な反応の両方のために促され、これらの反応は宇宙科学の専門家によって予測された答えから正確さ、エンゲージメント、明瞭さ、新規性、逸脱に基づいて評価された。
その結果、クリエイティビティと精度のトレードオフが明らかとなり、クロードはGPTとGeminiを、より創造的な反応を生み出すよう要求された場合でも、明快さと若いオーディエンスへのエンゲージメントの両方で上回った。
それにもかかわらず、専門家は、高い新規性は一般にすべてのモデルにおける事実的信頼性の低下と関連していることを観察した。
本研究は, 教育環境におけるLLMの可能性を強調し, 科学的厳密さとエンゲージメントのバランスをとるために, 慎重な迅速なエンジニアリングの必要性を強調した。
関連論文リスト
- Enhancing Answer Reliability Through Inter-Model Consensus of Large Language Models [1.6874375111244329]
先進モデルを含む革新的な言語モデル相互作用システムの協調力学について検討する。
これらのモデルは、正確な基底的答えを伴わずに、複雑でPhDレベルの統計的疑問を生成し、答える。
本研究では,モデル間のコンセンサスによって応答の信頼性と精度が向上することを示す。
論文 参考訳(メタデータ) (2024-11-25T10:18:17Z) - Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。
本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。
我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文 参考訳(メタデータ) (2024-07-23T20:40:37Z) - AstroMLab 1: Who Wins Astronomy Jeopardy!? [4.162245706139047]
このデータセットは、天文学と天文学の年次レビューから算出された4,425の多重選択質問からなる。
Claude-3.5-Sonnetは最大4.6ポイント、85.0%の精度でライバルを上回っている。
LLaMA-3-70b (80.6%) と Qwen-2-72b (77.7%) はいくつかの優れたプロプライエタリモデルと競合している。
論文 参考訳(メタデータ) (2024-07-15T19:28:14Z) - The Battle of LLMs: A Comparative Study in Conversational QA Tasks [0.0]
この研究は、ChatGPT、GPT-4、Gemini、Mixtral、Claudeが異なる会話型QAコーパスで生成した応答を詳しく調べる。
評価スコアは慎重に計算され、その後、これらのモデル全体の性能を確認するために比較された。
論文 参考訳(メタデータ) (2024-05-28T16:42:43Z) - Exploring the Potential of the Large Language Models (LLMs) in Identifying Misleading News Headlines [2.0330684186105805]
本研究では、誤解を招くニュースの見出しと誤解を招くニュースの見出しを識別する上で、LLM(Large Language Models)の有効性について検討する。
解析の結果,ChatGPT-4の精度は良好であった。
論文 参考訳(メタデータ) (2024-05-06T04:06:45Z) - Language Models as Science Tutors [79.73256703631492]
本研究では,LMの現実的なユーザビリティを科学的アシスタントとして測定するTutorEvalとTutorChatを紹介する。
既存の対話データセットを用いた微調整ベースモデルがTutorEvalの性能を低下させることを示す。
我々はTutorChatを用いて、7Bパラメータと34Bパラメータを持つLlemmaモデルを微調整する。これらのLMチューターは32Kのコンテキストウィンドウを持ち、GSM8KとMATHに強く依存しながらTutorEvalで優れている。
論文 参考訳(メタデータ) (2024-02-16T22:24:13Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias [57.42417061979399]
近年の研究では、インストラクションチューニング(IT)と人間フィードバック(RLHF)による強化学習によって、大規模言語モデル(LM)の能力が劇的に向上していることが示されている。
本研究では,ITとRLHFがLMの意思決定と推論に与える影響について検討する。
以上の結果から,GPT-3,Mistral,T5ファミリーの各種モデルにおけるこれらのバイアスの存在が示唆された。
論文 参考訳(メタデータ) (2023-08-01T01:39:25Z) - chatClimate: Grounding Conversational AI in Climate Science [9.043032065867536]
大きな言語モデル(LLM)は、トレーニングフェーズ後の幻覚と時代遅れの情報という、2つの大きな課題に直面しています。
我々は,会話型AIのプロトタイプをwww.chatclimate.aiで公開し,課題に正確に答える能力を示す。
回答と情報源はIPCCの著者チームによって評価され、専門家の知識を用いて回答の精度を1(非常に低い)から5(非常に高い)に評価した。
論文 参考訳(メタデータ) (2023-04-11T21:31:39Z) - RHO ($\rho$): Reducing Hallucination in Open-domain Dialogues with
Knowledge Grounding [57.46495388734495]
本稿では、知識グラフ(KG)からリンクされたエンティティと関係述語を表現したRHO(rho$)を提案する。
本稿では,(1)テキスト埋め込みと対応するKG埋め込みを組み合わせるための局所知識基盤,(2)注目機構を介してRHOにマルチホップ推論能力を持たせるためのグローバル知識基盤を提案する。
論文 参考訳(メタデータ) (2022-12-03T10:36:34Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。