論文の概要: Designing an Evaluation Framework for Large Language Models in Astronomy Research
- arxiv url: http://arxiv.org/abs/2405.20389v1
- Date: Thu, 30 May 2024 18:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 18:34:31.592879
- Title: Designing an Evaluation Framework for Large Language Models in Astronomy Research
- Title(参考訳): 天文学研究における大規模言語モデル評価フレームワークの設計
- Authors: John F. Wu, Alina Hyk, Kiera McCormick, Christine Ye, Simone Astarita, Elina Baral, Jo Ciuca, Jesse Cranney, Anjalie Field, Kartheik Iyer, Philipp Koehn, Jenn Kotler, Sandor Kruk, Michelle Ntampaka, Charles O'Neill, Joshua E. G. Peek, Sanjib Sharma, Mikaeel Yunus,
- Abstract要約: 大規模言語モデル(LLM)は科学的研究の仕方を変えつつある。
現在、天文学におけるLLMの使用を評価する基準はない。
天文学研究者がLLMとどのように相互作用するかを評価するための実験設計について述べる。
- 参考スコア(独自算出の注目度): 7.823443012348265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are shifting how scientific research is done. It is imperative to understand how researchers interact with these models and how scientific sub-communities like astronomy might benefit from them. However, there is currently no standard for evaluating the use of LLMs in astronomy. Therefore, we present the experimental design for an evaluation study on how astronomy researchers interact with LLMs. We deploy a Slack chatbot that can answer queries from users via Retrieval-Augmented Generation (RAG); these responses are grounded in astronomy papers from arXiv. We record and anonymize user questions and chatbot answers, user upvotes and downvotes to LLM responses, user feedback to the LLM, and retrieved documents and similarity scores with the query. Our data collection method will enable future dynamic evaluations of LLM tools for astronomy.
- Abstract(参考訳): 大規模言語モデル(LLM)は科学的研究の仕方を変えつつある。
研究者はこれらのモデルとどのように相互作用し、天文学のような科学的なサブコミュニティがこれらのモデルからどのような恩恵を受けるかを理解することが不可欠である。
しかしながら、天文学におけるLLMの使用を評価する基準は今のところ存在しない。
そこで本研究では,天文学研究者がLLMとどのように相互作用するかを評価するための実験設計について述べる。
われわれは、Retrieval-Augmented Generation (RAG)を介してユーザーからの問い合わせに答えられるSlackチャットボットをデプロイした。
我々は,ユーザ質問やチャットボットの回答,LDM応答に対するユーザアップボイトとダウンボイト,LDM応答に対するユーザフィードバック,クエリによるドキュメントと類似度スコアの検索と匿名化を行う。
我々のデータ収集手法は将来の天文学のためのLLMツールの動的評価を可能にする。
関連論文リスト
- A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
本稿では,250以上の科学LLMを包括的に調査し,それらの共通点と相違点について考察するとともに,各分野とモダリティに関する事前学習データセットと評価タスクを要約する。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.02175403852253]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。
そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。
我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-06-14T21:52:21Z) - GPT-ology, Computational Models, Silicon Sampling: How should we think about LLMs in Cognitive Science? [4.242435932138821]
GPT-ology, LLMs-as-computational-models, Silicon sample など,いくつかの新しい研究パラダイムについてレビューする。
我々は、科学を前進させるために対処しなければならないLCMに関するいくつかの際立った問題を強調します。
論文 参考訳(メタデータ) (2024-06-13T04:19:17Z) - Large Language Models Memorize Sensor Datasets! Implications on Human Activity Recognition Research [0.23982628363233693]
本研究では,Large Language Models (LLMs) が,訓練中にHAR(Human Activity Recognition)データセットにアクセス可能かどうかを検討する。
ほとんどの現代のLLMは、事実上(アクセス可能な)インターネット上でトレーニングされています。
特にダフネットデータセットでは、GPT-4はセンサー読み取りのブロックを再現することができる。
論文 参考訳(メタデータ) (2024-06-09T19:38:27Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - What Evidence Do Language Models Find Convincing? [103.67867531892988]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - SciGLM: Training Scientific Language Models with Self-Reflective
Instruction Annotation and Tuning [60.14510984576027]
SciGLMは、大学レベルの科学的推論を行うことができる科学言語モデルのスイートである。
本研究では, 自己回帰的指示アノテーションの枠組みを適用し, 難解な科学的問題に対する段階的推論を生成する。
言語モデルのChatGLMをSciInstructで微調整し、科学的および数学的推論能力を向上した。
論文 参考訳(メタデータ) (2024-01-15T20:22:21Z) - Let the LLMs Talk: Simulating Human-to-Human Conversational QA via
Zero-Shot LLM-to-LLM Interactions [19.365615476223635]
対話型質問応答システムの目的は,ユーザとの対話によって情報を取得する対話型検索システムを作ることである。
既存の作業では、人間の注釈を使って質問者(学生)と回答者(教師)の役割を演じる。
教師と学生のインタラクションをシミュレーションするためにゼロショット学習者LLMを用いたシミュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:38:02Z) - On the Origin of LLMs: An Evolutionary Tree and Graph for 15,821 Large
Language Models [0.0]
大規模言語モデル(LLM)は、ChatGPTやBardといったLLMが数百万のユーザを獲得して、非常に注目されている。
我々は15,821 LLMのコンステレーションをナビゲートし探索するための公開ウェブアプリケーションを提案する。
論文 参考訳(メタデータ) (2023-07-19T07:17:43Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。