論文の概要: DisasterQA: A Benchmark for Assessing the performance of LLMs in Disaster Response
- arxiv url: http://arxiv.org/abs/2410.20707v1
- Date: Wed, 09 Oct 2024 00:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 08:52:25.685950
- Title: DisasterQA: A Benchmark for Assessing the performance of LLMs in Disaster Response
- Title(参考訳): 災害対応におけるLCMの性能評価基準
- Authors: Rajat Rawat,
- Abstract要約: 災害対応知識におけるLarge Language Models (LLM) の機能を評価する。
ベンチマークでは、幅広い災害対応トピックをカバーしている。
その結果, LLM には災害対応知識の改善が必要であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Disasters can result in the deaths of many, making quick response times vital. Large Language Models (LLMs) have emerged as valuable in the field. LLMs can be used to process vast amounts of textual information quickly providing situational context during a disaster. However, the question remains whether LLMs should be used for advice and decision making in a disaster. To evaluate the capabilities of LLMs in disaster response knowledge, we introduce a benchmark: DisasterQA created from six online sources. The benchmark covers a wide range of disaster response topics. We evaluated five LLMs each with four different prompting methods on our benchmark, measuring both accuracy and confidence levels through Logprobs. The results indicate that LLMs require improvement on disaster response knowledge. We hope that this benchmark pushes forth further development of LLMs in disaster response, ultimately enabling these models to work alongside. emergency managers in disasters.
- Abstract(参考訳): 災害によって多くの死者が出る可能性があり、迅速な対応が不可欠である。
LLM(Large Language Models)は、この分野で重要な存在である。
LLMは、災害時の状況に応じた大量のテキスト情報を迅速に処理するために使用することができる。
しかし、LLMが災害時のアドバイスや意思決定に使用されるべきかどうかには疑問が残る。
災害対応知識におけるLLMの能力を評価するために,6つのオンラインソースから作成した災害QAのベンチマークを紹介する。
ベンチマークでは、幅広い災害対応トピックをカバーしている。
ベンチマークでは5つのLSMをそれぞれ4つの異なるプロンプト法で評価し、Logprobsを用いて精度と信頼性の両レベルを測定した。
その結果, LLM には災害対応知識の改善が必要であることが示唆された。
このベンチマークは、災害対応におけるLLMのさらなる開発を推進し、最終的にこれらのモデルが協調して動作することを願っている。
災害の緊急管理人です
関連論文リスト
- Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。
我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文 参考訳(メタデータ) (2024-06-19T10:59:48Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Monitoring Critical Infrastructure Facilities During Disasters Using Large Language Models [8.17728833322492]
クリティカルインフラストラクチャー施設(CIF)は、特に大規模緊急時において、コミュニティの機能に不可欠である。
本稿では,大規模言語モデル(LLM)の適用の可能性を探り,自然災害によるCIFの状況を監視する。
我々は2つの異なる国の災害イベントからソーシャルメディアデータを分析し、CIFに対する報告された影響と、その影響の重大さと運用状況を明らかにする。
論文 参考訳(メタデータ) (2024-04-18T19:41:05Z) - Evaluation and Improvement of Fault Detection for Large Language Models [30.760472387136954]
本稿では,大規模言語モデル(LLM)における既存の故障検出手法の有効性について検討する。
既存の手法の故障検出能力を高めるために, textbfMutation による予測を行う textbfConfidence textbfSmoothing フレームワーク textbfMuCS を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:06:12Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Exploring the Responses of Large Language Models to Beginner
Programmers' Help Requests [1.8260333137469122]
大規模言語モデル(LLM)が、学生が助けを求める問題のあるコードの問題を特定するのにいかに優れているかを評価する。
オンラインプログラミングコースからヘルプリクエストとコードのサンプルを収集しました。
論文 参考訳(メタデータ) (2023-06-09T07:19:43Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。