論文の概要: RESPONSE: Benchmarking the Ability of Language Models to Undertake Commonsense Reasoning in Crisis Situation
- arxiv url: http://arxiv.org/abs/2503.11348v1
- Date: Fri, 14 Mar 2025 12:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:54.504435
- Title: RESPONSE: Benchmarking the Ability of Language Models to Undertake Commonsense Reasoning in Crisis Situation
- Title(参考訳): RESPONSE:危機状況下でのコモンセンス推論を受ける言語モデルの能力のベンチマーク
- Authors: Aissatou Diallo, Antonis Bikakis, Luke Dickens, Anthony Hunter, Rob Miller,
- Abstract要約: 提案するTextsfRESPONSEは,6037の質問を含む1789の注釈付きインスタンスを含むデータセットである。
このデータセットには、問題記述、不足するリソース、時間に敏感なソリューション、およびそれらの正当化が含まれており、環境エンジニアによって検証されているサブセットが含まれている。
以上の結果から,GPT-4のような最先端モデルでさえ,即時反応の正当性は37%に過ぎなかった。
- 参考スコア(独自算出の注目度): 7.839338724237275
- License:
- Abstract: An interesting class of commonsense reasoning problems arises when people are faced with natural disasters. To investigate this topic, we present \textsf{RESPONSE}, a human-curated dataset containing 1789 annotated instances featuring 6037 sets of questions designed to assess LLMs' commonsense reasoning in disaster situations across different time frames. The dataset includes problem descriptions, missing resources, time-sensitive solutions, and their justifications, with a subset validated by environmental engineers. Through both automatic metrics and human evaluation, we compare LLM-generated recommendations against human responses. Our findings show that even state-of-the-art models like GPT-4 achieve only 37\% human-evaluated correctness for immediate response actions, highlighting significant room for improvement in LLMs' ability for commonsense reasoning in crises.
- Abstract(参考訳): 自然災害に直面しているときに、コモンセンス推論の興味深いクラスが生じる。
そこで本論文では,災害時におけるLLMのコモンセンス推論を評価するために設計された6037の質問を特徴とする1789のアノテートインスタンスを含む人間計算データセットである「textsf{RESPONSE}」について述べる。
このデータセットには、問題記述、不足するリソース、時間に敏感なソリューション、およびそれらの正当化が含まれており、環境エンジニアによって検証されているサブセットが含まれている。
自動測定と人的評価の両面から,人間の反応に対するLLM生成レコメンデーションを比較した。
以上の結果から, GPT-4のような最先端モデルでさえ, 即時反応行動に対するヒト評価正当性は37 %に過ぎず, 危機時のコモンセンス推論におけるLLMの能力向上に重要な余地があることが示唆された。
関連論文リスト
- Judging the Judges: A Collection of LLM-Generated Relevance Judgements [37.103230004631996]
本稿では,SIGIR 2024におけるLLMJudgeの大規模自動妥当性評価の結果をベンチマークし,報告する。
8つの国際チームが作成したTREC 2023ディープラーニングトラック関連判定のラベルを42 LLMで作成し、ベンチマークする。
論文 参考訳(メタデータ) (2025-02-19T17:40:32Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - DisasterQA: A Benchmark for Assessing the performance of LLMs in Disaster Response [0.0]
災害対応知識におけるLarge Language Models (LLM) の機能を評価する。
ベンチマークでは、幅広い災害対応トピックをカバーしている。
その結果, LLM には災害対応知識の改善が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-10-09T00:13:06Z) - Quriosity: Analyzing Human Questioning Behavior and Causal Inquiry through Curiosity-Driven Queries [91.70689724416698]
本稿では,3つの情報源から自然発生の13.5Kの質問を集めたQuriosityを紹介する。
分析の結果,データセットに因果的疑問(最大42%)が存在することが明らかとなった。
論文 参考訳(メタデータ) (2024-05-30T17:55:28Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。