論文の概要: Do LLMs and Humans Find the Same Questions Difficult? A Case Study on Japanese Quiz Answering
- arxiv url: http://arxiv.org/abs/2511.12300v1
- Date: Sat, 15 Nov 2025 17:23:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.87502
- Title: Do LLMs and Humans Find the Same Questions Difficult? A Case Study on Japanese Quiz Answering
- Title(参考訳): LLMと人間は同じ質問が難しいか? : 日本語クイズ回答を事例として
- Authors: Naoya Sugiura, Kosuke Yamada, Yasuhiro Ogawa, Katsuhiko Toyama, Ryohei Sasano,
- Abstract要約: 本研究では,ブザー設定におけるキズの難易度がLLMと人間との違いについて検討した。
実験の結果、LLMは人間に比べて、正しい回答をウィキペディアのエントリでカバーしていないクイズに苦戦していることがわかった。
- 参考スコア(独自算出の注目度): 12.682774013419182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs have achieved performance that surpasses humans in many NLP tasks. However, it remains unclear whether problems that are difficult for humans are also difficult for LLMs. This study investigates how the difficulty of quizzes in a buzzer setting differs between LLMs and humans. Specifically, we first collect Japanese quiz data including questions, answers, and correct response rate of humans, then prompted LLMs to answer the quizzes under several settings, and compare their correct answer rate to that of humans from two analytical perspectives. The experimental results showed that, compared to humans, LLMs struggle more with quizzes whose correct answers are not covered by Wikipedia entries, and also have difficulty with questions that require numerical answers.
- Abstract(参考訳): LLMは多くのNLPタスクにおいて人間を上回る性能を達成した。
しかし、人間にとって困難な問題もLLMにとって困難であるかどうかは不明である。
本研究では,ブザー設定におけるキズの難易度がLLMと人間との違いについて検討した。
具体的には、まず人間の質問、回答、正しい反応率を含む日本語クイズデータを収集し、その後、複数の条件下でのクイズに答えるようLLMに促し、その正解率を2つの分析的視点から比較した。
実験の結果, LLMは人間に比べて, 正しい回答がウィキペディアの項目でカバーされていないクイズに苦しむ傾向にあり, 数値的な答えを必要とする質問には難解であることがわかった。
関連論文リスト
- Revisiting Generalization Across Difficulty Levels: It's Not So Easy [11.203451380580868]
本研究では,大規模言語モデルがタスクの難易度によってどのように一般化されるかを検討する。
簡単なデータでも難しいデータでも、あらゆる難易度で一貫した改善を達成できないことを示す。
論文 参考訳(メタデータ) (2025-11-26T18:59:57Z) - B-score: Detecting biases in large language models using response history [2.944057642865492]
大きな言語モデル(LLM)は、しばしば強いバイアスを示す。
本研究は,LLMが先行回答を同じ質問に対して観察できる場合,バイアスの少ない回答を出力できるかどうかを考察する。
主観的, ランダム, 易解, 難解な質問に対するバイアスを検出するのに有効な新しい尺度であるBスコアを提案する。
論文 参考訳(メタデータ) (2025-05-24T06:23:52Z) - Large Language Models are overconfident and amplify human bias [1.014221700787766]
我々は,大規模言語モデル(LLM)が最も広く普及している人間のバイアスの1つ、過信を継承するかどうかを評価する。
私たちが研究している5つのLCMは、すべて過信であり、答えが20%から60%の間正しい確率を過信しています。
人間はより高度なLSMと同様の精度を持つが、過信ははるかに低い。
論文 参考訳(メタデータ) (2025-05-04T15:21:34Z) - Solving Situation Puzzles with Large Language Model and External Reformulation [6.793639595476304]
大規模言語モデル(LLM)は複数ラウンドの対話を必要とする推論ではうまく機能しないことを示す。
本稿では,新たな外的改革手法を提案する。そこでは,何回かのQ&Aの後,状況パズルを再構成する。
実験では, LLMを状況問題の解決に用いた手法よりも優れた性能(例えば, 勝率, 質問数, ゲス試行数)を示す。
論文 参考訳(メタデータ) (2025-03-24T07:05:55Z) - Humanity's Last Exam [521.5879252045291]
HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。
数学、人文科学、自然科学など、数十の分野にまたがる2,500の質問で構成されている。
各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
論文 参考訳(メタデータ) (2025-01-24T05:27:46Z) - Understanding the Dark Side of LLMs' Intrinsic Self-Correction [58.12627172032851]
LLMの応答を改善するために,本質的な自己補正法が提案された。
近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。
内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-12-19T15:39:31Z) - Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。
LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文 参考訳(メタデータ) (2024-10-01T06:07:00Z) - SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.02175403852253]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。
そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。
我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-06-14T21:52:21Z) - Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena [23.264049073539663]
大規模言語モデル(LLM)を評価するために、MCQ(Multiple-choice Question)が頻繁に使用される。
LLMは、A/B/C/Dのような特定の解選択IDを本質的に好んでいるかもしれない。
本研究は,これらの課題に対処し,完全にオープンな質問を通じて新たなLCM評価ベンチマークを確立することを目的としている。
論文 参考訳(メタデータ) (2024-06-11T17:59:47Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Question Answering as Programming for Solving Time-Sensitive Questions [84.07553016489769]
質問応答は、世界に関する知識の獲得に関わるため、人間の日常生活において重要な役割を担っている。
近年,Large Language Models (LLMs) は疑問に答える上で顕著な知性を示している。
これはLLMが表面レベルのテキストセマンティクスに基づいて厳密な推論を行うことができないためである。
我々は、$textbfQ$uestion $textbfA$rogrogeringタスクを再設定する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。