Fugu-MT 論文翻訳(概要): Do LLMs and Humans Find the Same Questions Difficult? A Case Study on Japanese Quiz Answering

論文の概要: Do LLMs and Humans Find the Same Questions Difficult? A Case Study on Japanese Quiz Answering

arxiv url: http://arxiv.org/abs/2511.12300v1
Date: Sat, 15 Nov 2025 17:23:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-18 14:36:23.87502
Title: Do LLMs and Humans Find the Same Questions Difficult? A Case Study on Japanese Quiz Answering
Title（参考訳）: LLMと人間は同じ質問が難しいか? : 日本語クイズ回答を事例として
Authors: Naoya Sugiura, Kosuke Yamada, Yasuhiro Ogawa, Katsuhiko Toyama, Ryohei Sasano,
Abstract要約: 本研究では,ブザー設定におけるキズの難易度がLLMと人間との違いについて検討した。実験の結果、LLMは人間に比べて、正しい回答をウィキペディアのエントリでカバーしていないクイズに苦戦していることがわかった。
参考スコア（独自算出の注目度）: 12.682774013419182
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLMs have achieved performance that surpasses humans in many NLP tasks. However, it remains unclear whether problems that are difficult for humans are also difficult for LLMs. This study investigates how the difficulty of quizzes in a buzzer setting differs between LLMs and humans. Specifically, we first collect Japanese quiz data including questions, answers, and correct response rate of humans, then prompted LLMs to answer the quizzes under several settings, and compare their correct answer rate to that of humans from two analytical perspectives. The experimental results showed that, compared to humans, LLMs struggle more with quizzes whose correct answers are not covered by Wikipedia entries, and also have difficulty with questions that require numerical answers.
Abstract（参考訳）: LLMは多くのNLPタスクにおいて人間を上回る性能を達成した。しかし、人間にとって困難な問題もLLMにとって困難であるかどうかは不明である。本研究では,ブザー設定におけるキズの難易度がLLMと人間との違いについて検討した。具体的には、まず人間の質問、回答、正しい反応率を含む日本語クイズデータを収集し、その後、複数の条件下でのクイズに答えるようLLMに促し、その正解率を2つの分析的視点から比較した。実験の結果, LLMは人間に比べて, 正しい回答がウィキペディアの項目でカバーされていないクイズに苦しむ傾向にあり, 数値的な答えを必要とする質問には難解であることがわかった。

関連論文リスト

B-score: Detecting biases in large language models using response history [2.944057642865492]
大きな言語モデル(LLM)は、しばしば強いバイアスを示す。本研究は,LLMが先行回答を同じ質問に対して観察できる場合,バイアスの少ない回答を出力できるかどうかを考察する。主観的, ランダム, 易解, 難解な質問に対するバイアスを検出するのに有効な新しい尺度であるBスコアを提案する。
論文参考訳（メタデータ） (2025-05-24T06:23:52Z)
Large Language Models are overconfident and amplify human bias [1.014221700787766]
我々は,大規模言語モデル(LLM)が最も広く普及している人間のバイアスの1つ、過信を継承するかどうかを評価する。私たちが研究している5つのLCMは、すべて過信であり、答えが20%から60%の間正しい確率を過信しています。人間はより高度なLSMと同様の精度を持つが、過信ははるかに低い。
論文参考訳（メタデータ） (2025-05-04T15:21:34Z)
Solving Situation Puzzles with Large Language Model and External Reformulation [6.793639595476304]
大規模言語モデル(LLM)は複数ラウンドの対話を必要とする推論ではうまく機能しないことを示す。本稿では,新たな外的改革手法を提案する。そこでは,何回かのQ&Aの後,状況パズルを再構成する。実験では, LLMを状況問題の解決に用いた手法よりも優れた性能(例えば, 勝率, 質問数, ゲス試行数)を示す。
論文参考訳（メタデータ） (2025-03-24T07:05:55Z)
Humanity's Last Exam [521.5879252045291]
HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。数学、人文科学、自然科学など、数十の分野にまたがる2,500の質問で構成されている。各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
論文参考訳（メタデータ） (2025-01-24T05:27:46Z)
Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。 LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文参考訳（メタデータ） (2024-10-01T06:07:00Z)
SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.02175403852253]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文参考訳（メタデータ） (2024-06-14T21:52:21Z)
Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena [23.264049073539663]
大規模言語モデル(LLM)を評価するために、MCQ(Multiple-choice Question)が頻繁に使用される。 LLMは、A/B/C/Dのような特定の解選択IDを本質的に好んでいるかもしれない。本研究は,これらの課題に対処し,完全にオープンな質問を通じて新たなLCM評価ベンチマークを確立することを目的としている。
論文参考訳（メタデータ） (2024-06-11T17:59:47Z)
When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。 FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文参考訳（メタデータ） (2024-02-16T22:12:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。