論文の概要: Is Large Language Model Performance on Reasoning Tasks Impacted by Different Ways Questions Are Asked?
- arxiv url: http://arxiv.org/abs/2507.15707v1
- Date: Mon, 21 Jul 2025 15:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.454632
- Title: Is Large Language Model Performance on Reasoning Tasks Impacted by Different Ways Questions Are Asked?
- Title(参考訳): 様々な方法で影響された推論タスクにおける大規模言語モデルのパフォーマンスは疑問視されているか?
- Authors: Seok Hwan Song, Mohna Chakraborty, Qi Li, Wallapak Tavanapong,
- Abstract要約: 大規模言語モデル(LLM)は、様々な質問タイプ(例えば、複数選択、真/偽、短短の答えなど)を用いて評価されてきた。
本研究は,LLMの精度が推論タスクに与える影響について,未解明の疑問に答える。
- 参考スコア(独自算出の注目度): 8.7324906809502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have been evaluated using diverse question types, e.g., multiple-choice, true/false, and short/long answers. This study answers an unexplored question about the impact of different question types on LLM accuracy on reasoning tasks. We investigate the performance of five LLMs on three different types of questions using quantitative and deductive reasoning tasks. The performance metrics include accuracy in the reasoning steps and choosing the final answer. Key Findings: (1) Significant differences exist in LLM performance across different question types. (2) Reasoning accuracy does not necessarily correlate with the final selection accuracy. (3) The number of options and the choice of words, influence LLM performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な質問タイプ、例えば、複数選択、真/偽、短長の回答を用いて評価されてきた。
本研究は,LLMの精度が推論タスクに与える影響について,未解明の疑問に答える。
本研究では,3種類の質問に対する5つの LLM の性能について,量的および帰納的推論タスクを用いて検討する。
パフォーマンスメトリクスには、推論ステップの正確性と最終回答の選択が含まれている。
主な発見点:(1)異なる質問タイプ間でのLLM性能に重要な相違点が存在する。
2) 推論精度は最終選択精度と必ずしも相関しない。
(3)選択肢数と単語の選択はLLMのパフォーマンスに影響を及ぼす。
関連論文リスト
- Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation [56.69064935192318]
MHQA(Multi-hop Question Answering)は、質問に答えるために複雑なレイヤを追加し、より難しいものにします。
本稿では,様々な構成で検索結果(検索文書)を置換することで,言語モデルがマルチホップ質問にどう反応するかを考察する。
論文 参考訳(メタデータ) (2025-05-16T23:29:47Z) - Multiple Choice Questions: Reasoning Makes Large Language Models (LLMs) More Self-Confident Even When They Are Wrong [2.8367942280334493]
回答に対する自信は、モデルが直接答えるか、答える前に推論を提供するよう求められたかどうかにどのように依存するかを調査する。
我々の仮説は、この行動は、選択された答えの確率を変更する推論によるものであるというものである。
論文 参考訳(メタデータ) (2025-01-16T10:27:51Z) - CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。
複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文 参考訳(メタデータ) (2024-10-23T04:55:08Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - AHP-Powered LLM Reasoning for Multi-Criteria Evaluation of Open-Ended Responses [26.850344968677582]
本研究では,大規模言語モデルを用いたオープンエンド質問に対する回答評価手法を提案する。
また,ChatGPT-3.5-turbo と GPT-4 の2つのデータセットについて実験を行った。
以上の結果から,本研究のアプローチは4つの基準線よりも人間の判断と密接に一致していることが示唆された。
論文 参考訳(メタデータ) (2024-10-02T05:22:07Z) - Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。
LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文 参考訳(メタデータ) (2024-10-01T06:07:00Z) - Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations [70.6395572287422]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。
我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文 参考訳(メタデータ) (2024-02-23T02:24:36Z) - Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question? [15.308093827770474]
大規模言語モデル(LLM)が選択のみのプロンプトで複数選択質問応答(MCQA)を実行できるかどうかを探索する。
このプロンプトは11/12ケースで過半数のベースラインを上回り、精度は0.33まで向上する。
我々は、暗記、選択力学、質問推論について、深いブラックボックス分析を行う。
論文 参考訳(メタデータ) (2024-02-19T19:38:58Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。