論文の概要: True Detective: A Challenging Benchmark for Deep Abductive Reasoning
\\in Foundation Models
- arxiv url: http://arxiv.org/abs/2212.10114v1
- Date: Tue, 20 Dec 2022 09:34:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 15:21:08.033873
- Title: True Detective: A Challenging Benchmark for Deep Abductive Reasoning
\\in Foundation Models
- Title(参考訳): True Detective: \\in Foundation Modelsを深く推論するベンチマーク
- Authors: Maksym Del and Mark Fishel
- Abstract要約: 大規模言語モデル(LLM)は、帰納的推論を含むゼロショット推論タスクにおいて、強い性能を示している。
本稿では,191個の長文のミステリーストーリーからなり,それぞれ約1200語の長さで,刑事パズルの形で提示されるベンチマークを提案する。
以上の結果から,現状のGPTモデルは,人間の47%に比べて28%の精度で,人間の解法よりも有意に低い結果が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated strong performance in
zero-shot reasoning tasks, including abductive reasoning. This is reflected in
their ability to perform well on current benchmarks in this area. However, to
truly test the limits of LLMs in abductive reasoning, a more challenging
benchmark is needed. In this paper, we present such a benchmark, consisting of
191 long-form mystery stories, each approximately 1200 words in length and
presented in the form of detective puzzles. Each puzzle includes a
multiple-choice question for evaluation sourced from the "5 Minute Mystery"
platform. Our results show that state-of-the-art GPT models perform
significantly worse than human solvers on this benchmark, with an accuracy of
28\% compared to 47\% for humans. This indicates that there is still a
significant gap in the abductive reasoning abilities of LLMs and highlights the
need for further research in this area. Our work provides a challenging
benchmark for future studies on reasoning in language models and contributes to
a better understanding of the limits of LLMs' abilities.
- Abstract(参考訳): 大規模言語モデル(llm)は、帰納的推論を含むゼロショット推論タスクにおいて強力なパフォーマンスを示している。
これは、この分野の現在のベンチマークでうまく機能する能力を反映しています。
しかし、帰納的推論において LLM の限界を真にテストするには、より困難なベンチマークが必要である。
本稿では,191個の長文のミステリーストーリーからなり,それぞれ約1200語の長さで,推理パズルの形で提示されるベンチマークについて述べる。
各パズルには「5分間ミステリー」プラットフォームから派生した評価のための複数の質問が含まれている。
その結果, 現状のGPTモデルでは, 精度が47%に比較して28倍の精度で, 人間の解法よりも有意に低い結果が得られた。
これは, LLMの誘因的推論能力にはまだ大きなギャップがあることを示唆し, さらなる研究の必要性を強調している。
我々の研究は言語モデルにおける推論の今後の研究に挑戦的なベンチマークを提供し、LLMの能力の限界をよりよく理解するために貢献する。
関連論文リスト
- Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - REBUS: A Robust Evaluation Benchmark of Understanding Symbols [1.96132079622912]
本稿では,リバスパズルを用いたマルチモーダル大言語モデルの性能評価手法を提案する。
データセットは、画像ベースのワードプレイのオリジナル例333をカバーし、映画、作曲家、主要都市、食品など13のカテゴリを網羅している。
GPT-4VやGemini Proのようなプロプライエタリなモデルは、他のテストモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-01-11T00:30:28Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Solving and Generating NPR Sunday Puzzles with Large Language Models [0.0]
最先端の大規模言語モデルは、多くのPUZZLEQAパズルを解くことができる。
最良のモデルは GPT-3.5 で、50.2% のゆるい精度である。
GPT-3.5は、生成されたルールに従わない答えを持つパズルを生成する。
論文 参考訳(メタデータ) (2023-06-21T13:23:48Z) - Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For
Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。
高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。
さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文 参考訳(メタデータ) (2023-05-24T11:55:59Z) - Tree of Thoughts: Deliberate Problem Solving with Large Language Models [52.31950122881687]
言語モデル推論のための新しいフレームワーク、Tree of Thoughts (ToT)を紹介します。
ToTは、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化する。
実験の結果,ToTは言語モデルの問題解決能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-17T23:16:17Z) - Evaluating Large Language Models in Theory of Mind Tasks [11.622327857276389]
11つの大規模言語モデル (LLM) は、偽確認タスクのカスタムメイドバッテリを用いて評価された。
バッテリーには640のプロンプトが含まれており、40のタスクにまたがっている。
1つのタスクを解決するには、8つのシナリオすべてに16のプロンプトを正しく答える必要がある。
論文 参考訳(メタデータ) (2023-02-04T03:50:01Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (2022-01-14T06:49:15Z) - PuzzLing Machines: A Challenge on Learning From Small Data [64.513459448362]
我々は,高校生を対象としたLinguistic OlympiadsのRosetta StoneパズルからなるPuzzLing Machinesという,小さなデータから学ぶための課題を紹介した。
私たちのチャレンジには、81言語から幅広い言語現象をカバーする約100のパズルが含まれています。
単純な統計アルゴリズムと最先端のディープニューラルモデルの両方が、予想通り、この課題に対して不十分に実行可能であることを示す。
論文 参考訳(メタデータ) (2020-04-27T20:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。