Fugu-MT 論文翻訳(概要): True Detective: A Challenging Benchmark for Deep Abductive Reasoning \\in Foundation Models

論文の概要: True Detective: A Challenging Benchmark for Deep Abductive Reasoning \\in Foundation Models

arxiv url: http://arxiv.org/abs/2212.10114v1
Date: Tue, 20 Dec 2022 09:34:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 15:21:08.033873
Title: True Detective: A Challenging Benchmark for Deep Abductive Reasoning \\in Foundation Models
Title（参考訳）: True Detective: \\in Foundation Modelsを深く推論するベンチマーク
Authors: Maksym Del and Mark Fishel
Abstract要約: 大規模言語モデル(LLM)は、帰納的推論を含むゼロショット推論タスクにおいて、強い性能を示している。本稿では,191個の長文のミステリーストーリーからなり,それぞれ約1200語の長さで,刑事パズルの形で提示されるベンチマークを提案する。以上の結果から,現状のGPTモデルは,人間の47%に比べて28%の精度で,人間の解法よりも有意に低い結果が得られた。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have demonstrated strong performance in zero-shot reasoning tasks, including abductive reasoning. This is reflected in their ability to perform well on current benchmarks in this area. However, to truly test the limits of LLMs in abductive reasoning, a more challenging benchmark is needed. In this paper, we present such a benchmark, consisting of 191 long-form mystery stories, each approximately 1200 words in length and presented in the form of detective puzzles. Each puzzle includes a multiple-choice question for evaluation sourced from the "5 Minute Mystery" platform. Our results show that state-of-the-art GPT models perform significantly worse than human solvers on this benchmark, with an accuracy of 28\% compared to 47\% for humans. This indicates that there is still a significant gap in the abductive reasoning abilities of LLMs and highlights the need for further research in this area. Our work provides a challenging benchmark for future studies on reasoning in language models and contributes to a better understanding of the limits of LLMs' abilities.
Abstract（参考訳）: 大規模言語モデル(llm)は、帰納的推論を含むゼロショット推論タスクにおいて強力なパフォーマンスを示している。これは、この分野の現在のベンチマークでうまく機能する能力を反映しています。しかし、帰納的推論において LLM の限界を真にテストするには、より困難なベンチマークが必要である。本稿では,191個の長文のミステリーストーリーからなり,それぞれ約1200語の長さで,推理パズルの形で提示されるベンチマークについて述べる。各パズルには「5分間ミステリー」プラットフォームから派生した評価のための複数の質問が含まれている。その結果, 現状のGPTモデルでは, 精度が47%に比較して28倍の精度で, 人間の解法よりも有意に低い結果が得られた。これは, LLMの誘因的推論能力にはまだ大きなギャップがあることを示唆し, さらなる研究の必要性を強調している。我々の研究は言語モデルにおける推論の今後の研究に挑戦的なベンチマークを提供し、LLMの能力の限界をよりよく理解するために貢献する。

関連論文リスト

PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts [47.92619068073141]
我々は、ステップバイステップ、オープンエンド、クリエイティブマルチモーダル推論を評価するために設計された667のパズルハントスタイルの大規模ベンチマークであるPuzzleWorldを紹介した。ほとんどの最先端モデルでは最終解の精度は1-2%に過ぎず、最高のモデルではパズルの14%しか解けず、ステップワイズ精度は40%に達する。誤り解析により,現在のモデルは筋力的推論を示し,言語に基づく推論の限界に悩まされ,視覚的および空間的推論に不可欠なスケッチ能力が欠如していることが判明した。
論文参考訳（メタデータ） (2025-06-06T16:17:09Z)
Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。我々は質問を4段階(易、中、硬、極度硬)に分類する。我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。エクレベルの質問は、根本的に異なる課題を示します。
論文参考訳（メタデータ） (2025-04-16T03:39:38Z)
The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles [29.214813685163218]
OpenAIのo1とo3のリリースは、大規模言語モデルの高度な推論機能へのパラダイムシフトを表している。 GPT-[n] および o-[n] 級数モデルの進化を、挑戦的なマルチモーダルパズル上で追跡する。 o1の優れた性能は、GPT-4oの計算コストの約750倍となり、効率性への懸念が高まった。
論文参考訳（メタデータ） (2025-02-03T05:47:04Z)
What Makes Cryptic Crosswords Challenging for LLMs? [4.463184061618504]
クリプティッククロスワード(英: Cryptic crosswords)は、一般的な知識と、解法が異なるレベルで言語を操作する能力に依存するパズルである。従来の研究では、そのようなパズルを解くことは、Large Language Models (LLMs)を含む現代のNLPモデルにおいても難しいことが示唆されている。
論文参考訳（メタデータ） (2024-12-12T07:23:52Z)
On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。 1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文参考訳（メタデータ） (2024-10-30T15:31:54Z)
SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文参考訳（メタデータ） (2024-09-11T17:37:48Z)
Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。 GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文参考訳（メタデータ） (2024-07-05T12:30:02Z)
LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages [8.754506364968394]
LingOlyベンチマークは、大規模言語モデルにおける高度な推論能力のための新しいベンチマークである。非常に低リソースまたは絶滅した言語における言語パターンの文脈内同定と一般化の能力を評価する。直接精度と非文脈ベースラインとの比較により,暗記を暗記する性能を評価する。
論文参考訳（メタデータ） (2024-06-10T11:50:29Z)
Are LLMs Good Cryptic Crossword Solvers? [4.463184061618504]
クリプティッククロスワード(英: Cryptic crosswords)とは、様々なレベルの言語を操り、様々な種類のワードプレイに対処するソルバの能力に依存するパズルである。従来の研究では、現代のNLPモデルにおいても、そのようなパズルを解くことが難しいことが示唆されている。
論文参考訳（メタデータ） (2024-03-15T06:57:08Z)
REBUS: A Robust Evaluation Benchmark of Understanding Symbols [1.90463290938268]
GPT-4oは他の全てのモデルよりも大幅に優れ、続いてプロプライエタリなモデルも他の評価モデルよりも優れていた。最高のモデルでさえ、最終的な精度はわずか42%で、ハードパズルでは7%に低下する。したがって、我々のベンチマークは、マルチモーダルな大言語モデルの知識と推論における大きな欠点を特定するのに利用できる。
論文参考訳（メタデータ） (2024-01-11T00:30:28Z)
Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文参考訳（メタデータ） (2023-05-24T11:55:59Z)
Tree of Thoughts: Deliberate Problem Solving with Large Language Models [52.31950122881687]
言語モデル推論のための新しいフレームワーク、Tree of Thoughts (ToT)を紹介します。 ToTは、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化する。実験の結果,ToTは言語モデルの問題解決能力を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2023-05-17T23:16:17Z)
Evaluating Large Language Models in Theory of Mind Tasks [11.622327857276389]
11つの大規模言語モデル (LLM) は、偽確認タスクのカスタムメイドバッテリを用いて評価された。バッテリーには640のプロンプトが含まれており、40のタスクにまたがっている。 1つのタスクを解決するには、8つのシナリオすべてに16のプロンプトを正しく答える必要がある。
論文参考訳（メタデータ） (2023-02-04T03:50:01Z)
Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文参考訳（メタデータ） (2022-06-06T03:38:36Z)
PuzzLing Machines: A Challenge on Learning From Small Data [64.513459448362]
我々は,高校生を対象としたLinguistic OlympiadsのRosetta StoneパズルからなるPuzzLing Machinesという,小さなデータから学ぶための課題を紹介した。私たちのチャレンジには、81言語から幅広い言語現象をカバーする約100のパズルが含まれています。単純な統計アルゴリズムと最先端のディープニューラルモデルの両方が、予想通り、この課題に対して不十分に実行可能であることを示す。
論文参考訳（メタデータ） (2020-04-27T20:34:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。