論文の概要: NYT-Connections: A Deceptively Simple Text Classification Task that Stumps System-1 Thinkers
- arxiv url: http://arxiv.org/abs/2412.01621v3
- Date: Tue, 25 Feb 2025 12:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:19:57.037445
- Title: NYT-Connections: A Deceptively Simple Text Classification Task that Stumps System-1 Thinkers
- Title(参考訳): NYT-Connections: System-1 の思考をシンプルに分類するタスク
- Authors: Angel Yahir Loredo Lopez, Tyler McDonald, Ali Emami,
- Abstract要約: 我々はNew York Times Connectionsゲームから派生した358の簡単な単語分類パズルのコレクションであるNYT-Connectionsを紹介する。
このベンチマークは、素早い直感的な"システム1"思考をペナルティ化し、基本的な推論スキルを分離するように設計されている。
- 参考スコア(独自算出の注目度): 5.397565689903148
- License:
- Abstract: Large Language Models (LLMs) have shown impressive performance on various benchmarks, yet their ability to engage in deliberate reasoning remains questionable. We present NYT-Connections, a collection of 358 simple word classification puzzles derived from the New York Times Connections game. This benchmark is designed to penalize quick, intuitive "System 1" thinking, isolating fundamental reasoning skills. We evaluated six recent LLMs, a simple machine learning heuristic, and humans across three configurations: single-attempt, multiple attempts without hints, and multiple attempts with contextual hints. Our findings reveal a significant performance gap: even top-performing LLMs like GPT-4 fall short of human performance by nearly 30%. Notably, advanced prompting techniques such as Chain-of-Thought and Self-Consistency show diminishing returns as task difficulty increases. NYT-Connections uniquely combines linguistic isolation, resistance to intuitive shortcuts, and regular updates to mitigate data leakage, offering a novel tool for assessing LLM reasoning capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なベンチマークで顕著なパフォーマンスを示しているが、意図的な推論を行う能力は疑問の余地がある。
我々はNew York Times Connectionsゲームから派生した358の簡単な単語分類パズルのコレクションであるNYT-Connectionsを紹介する。
このベンチマークは、素早い直感的な"システム1"思考をペナルティ化し、基本的な推論スキルを分離するように設計されている。
我々は最近の6つのLSM、単純な機械学習ヒューリスティック、人間を3つの構成に分けて評価した。
GPT-4のような最高性能のLCMでさえ、ヒトのパフォーマンスが約30%低下する。
特に、Chain-of-ThoughtやSelf-Consistencyといった高度なプロンプト技術は、タスクの難しさが増大するにつれてリターンが低下することを示している。
NYT-Connectionsは、言語的分離、直感的なショートカットに対する耐性、データ漏洩を緩和するための定期的な更新を独自に組み合わせ、LSM推論機能を評価するための新しいツールを提供する。
関連論文リスト
- Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。
本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文 参考訳(メタデータ) (2024-12-11T11:38:11Z) - LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems [28.72485319617863]
LLMは、人間が扱いやすいようないくつかの基本的なタスク、例えば単語トラウベリーの文字数rを数えるのに苦労する。
我々は,高度な数学的およびコーディング推論能力の伝達可能性について,特殊なLCMから単純なカウントタスクまでの測定を行う。
微調整や文脈内学習といった戦略と比較すると、係り受け推論はLLMのタスクをより知覚するのに役立つ最も堅牢で効率的な方法であることがわかる。
論文 参考訳(メタデータ) (2024-10-18T04:17:16Z) - Do LLMs Overcome Shortcut Learning? An Evaluation of Shortcut Challenges in Large Language Models [9.854718405054589]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な機能を示している。
本稿では,LLMの性能に及ぼすショートカットの影響を評価するためのテストスイートであるShortcut Suiteを提案する。
論文 参考訳(メタデータ) (2024-10-17T08:52:52Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文 参考訳(メタデータ) (2023-05-23T00:16:48Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。