論文の概要: Absurd World: A Simple Yet Powerful Method to Absurdify the Real-world for Probing LLM Reasoning Capabilities
- arxiv url: http://arxiv.org/abs/2605.09678v1
- Date: Sun, 10 May 2026 17:55:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.367479
- Title: Absurd World: A Simple Yet Powerful Method to Absurdify the Real-world for Probing LLM Reasoning Capabilities
- Title(参考訳): LLM推論能力を証明するための、シンプルでパワフルな方法
- Authors: Ryan Albright, Golam Md Muktadir, Zarif Ikram, S M Jubaer, Mehrab Hossain, Dianbo Liu,
- Abstract要約: 本稿では,大規模な言語モデルを変更現実主義に対してテストするためのベンチマークフレームワークであるAbsurd Worldを提案する。
単純で先進的なプロンプト技術を持つモデルの大規模なコレクションを評価し、LLMが論理的に考える能力を決定するのに有効なツールであることを証明している。
- 参考スコア(独自算出の注目度): 3.706540783851095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While extremely powerful and versatile at various tasks, the thinking capabilities of large language models (LLMs) are often put under scrutiny as they sometimes fail to solve problems that humans can systematically solve. However, recent literature focuses on breaking LLM reasoning with increasingly complex problems, and whether an LLM is robust in simple logical reasoning remains underexplored. This paper proposes Absurd World, a benchmarking framework, to test LLMs against altered realism, where scenarios are logically coherent, and humans can easily solve the tasks. Absurd World breaks a real-world model into symbols, actions, sequences, and events, which are automatically altered to create absurd worlds where the logic to solve the tasks remains the same. It evaluates a large collection of models with simple and advanced prompting techniques, and proves that it is an effective tool to determine LLMs' ability to think logically, ignoring the patterns learned from the real world. One can use this framework to extensively test an LLM against a real-world problem to verify whether the LLM's reasoning capability is robust against variations of the task.
- Abstract(参考訳): 様々なタスクにおいて非常に強力で汎用性があるが、大きな言語モデル(LLM)の思考能力は、時に人間が体系的に解決できる問題の解決に失敗するため、精査されることが多い。
しかし、近年の文献では、LLM推論を複雑化する問題と、LLMが単純な論理的推論において堅牢であるかどうかに焦点が当てられている。
本稿では、シナリオが論理的に一貫性があり、人間が容易にタスクを解くことができるような、変化したリアリズムに対してLCMをテストするためのベンチマークフレームワークであるAbsurd Worldを提案する。
Absurd Worldは現実世界のモデルをシンボル、アクション、シーケンス、イベントに分割する。
単純で先進的なプロンプト技術を持つモデルの大規模なコレクションを評価し、LLMが論理的に考える能力を決定するのに有効なツールであり、現実世界から学んだパターンを無視していることを証明している。
このフレームワークは、実世界の問題に対してLLMを広範囲にテストし、LLMの推論能力がタスクのバリエーションに対して堅牢かどうかを検証するのに使うことができる。
関連論文リスト
- Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。
ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。
CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:11:15Z) - Randomly Sampled Language Reasoning Problems Elucidate Limitations of In-Context Learning [9.75748930802634]
機械学習の性能を向上させるために,テキスト内学習の能力について検討する。
非常に単純なドメインを考える: 単純な言語タスクにおける次のトークン予測。
この課題において LLM は n-gram モデルに一様に劣ることがわかった。
論文 参考訳(メタデータ) (2025-01-06T07:57:51Z) - CLR-Fact: Evaluating the Complex Logical Reasoning Capability of Large Language Models over Factual Knowledge [44.59258397967782]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる印象的な機能を示している。
本稿では,LLMの複雑な論理的推論能力の体系的評価について述べる。
LLMは一般世界の知識の推論に優れるが、専門分野固有の知識では重大な課題に直面している。
論文 参考訳(メタデータ) (2024-07-30T05:40:32Z) - Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。
本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。
本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。