論文の概要: Reasoning Large Language Model Errors Arise from Hallucinating Critical Problem Features
- arxiv url: http://arxiv.org/abs/2505.12151v1
- Date: Sat, 17 May 2025 21:55:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.065609
- Title: Reasoning Large Language Model Errors Arise from Hallucinating Critical Problem Features
- Title(参考訳): 重大な問題特徴の幻覚から生じる大規模言語モデルエラーの推論
- Authors: Alex Heyman, Joel Zylberberg,
- Abstract要約: 可変複素制約満足論理問題として,o1-mini,o3-mini,DeepSeek-R1,Claude 3.7 Sonnet,Gemini 2.5 Pro Preview,Grok 3 Mini Betaをグラフカラー化でテストする。
誤り率比較とCoT/説明テキスト解析の両方から、RLLMはグラフのプロンプト記述に指定されていないエッジを幻覚させる傾向にあることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have recently made great strides in reasoning task performance through chain-of-thought (CoT) strategies trained via reinforcement learning; however, these "reasoning large language models" (RLLMs) remain imperfect reasoners, and understanding the frequencies and causes of their failure modes is important for both users and developers. We test o1-mini, o3-mini, DeepSeek-R1, Claude 3.7 Sonnet, Gemini 2.5 Pro Preview, and Grok 3 Mini Beta on graph coloring as a variable-complexity constraint-satisfaction logic problem, and find evidence from both error rate comparisons and CoT/explanation text analysis that RLLMs are prone to hallucinate edges not specified in the prompt's description of the graph. This phenomenon persists across multiple problem complexity levels and semantic frames, and it appears to account for a significant fraction of the incorrect answers from every tested model, and the vast majority of them for some models. Our results indicate that RLLMs may possess broader issues with misrepresentation of problem specifics, and we offer suggestions for design choices to mitigate this weakness.
- Abstract(参考訳): 大規模言語モデルは近年、強化学習を通じて訓練されたチェーン・オブ・シント(CoT)戦略によるタスクパフォーマンスの推論において大きな進歩を遂げているが、これらの「推論可能な大規模言語モデル」(RLLM)は不完全推論のままであり、それらの障害モードの頻度と原因を理解することは、ユーザと開発者にとっても重要である。
グラフカラー化問題として,o1-mini,o3-mini,DeepSeek-R1,Claude 3.7 Sonnet,Gemini 2.5 Pro Preview,Grok 3 Mini Betaを検証し,誤り率比較とCoT/説明文解析の両方から,RLLMがグラフのプロンプト記述に規定されていないエッジを幻覚させる傾向があるという証拠を見出した。
この現象は、複数の問題複雑性レベルとセマンティックフレームにまたがって持続し、テストされた各モデルからの誤った回答のかなりの部分と、その大部分をいくつかのモデルで占めている。
以上の結果から, RLLM には問題点の誤表現に関する広範な問題が存在する可能性が示唆され, この弱点を緩和するための設計選択の提案が提案されている。
関連論文リスト
- Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
論文 参考訳(メタデータ) (2025-04-16T03:39:38Z) - Do Larger Language Models Imply Better Reasoning? A Pretraining Scaling Law for Reasoning [89.17086632436363]
本研究では,実世界の大規模知識グラフの構造と分布を再現する合成マルチホップ推論環境を提案する。
我々の推論タスクは、グラフの欠落したエッジを補完することであり、これは高度なマルチホップ推論を必要とし、現実世界の推論シナリオを模倣する。
特定の知識グラフに対して最適なモデルサイズを予測するために,知識グラフ探索エントロピーを最適モデルサイズに線形にマッピングする経験的スケーリングを求める。
論文 参考訳(メタデータ) (2025-04-04T17:57:22Z) - Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - Evaluating the Systematic Reasoning Abilities of Large Language Models through Graph Coloring [0.0]
本研究では,LLMの計算能力を評価するためのグラフカラー化手法について検討する。
我々は、$k$-coloringのデータセット上で、Claude 3.5 Sonnet、Llama 3.1 405B、Gemini 1.5 Pro、GPT-4o、o1-mini、DeepSeek-R1をテストする。
論文 参考訳(メタデータ) (2025-02-10T22:27:02Z) - The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles [29.214813685163218]
OpenAIのo1とo3のリリースは、大規模言語モデルの高度な推論機能へのパラダイムシフトを表している。
GPT-[n] および o-[n] 級数モデルの進化を、挑戦的なマルチモーダルパズル上で追跡する。
o1の優れた性能は、GPT-4oの計算コストの約750倍となり、効率性への懸念が高まった。
論文 参考訳(メタデータ) (2025-02-03T05:47:04Z) - Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。
提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。
我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文 参考訳(メタデータ) (2024-10-07T06:37:25Z) - WorldSense: A Synthetic Benchmark for Grounded Reasoning in Large
Language Models [35.088946378980914]
我々は3つの最先端チャットLLM(GPT3.5、GPT4、Llama2-chat)上でベンチマークを実行する。
これらのモデルが3つのオブジェクトでもエラーを発生させることを示す。
エラーは、チェーン・オブ・コンテクストのプロンプトやイン・コンテクストの学習でも継続する。
論文 参考訳(メタデータ) (2023-11-27T15:38:17Z) - Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T17:44:35Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。