論文の概要: Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?
- arxiv url: http://arxiv.org/abs/2503.11207v1
- Date: Fri, 14 Mar 2025 08:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 22:04:29.241087
- Title: Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?
- Title(参考訳): 大規模推論モデルは知覚的不確実性の下でアナロジカル推論を可能か?
- Authors: Giacomo Camposampiero, Michael Hersche, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi,
- Abstract要約: 我々はOpenAIのo3-miniとDeepSeek R1をアナログ推論で評価した。
我々は、I-RAVENデータセットと、そのより難しい拡張I-RAVEN-Xをベンチマークする。
OpenAIのo3-miniタスクの精度は大幅に低下し、オリジナルのI-RAVENでは86.6%から17.0%に低下した。
- 参考スコア(独自算出の注目度): 20.72570252804897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents a first evaluation of two state-of-the-art Large Reasoning Models (LRMs), OpenAI's o3-mini and DeepSeek R1, on analogical reasoning, focusing on well-established nonverbal human IQ tests based on Raven's progressive matrices. We benchmark with the I-RAVEN dataset and its more difficult extension, I-RAVEN-X, which tests the ability to generalize to longer reasoning rules and ranges of the attribute values. To assess the influence of visual uncertainties on these nonverbal analogical reasoning tests, we extend the I-RAVEN-X dataset, which otherwise assumes an oracle perception. We adopt a two-fold strategy to simulate this imperfect visual perception: 1) we introduce confounding attributes which, being sampled at random, do not contribute to the prediction of the correct answer of the puzzles and 2) smoothen the distributions of the input attributes' values. We observe a sharp decline in OpenAI's o3-mini task accuracy, dropping from 86.6% on the original I-RAVEN to just 17.0% -- approaching random chance -- on the more challenging I-RAVEN-X, which increases input length and range and emulates perceptual uncertainty. This drop occurred despite spending 3.4x more reasoning tokens. A similar trend is also observed for DeepSeek R1: from 80.6% to 23.2%. On the other hand, a neuro-symbolic probabilistic abductive model, ARLC, that achieves state-of-the-art performances on I-RAVEN, can robustly reason under all these out-of-distribution tests, maintaining strong accuracy with only a modest reduction from 98.6% to 88.0%. Our code is available at https://github.com/IBM/raven-large-language-models.
- Abstract(参考訳): 本研究は,OpenAIのo3-miniとDeepSeek R1の2つの最先端のLarge Reasoning Model (LRMs) の類似推論に関する最初の評価を行い,Ravenの進行行列に基づく高度に確立された非言語的IQテストに焦点を当てた。
我々は、I-RAVENデータセットと、そのより難しい拡張であるI-RAVEN-Xをベンチマークし、より長い推論ルールと属性値の範囲に一般化する能力をテストする。
これらの非言語的類似推論テストに対する視覚的不確実性の影響を評価するため、私たちは、オラクルの知覚を前提としたI-RAVEN-Xデータセットを拡張した。
私たちはこの不完全な視覚知覚をシミュレートするための2つの戦略を採用しています。
1) ランダムにサンプリングされ, パズルの正解の予測に寄与しない共起属性を導入する。
2)入力属性の値の分布を円滑にする。
OpenAIのo3-miniタスクの精度は大幅に低下し、最初のI-RAVENでは86.6%から17.0%に低下した。
この落ち込みは3.4倍の推論トークンを使ったにもかかわらず発生した。
同様の傾向がDeepSeek R1でも見られる: 80.6%から23.2%。
一方、ニューロシンボリックな確率的誘導モデルであるARLCは、I-RAVENの最先端性能を達成し、これらすべてのアウト・オブ・ディストリビューションテストにおいて堅牢な推論が可能であり、わずか98.6%から88.0%にしか低下せず、強い精度を維持している。
私たちのコードはhttps://github.com/IBM/raven-large-lang-models.comで利用可能です。
関連論文リスト
- FLIP Reasoning Challenge [20.706469085872516]
本稿では,人間の検証タスクに基づいてAI推論能力を評価するためのベンチマークであるFLIPデータセットを紹介する。
FLIPの課題は、4つのイメージの2つの順序をユーザに提供することだ。
我々の実験は、視覚言語モデル(VLM)と大規模言語モデル(LLM)の両方を活用して、最先端のモデルを評価する。
論文 参考訳(メタデータ) (2025-04-16T17:07:16Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Visual Reasoning Evaluation of Grok, Deepseek Janus, Gemini, Qwen, Mistral, and ChatGPT [0.0]
本研究では,マルチイメージ推論タスクとリジェクションに基づく評価と位置偏差検出を統合した新しいベンチマークを提案する。
我々はGrok 3, ChatGPT-4o, ChatGPT-o1, Gemini 2.0 Flash Experimental, DeepSeek Janus model, Qwen2.5-VL-72B-Instruct, QVQ-72B-Preview, Pixtral 12Bを評価するためにこのベンチマークを適用した。
論文 参考訳(メタデータ) (2025-02-23T04:01:43Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Beyond Slow Signs in High-fidelity Model Extraction [18.330719989672442]
深層ニューラルネットワークは、訓練に費用がかかり、知的財産価値が豊富である。
それまでの攻撃は、少なくとも3つの隠蔽層を持つランダムデータで訓練されたモデルに対して、逆エンジニアリングモデルパラメーターをfloat64の精度まで向上させることに成功した。
我々は,従来の手法を統合した統一最適化を導入し,計算ツールが性能に著しく影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2024-06-14T13:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。