論文の概要: Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?
- arxiv url: http://arxiv.org/abs/2503.11207v1
- Date: Fri, 14 Mar 2025 08:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:48.279226
- Title: Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?
- Title(参考訳): 大規模推論モデルは知覚的不確実性の下でアナロジカル推論を可能か?
- Authors: Giacomo Camposampiero, Michael Hersche, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi,
- Abstract要約: 我々はOpenAIのo3-miniとDeepSeek R1をアナログ推論で評価した。
我々は、I-RAVENデータセットと、そのより難しい拡張I-RAVEN-Xをベンチマークする。
OpenAIのo3-miniタスクの精度は大幅に低下し、オリジナルのI-RAVENでは86.6%から17.0%に低下した。
- 参考スコア(独自算出の注目度): 20.72570252804897
- License:
- Abstract: This work presents a first evaluation of two state-of-the-art Large Reasoning Models (LRMs), OpenAI's o3-mini and DeepSeek R1, on analogical reasoning, focusing on well-established nonverbal human IQ tests based on Raven's progressive matrices. We benchmark with the I-RAVEN dataset and its more difficult extension, I-RAVEN-X, which tests the ability to generalize to longer reasoning rules and ranges of the attribute values. To assess the influence of visual uncertainties on these nonverbal analogical reasoning tests, we extend the I-RAVEN-X dataset, which otherwise assumes an oracle perception. We adopt a two-fold strategy to simulate this imperfect visual perception: 1) we introduce confounding attributes which, being sampled at random, do not contribute to the prediction of the correct answer of the puzzles and 2) smoothen the distributions of the input attributes' values. We observe a sharp decline in OpenAI's o3-mini task accuracy, dropping from 86.6% on the original I-RAVEN to just 17.0% -- approaching random chance -- on the more challenging I-RAVEN-X, which increases input length and range and emulates perceptual uncertainty. This drop occurred despite spending 3.4x more reasoning tokens. A similar trend is also observed for DeepSeek R1: from 80.6% to 23.2%. On the other hand, a neuro-symbolic probabilistic abductive model, ARLC, that achieves state-of-the-art performances on I-RAVEN, can robustly reason under all these out-of-distribution tests, maintaining strong accuracy with only a modest reduction from 98.6% to 88.0%. Our code is available at https://github.com/IBM/raven-large-language-models.
- Abstract(参考訳): 本研究は,OpenAIのo3-miniとDeepSeek R1の2つの最先端のLarge Reasoning Model (LRMs) の類似推論に関する最初の評価を行い,Ravenの進行行列に基づく高度に確立された非言語的IQテストに焦点を当てた。
我々は、I-RAVENデータセットと、そのより難しい拡張であるI-RAVEN-Xをベンチマークし、より長い推論ルールと属性値の範囲に一般化する能力をテストする。
これらの非言語的類似推論テストに対する視覚的不確実性の影響を評価するため、私たちは、オラクルの知覚を前提としたI-RAVEN-Xデータセットを拡張した。
私たちはこの不完全な視覚知覚をシミュレートするための2つの戦略を採用しています。
1) ランダムにサンプリングされ, パズルの正解の予測に寄与しない共起属性を導入する。
2)入力属性の値の分布を円滑にする。
OpenAIのo3-miniタスクの精度は大幅に低下し、最初のI-RAVENでは86.6%から17.0%に低下した。
この落ち込みは3.4倍の推論トークンを使ったにもかかわらず発生した。
同様の傾向がDeepSeek R1でも見られる: 80.6%から23.2%。
一方、ニューロシンボリックな確率的誘導モデルであるARLCは、I-RAVENの最先端性能を達成し、これらすべてのアウト・オブ・ディストリビューションテストにおいて堅牢な推論が可能であり、わずか98.6%から88.0%にしか低下せず、強い精度を維持している。
私たちのコードはhttps://github.com/IBM/raven-large-lang-models.comで利用可能です。
関連論文リスト
- Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Beyond Slow Signs in High-fidelity Model Extraction [18.330719989672442]
深層ニューラルネットワークは、訓練に費用がかかり、知的財産価値が豊富である。
それまでの攻撃は、少なくとも3つの隠蔽層を持つランダムデータで訓練されたモデルに対して、逆エンジニアリングモデルパラメーターをfloat64の精度まで向上させることに成功した。
我々は,従来の手法を統合した統一最適化を導入し,計算ツールが性能に著しく影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2024-06-14T13:24:07Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - You Only Forward Once: Prediction and Rationalization in A Single
Forward Pass [10.998983921416533]
教師なしの合理性抽出は、合理性のないモデル予測をサポートするために、簡潔で連続的なテキストスニペットを抽出することを目的としている。
これまでの研究では、RNP(Rationalizing Neural Prediction)フレームワークと呼ばれる2段階のフレームワークを使用してきた。
そこで我々は,論理学の緩和版から派生した,単相一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一
論文 参考訳(メタデータ) (2023-11-04T08:04:28Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - TRUST XAI: Model-Agnostic Explanations for AI With a Case Study on IIoT
Security [0.0]
我々は,トランスパラシー・アポン・統計理論(XAI)という普遍的XAIモデルを提案する。
TRUST XAIが, 平均成功率98%の新しいランダムサンプルについて, どのように説明するかを示す。
最後に、TRUSTがユーザに対してどのように説明されるかを示す。
論文 参考訳(メタデータ) (2022-05-02T21:44:27Z) - End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge
Distillation [86.41437210485932]
我々は、ゼロショットHOI検出を前進させ、同時に見えないHOIと見えないHOIの両方を検出することを目指している。
本稿では,視覚言語による知識蒸留によるエンドツーエンドのゼロショットHOI検出フレームワークを提案する。
本手法は, 従来のSOTAを8.92%, 全体の10.18%で上回っている。
論文 参考訳(メタデータ) (2022-04-01T07:27:19Z) - Residual Energy-Based Models for End-to-End Speech Recognition [26.852537542649866]
自己回帰型ASRモデルを補完するために残留エネルギーベースモデル(R-EBM)を提案する。
100hr LibriSpeechデータセットの実験では、R-EBMはワードエラー率(WER)を8.2%/6.7%削減できる。
自己教師付き学習(wav2vec 2.0)を用いた最先端モデルでは、R-EBMはWERと信頼性推定性能の両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-03-25T22:08:00Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z) - Undersensitivity in Neural Reading Comprehension [36.142792758501706]
現在の読書理解モデルは、分布内テストセットによく一般化するが、敵対的に選択された入力では不十分である。
本稿では,入力テキストが有意に変化するが,モデルの予測は行わない,過度な予測過敏性の相補的問題に焦点をあてる。
モデルが同じ答えを誤って予測する問題の意味的バリエーションの中から探索するノイズの多い逆攻撃を定式化する。
論文 参考訳(メタデータ) (2020-02-15T19:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。