論文の概要: A Study of Rule Omission in Raven's Progressive Matrices
- arxiv url: http://arxiv.org/abs/2510.03127v1
- Date: Fri, 03 Oct 2025 15:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.46917
- Title: A Study of Rule Omission in Raven's Progressive Matrices
- Title(参考訳): ラーヴェンの進行行列における規則の欠落に関する研究
- Authors: Binze Li,
- Abstract要約: 分析的推論は人間の認知の中核にあり、人工知能の根本的な課題である。
本研究では、不完全学習条件下での現代AIシステムの一般化能力について検討する。
実験により、変圧器は慣れ親しんだ規則に対して強い性能を示すが、新しい規則や省略規則に直面すると、その精度は急激に低下することが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analogical reasoning lies at the core of human cognition and remains a fundamental challenge for artificial intelligence. Raven's Progressive Matrices (RPM) serve as a widely used benchmark to assess abstract reasoning by requiring the inference of underlying structural rules. While many vision-based and language-based models have achieved success on RPM tasks, it remains unclear whether their performance reflects genuine reasoning ability or reliance on statistical shortcuts. This study investigates the generalization capacity of modern AI systems under conditions of incomplete training by deliberately omitting several structural rules during training. Both sequence-to-sequence transformer models and vision-based architectures such as CoPINet and the Dual-Contrast Network are evaluated on the Impartial-RAVEN (I-RAVEN) dataset. Experiments reveal that although transformers demonstrate strong performance on familiar rules, their accuracy declines sharply when faced with novel or omitted rules. Moreover, the gap between token-level accuracy and complete answer accuracy highlights fundamental limitations in current approaches. These findings provide new insights into the reasoning mechanisms underlying deep learning models and underscore the need for architectures that move beyond pattern recognition toward robust abstract reasoning.
- Abstract(参考訳): 分析的推論は人間の認知の中核にあり、人工知能の根本的な課題である。
Raven's Progressive Matrices (RPM) は、基盤となる構造的規則の推論を必要とすることによって抽象的推論を評価するために広く用いられるベンチマークである。
多くの視覚モデルと言語モデルがRPMタスクで成功したが、その性能が真の推論能力や統計的ショートカットへの依存を反映しているかどうかは不明だ。
本研究では、非完全学習条件下での現代のAIシステムの一般化能力について、学習中のいくつかの構造的規則を意図的に省略することによって検討する。
また、Impartial-RAVEN(I-RAVEN)データセットを用いて、シーケンス・ツー・シーケンス・トランスフォーマーモデルと、CoPINetやDual-Contrast Networkのようなビジョンベースのアーキテクチャの両方を評価した。
実験により、変圧器は慣れ親しんだ規則に対して強い性能を示すが、新しい規則や省略規則に直面すると、その精度は急激に低下することが明らかとなった。
さらに、トークンレベルの精度と完全な解答精度のギャップは、現在のアプローチの基本的限界を浮き彫りにする。
これらの発見は、ディープラーニングモデルの基礎となる推論メカニズムに関する新たな洞察を与え、パターン認識を超えて堅牢な抽象的推論に移行するアーキテクチャの必要性を浮き彫りにする。
関連論文リスト
- RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - How LLMs Learn to Reason: A Complex Network Perspective [14.638878448692493]
Reinforcement Learning from Verifiable Rewards による大規模言語モデルのトレーニングは、突飛な振る舞いのセットを示している。
この現象は単一統一理論を用いて説明できると考えられる。
私たちの研究は、将来のAIシステムの創発的な推論能力をエンジニアリングするための新しい物理的直感を提供します。
論文 参考訳(メタデータ) (2025-09-28T04:10:37Z) - Characteristic Root Analysis and Regularization for Linear Time Series Forecasting [9.254995889539716]
時系列予測は多くの領域において重要な課題である。
近年の研究では、単純な線形モデルの驚くほどの競争性が強調されている。
本稿では時間力学における特性根の役割に焦点を当てる。
論文 参考訳(メタデータ) (2025-09-28T03:06:30Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Reasoning Model Unlearning: Forgetting Traces, Not Just Answers, While Preserving Reasoning Skills [32.96074934023323]
大きな推論モデル(LRM)は、テスト時間計算を通じて強力なチェーン・オブ・シント(CoT)生成を可能にした。
従来の未学習アルゴリズムは、もともと非推論モデル用に設計されていたが、LRMには不適当であることを示す。
本稿では,意味のある推論トレースを効果的に抑制する新しい手法であるReasoning-aware Representation Misdirection for Unlearning(R2MU$)を提案する。
論文 参考訳(メタデータ) (2025-06-15T20:54:23Z) - Benchmarking Abstract and Reasoning Abilities Through A Theoretical Perspective [59.7140089198992]
抽象的推論を本質的なパターンを抽出する能力として定義する数学的枠組みを開発する。
基本的な推論精度を計測する(scoreGamma)と、特定のシンボルに依存するモデルの定量化(scoreDelta)である。
論文 参考訳(メタデータ) (2025-05-28T09:02:45Z) - Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training [86.70255651945602]
我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。
RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。
先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2025-05-20T17:59:16Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - Is it the model or the metric -- On robustness measures of deeplearning models [2.8169948004297565]
ディープフェイク検出の文脈におけるロバスト精度(RA)の正当性について再検討する。
本稿では, RAとRRの比較を行い, モデル間の類似のRAにもかかわらず, モデルが異なる許容レベル(摂動レベル)でRRが変化することを示した。
論文 参考訳(メタデータ) (2024-12-13T02:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。