論文の概要: Do AI Models Perform Human-like Abstract Reasoning Across Modalities?
- arxiv url: http://arxiv.org/abs/2510.02125v1
- Date: Thu, 02 Oct 2025 15:35:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.189393
- Title: Do AI Models Perform Human-like Abstract Reasoning Across Modalities?
- Title(参考訳): AIモデルは、モダリティ全体にわたって人間のような抽象推論を実現するか?
- Authors: Claas Beger, Ryan Yi, Shuhao Fu, Arseny Moskvichev, Sarah W. Tsai, Sivasankaran Rajamanickam, Melanie Mitchell,
- Abstract要約: OpenAIのo3-preview推論モデルはARC-AGIベンチマークで人間の精度を上回った。
本研究では,ConceptARCにおけるモデルの抽象化能力について検討する。
- 参考スコア(独自算出の注目度): 5.973800676610215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: OpenAI's o3-preview reasoning model exceeded human accuracy on the ARC-AGI benchmark, but does that mean state-of-the-art models recognize and reason with the abstractions that the task creators intended? We investigate models' abstraction abilities on ConceptARC. We evaluate models under settings that vary the input modality (textual vs. visual), whether the model is permitted to use external Python tools, and, for reasoning models, the amount of reasoning effort. In addition to measuring output accuracy, we perform fine-grained evaluation of the natural-language rules that models generate to explain their solutions. This dual evaluation lets us assess whether models solve tasks using the abstractions ConceptARC was designed to elicit, rather than relying on surface-level patterns. Our results show that, while some models using text-based representations match human output accuracy, the best models' rules are often based on surface-level ``shortcuts'' and capture intended abstractions far less often than humans. Thus their capabilities for general abstract reasoning may be overestimated by evaluations based on accuracy alone. In the visual modality, AI models' output accuracy drops sharply, yet our rule-level analysis reveals that models might be underestimated, as they still exhibit a substantial share of rules that capture intended abstractions, but are often unable to correctly apply these rules. In short, our results show that models still lag humans in abstract reasoning, and that using accuracy alone to evaluate abstract reasoning on ARC-like tasks may overestimate abstract-reasoning capabilities in textual modalities and underestimate it in visual modalities. We believe that our evaluation framework offers a more faithful picture of multimodal models' abstract reasoning abilities and a more principled way to track progress toward human-like, abstraction-centered intelligence.
- Abstract(参考訳): OpenAIのo3-preview推論モデルはARC-AGIベンチマークで人間の精度を上回りましたが、これはタスク作成者が意図した抽象化によって最先端のモデルが認識し、推論することを意味していますか?
本研究では,ConceptARCにおけるモデルの抽象化能力について検討する。
入力モダリティの変化(テキスト対ビジュアル)、モデルが外部Pythonツールの使用を許可されているかどうか、推論モデルの場合、推論の労力の量などについて評価する。
出力精度の測定に加えて,モデルが生成する自然言語規則のきめ細かい評価を行い,その解法を説明する。
この二重評価により、概念ARCが表層パターンに頼るのではなく、引き起こすよう設計した抽象化を用いて、モデルがタスクを解くかどうかを評価することができる。
以上の結果から,テキストベース表現を用いたモデルでは人間の出力精度に合致するものもあるが,最適モデルのルールは表層「ショートカット」に基づいており,意図した抽象化を人間よりもはるかに少ない頻度で捉えることが示唆された。
したがって、それらの一般的な抽象的推論能力は、精度のみに基づく評価によって過大評価される可能性がある。
視覚的モダリティにおいては、AIモデルの出力精度は急激に低下するが、我々のルールレベルの分析では、モデルが意図した抽象化をキャプチャするかなりの量のルールをまだ示しているが、これらのルールを正しく適用できない場合が多いため、モデルが過小評価される可能性があることを明らかにしている。
要約すると, モデルが抽象的推論において人間を遅延させ, ARCのようなタスクにおける抽象的推論のみを用いてテキスト的モーダル性において抽象的推論能力を過大評価し, 視覚的モーダル性において過小評価する可能性が示唆された。
我々の評価フレームワークは、マルチモーダルモデルの抽象推論能力をより忠実に表現し、人間のような抽象中心の知性への進歩を追跡するためのより原則化された方法を提供すると信じている。
関連論文リスト
- Causal Abstraction Inference under Lossy Representations [53.18851962820361]
我々は、既存の定義を一般化して損失表現に適合させる、投影抽象化と呼ばれる新しいタイプの抽象化を導入する。
低レベルモデルから投影された抽象化を構築する方法と、それと等価な観察的、介入的、および反ファクト的因果クエリを低レベルから高レベルに翻訳する方法を示す。
論文 参考訳(メタデータ) (2025-09-25T21:20:42Z) - Stands to Reason: Investigating the Effect of Reasoning on Idiomaticity Detection [2.8330244018167945]
大規模言語モデルにおける推論能力が慣用性検出性能にどのように影響するかを検討する。
推論の効果は,予想よりも小さく,多様であることがわかった。
より小さなモデルでは、チェーン・オブ・シンクレット(CoT)推論は、Math-tunedの中間モデルから性能を向上するが、ベースモデルのレベルには及ばない。
論文 参考訳(メタデータ) (2025-08-18T21:17:09Z) - Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。
SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。
得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-03T02:31:26Z) - Abstraction Alignment: Comparing Model-Learned and Human-Encoded Conceptual Relationships [26.503178592074757]
モデル行動と形式的人間の知識を比較する手法である抽象的アライメントを導入する。
抽象化アライメントは、抽象グラフとしてドメイン固有の人間の知識を外部化する。
ユーザーは、モデルが学んだ人間の概念など、アライメント仮説をテストすることができる。
論文 参考訳(メタデータ) (2024-07-17T13:27:26Z) - Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - Did the Models Understand Documents? Benchmarking Models for Language
Understanding in Document-Level Relation Extraction [2.4665182280122577]
近年,ドキュメントレベルの関係抽出 (DocRE) が注目されている。
モデルはDocREで一貫したパフォーマンス向上を達成するが、根底にある決定ルールはまだ検討されていない。
本稿では,この質問に答える第一歩として,モデルを包括的に評価する新たな視点を紹介する。
論文 参考訳(メタデータ) (2023-06-20T08:52:05Z) - Deep Non-Monotonic Reasoning for Visual Abstract Reasoning Tasks [3.486683381782259]
本稿では,視覚的抽象的推論課題を解決するための非単調な計算手法を提案する。
このアプローチを使ってディープラーニングモデルを実装し、RavenのProgressive MatricesテストにインスパイアされたデータセットであるRAVENデータセットでそれをテストしました。
論文 参考訳(メタデータ) (2023-02-08T16:35:05Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Are Visual Explanations Useful? A Case Study in Model-in-the-Loop
Prediction [49.254162397086006]
画像に基づく年齢予測課題における視覚的満足度に基づく説明について検討する。
モデル予測の提示により,人間の精度が向上することが判明した。
しかし、様々な種類の説明は、人間の正確さやモデルの信頼を著しく変えることができない。
論文 参考訳(メタデータ) (2020-07-23T20:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。