論文の概要: ARC Is a Vision Problem!
- arxiv url: http://arxiv.org/abs/2511.14761v1
- Date: Tue, 18 Nov 2025 18:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.279217
- Title: ARC Is a Vision Problem!
- Title(参考訳): ARCはビジョンの問題だ!
- Authors: Keya Hu, Ali Cy, Linlu Qiu, Xiaoman Delores Ding, Runqian Wang, Yeyin Eva Zhu, Jacob Andreas, Kaiming He,
- Abstract要約: 視覚パラダイム内のARCを画像から画像への変換問題として定義する。
私たちのフレームワークであるVision ARCは、ARC-1ベンチマークで60.4%の精度を実現しています。
- 参考スコア(独自算出の注目度): 50.59206008530851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Abstraction and Reasoning Corpus (ARC) is designed to promote research on abstract reasoning, a fundamental aspect of human intelligence. Common approaches to ARC treat it as a language-oriented problem, addressed by large language models (LLMs) or recurrent reasoning models. However, although the puzzle-like tasks in ARC are inherently visual, existing research has rarely approached the problem from a vision-centric perspective. In this work, we formulate ARC within a vision paradigm, framing it as an image-to-image translation problem. To incorporate visual priors, we represent the inputs on a "canvas" that can be processed like natural images. It is then natural for us to apply standard vision architectures, such as a vanilla Vision Transformer (ViT), to perform image-to-image mapping. Our model is trained from scratch solely on ARC data and generalizes to unseen tasks through test-time training. Our framework, termed Vision ARC (VARC), achieves 60.4% accuracy on the ARC-1 benchmark, substantially outperforming existing methods that are also trained from scratch. Our results are competitive with those of leading LLMs and close the gap to average human performance.
- Abstract(参考訳): 抽象推論コーパス(ARC:Abstraction and Reasoning Corpus)は、人間の知性の基本的側面である抽象推論の研究を促進するために設計された。
ARCに対する一般的なアプローチは、言語指向の問題として扱い、大きな言語モデル(LLM)や反復推論モデルによって対処される。
しかし、ARCのパズルのようなタスクは本質的に視覚的だが、既存の研究は視覚中心の観点から問題にアプローチすることはめったにない。
本研究では、画像から画像への変換問題として、視覚パラダイム内でARCを定式化する。
視覚的な先入観を取り入れるために、自然画像のように処理できる「キャンバス」の入力を表現します。
バニラ・ビジョン・トランスフォーマー(ViT)のような標準的な視覚アーキテクチャをイメージ・ツー・イメージ・マッピングに応用するのは当然です。
我々のモデルは、ARCデータのみに基づいてゼロからトレーニングされ、テストタイムトレーニングを通じて見つからないタスクに一般化される。
私たちのフレームワークであるVision ARC(VARC)は、ARC-1ベンチマークで60.4%の精度を実現し、スクラッチからトレーニングされた既存のメソッドを大幅に上回っている。
我々の結果は、LLMをリードするものと競合し、平均的な人的パフォーマンスのギャップを埋めるものです。
関連論文リスト
- MiCo: Multi-image Contrast for Reinforcement Visual Reasoning [72.81576836419373]
CoT(Chain-of-Thought)推論は、複数の画像に視覚的手がかりをリンクするために使用することができる。
視覚言語モデル(VLM)の規則に基づく強化学習に適応する
提案手法は,マルチイメージ推論ベンチマークにおいて大幅な改善を実現し,汎用視覚タスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2025-06-27T17:59:27Z) - GIFARC: Synthetic Dataset for Leveraging Human-Intuitive Analogies to Elevate AI Reasoning [7.09254962218677]
最先端モデルは2024年のARCコンペティションで40-55%の精度しか達成していない。
本稿では、類似に着想を得たARCデータセットGIFARCを紹介する。
GIFARCは、ブルートフォースパターン検索に参加する前に、AIエージェントがタスクを類似的に評価するように誘導する。
論文 参考訳(メタデータ) (2025-05-27T03:42:51Z) - Tackling the Abstraction and Reasoning Corpus with Vision Transformers: the Importance of 2D Representation, Positions, and Objects [31.926206783846144]
視覚変換器(ViT)は、タスク毎に100万のサンプルをトレーニングしても、ほとんどのARCタスクで劇的に失敗することを示す。
ARCに必要な視覚的推論能力のいくつかを解放する,ViTARC スタイルのアーキテクチャを提案する。
タスク固有のViTARCモデルは、400のパブリックARCタスクの半数以上において、100%に近い確率で解決できる。
論文 参考訳(メタデータ) (2024-10-08T22:25:34Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding [88.24517460894634]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - LLMs and the Abstraction and Reasoning Corpus: Successes, Failures, and
the Importance of Object-based Representations [50.431003245201644]
GPT-4 は 1D-ARC や単純な ARC サブセットのような非言語領域で完全に「推論」できないことを示す。
本稿では,外部ツールから得られるオブジェクトベース表現を提案する。これにより,解決されたARCタスクのパフォーマンスがほぼ倍増し,より簡単な1D-ARC上でのほぼ完璧なスコアが得られた。
論文 参考訳(メタデータ) (2023-05-26T16:32:17Z) - Abstract Visual Reasoning Enabled by Language [8.627180519837657]
ARCを解くための一般学習型フレームワークを提案する。
タスクをビジョンから言語領域に変換することに集中しています。
言語と視覚のこの構成により、各段階で事前訓練されたモデルを利用することができる。
論文 参考訳(メタデータ) (2023-03-07T17:52:46Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。