論文の概要: CellARC: Measuring Intelligence with Cellular Automata
- arxiv url: http://arxiv.org/abs/2511.07908v1
- Date: Wed, 12 Nov 2025 01:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.535959
- Title: CellARC: Measuring Intelligence with Cellular Automata
- Title(参考訳): CellARC: セルオートマタによるインテリジェンスの測定
- Authors: Miroslav Lžičař,
- Abstract要約: CellARCは1次元セルオートマトンから構築された抽象化と推論のための総合ベンチマークである。
各エピソードは5つのサポートペアを持ち、1つのクエリは256個のマルチカラートークンでシリアライズされる。
95kトレーニングエピソードと2つの1kテストスプリット(補間/外挿)をリリースする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CellARC, a synthetic benchmark for abstraction and reasoning built from multicolor 1D cellular automata (CA). Each episode has five support pairs and one query serialized in 256 tokens, enabling rapid iteration with small models while exposing a controllable task space with explicit knobs for alphabet size k, radius r, rule family, Langton's lambda, query coverage, and cell entropy. We release 95k training episodes plus two 1k test splits (interpolation/extrapolation) and evaluate symbolic, recurrent, convolutional, transformer, recursive, and LLM baselines. CellARC decouples generalization from anthropomorphic priors, supports unlimited difficulty-controlled sampling, and enables reproducible studies of how quickly models infer new rules under tight budgets. Our strongest small-model baseline (a 10M-parameter vanilla transformer) outperforms recent recursive models (TRM, HRM), reaching 58.0%/32.4% per-token accuracy on the interpolation/extrapolation splits, while a large closed model (GPT-5 High) attains 62.3%/48.1% on subsets of 100 test tasks. An ensemble that chooses per episode between the Transformer and the best symbolic baseline reaches 65.4%/35.5%, highlighting neuro-symbolic complementarity. Leaderboard: https://cellarc.mireklzicar.com
- Abstract(参考訳): 本稿では,多色1Dセルオートマトン(CA)を用いた抽象化と推論のための総合ベンチマークであるCellARCを紹介する。
各エピソードには5つのサポートペアと256のトークンでシリアライズされたクエリが1つあり、小さなモデルですばやくイテレーションできると同時に、アルファベットサイズk、半径r、ルールファミリー、ラングトンのラムダ、クエリカバレッジ、セルエントロピーの明示的なノブを持つ制御可能なタスク空間が公開されている。
95kトレーニングエピソードと2つの1kテストスプリット(補間/外挿)をリリースし,シンボル的,再帰的,畳み込み的,転化的,再帰的,LLMベースラインを評価した。
CellARCは、人為的前駆体から一般化を分離し、無制限に困難に制御されたサンプリングをサポートし、厳格な予算の下で新しい規則をいかに迅速に推論するかの再現可能な研究を可能にする。
我々の最強の小型モデルベースライン(10Mパラメータ・バニラ変圧器)は、最近の再帰モデル(TRM, HRM)よりも優れており、補間/外挿の精度が58.0%/32.4%、大型閉モデル(GPT-5 High)が62.3%/48.1%、100の試験タスクのサブセットで62.3%/48.1%に達している。
トランスフォーマーと最高のシンボリックベースラインの間のエピソードごとに選択されるアンサンブルは65.4%/35.5%に達し、ニューロシンボリックな相補性を強調している。
リーダー: https://cellarc.mireklzicar.com
関連論文リスト
- Diffusion Language Models are Super Data Learners [61.721441061210896]
ユニークなデータが限られている場合、拡散言語モデル(DLM)は、よりエポックなトレーニングによって、常に自己回帰モデル(AR)を上回ります。
本研究の目的は,(1) 任意の次数モデリング,(2) 反復的双方向 denoising からの超高次計算,(3) モンテカルロ増分という3つの複合的要因に起因する。
論文 参考訳(メタデータ) (2025-11-05T08:17:42Z) - Pulsar Detection with Deep Learning [0.0]
この論文は、アレイによる特徴と画像診断を融合させる無線パルサー候補選択のためのディープラーニングパイプラインを構築する。
約500GBのGMRTデータから、原電圧はフィルタバンクに変換され、その後分散試験によって分散され、折り畳まれる。
各候補は、4つの診断プロファイル、時間対位相、サブバンド対位相、DM曲線を配列と画像として表現する。
論文 参考訳(メタデータ) (2025-10-26T05:12:45Z) - Ensemble Threshold Calibration for Stable Sensitivity Control [0.0]
本稿では,数千万組の幾何対もの幾何に対して,過度に分散した正確なリコールを実現するエンド・ツー・エンドのフレームワークを提案する。
我々のアプローチは、小さなエラーで常にリコールターゲットにヒットし、他のキャリブレーションと比較して冗長な検証を減らし、単一のTPU v3コア上でエンドツーエンドで実行します。
論文 参考訳(メタデータ) (2025-10-02T15:22:28Z) - Generalized Parallel Scaling with Interdependent Generations [58.43994876504917]
本稿では,相互依存応答を並列に生成するブリッジを提案する。
少数の新しいパラメータしか持たず、ブリッジは強化学習による相対平均精度の向上を図っている。
論文 参考訳(メタデータ) (2025-10-01T17:33:35Z) - Automated Knowledge Graph Construction using Large Language Models and Sentence Complexity Modelling [0.39089069256361736]
文レベルの知識グラフを抽出するエンドツーエンドパイプラインであるCoDe-KGを導入する。
オープンソースである15万以上のナレッジトリプルのデータセットをコントリビュートしています。
提案手法は, 文章の簡潔化において, 正解精度が99.8%まで向上することが示唆された。
論文 参考訳(メタデータ) (2025-09-22T00:01:50Z) - Prototype Training with Dual Pseudo-Inverse and Optimized Hidden Activations [0.14504054468850663]
Proto-PINV+Hは、閉形式重み計算と少数の合成入力の最適化を組み合わせた高速な訓練パラダイムである。
MNIST(60k列車、10kテスト)とFashion-MNIST(60k列車、10kテスト)では、公式の10kテストセットでそれぞれ97.8%、89.3%のテスト精度に達した。
論文 参考訳(メタデータ) (2025-08-13T13:13:32Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - ProofAug: Efficient Neural Theorem Proving via Fine-grained Proof Structure Analysis [50.020850767257095]
本稿では,LLMに様々な粒度で自動化手法を付加するProofAugを提案する。
本手法は,オープンソースのDeep-math-7bベースモデルとIsabelle証明アシスタントを用いて,MiniF2Fベンチマークで検証した。
また、ProofAugのLean 4バージョンを実装し、Kimina-Prover-seek-Distill-1.5Bのパス@1のパフォーマンスを44.3%から50.4%に改善します。
論文 参考訳(メタデータ) (2025-01-30T12:37:06Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。