Fugu-MT 論文翻訳(概要): ARC-GEN: A Mimetic Procedural Benchmark Generator for the Abstraction and Reasoning Corpus

論文の概要: ARC-GEN: A Mimetic Procedural Benchmark Generator for the Abstraction and Reasoning Corpus

arxiv url: http://arxiv.org/abs/2511.00162v2
Date: Tue, 04 Nov 2025 03:46:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-05 16:37:26.648959
Title: ARC-GEN: A Mimetic Procedural Benchmark Generator for the Abstraction and Reasoning Corpus
Title（参考訳）: ARC-GEN:抽象・推論コーパスのためのミメティックな手続きベンチマークジェネレータ
Authors: Michael D. Moffitt,
Abstract要約: 本稿では,ARC-AGIトレーニングデータセットの拡張を目的としたオープンソースプロシージャジェネレータであるARC-GENを紹介する。これまでの取り組みとは異なり、我々のジェネレータは(全4つのタスクをカバーしている)徹底的かつ緩和的です。また、このジェネレータを用いて、2025年のGoogle Code Golf Championshipに応募したプログラムの正当性を検証するための静的ベンチマークスイートの確立についても論じる。
参考スコア（独自算出の注目度）: 3.553493344868413
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Abstraction and Reasoning Corpus remains one of the most compelling and challenging benchmarks for tracking progress toward achieving Artificial General Intelligence. In contrast to other evaluation datasets designed to assess an agent's task-specific skills or accumulated knowledge, the ARC-AGI suite is specifically targeted at measuring skill acquisition efficiency, a trait that has (so far) been lacking in even the most sophisticated machine learning systems. For algorithms that require extensive intra-task exemplars, a significant constraint imposed by ARC-AGI is the modest cardinality of its demonstration set, comprising a small number of $\langle$ input, output $\rangle$ grids per task specifying the corresponding transformation. To embellish the space of viable sample pairs, this paper introduces ARC-GEN, an open-source procedural generator aimed at extending the original ARC-AGI training dataset as faithfully as possible. Unlike prior efforts, our generator is both exhaustive (covering all four-hundred tasks) and mimetic (more closely honoring the distributional properties and characteristics embodied in the initial ARC-AGI-1 release). We also discuss the use of this generator in establishing a static benchmark suite to verify the correctness of programs submitted to the 2025 Google Code Golf Championship.
Abstract（参考訳）: The Abstraction and Reasoning Corpusは、人工知能の実現に向けた進歩を追跡する上で、最も魅力的で挑戦的なベンチマークの1つだ。エージェントのタスク固有のスキルや蓄積された知識を評価するために設計された他の評価データセットとは対照的に、ARC-AGIスイートは、最も洗練された機械学習システムにも(これまで)欠けている特性であるスキル獲得効率の測定を特に対象としている。大規模なタスク内例を必要とするアルゴリズムでは、ARC-AGIによって課される重要な制約はデモセットの質素な基準であり、少数の$\langle$ input, output $\rangle$ grids 1タスクあたりの変換を規定する。本稿では,ARC-AGIトレーニングデータセットを可能な限り忠実に拡張することを目的としたオープンソースプロシージャジェネレータARC-GENを紹介する。これまでの取り組みとは異なり、我々のジェネレータは(全4つのタスクをカバーしている)徹底的で、(ARC-AGI-1の最初のリリースで具現化された分布特性と特性をより深く尊重している)緩和的です。また、このジェネレータを用いて、2025年のGoogle Code Golf Championshipに応募したプログラムの正当性を検証するための静的ベンチマークスイートの確立についても論じる。

関連論文リスト

ARC-TGI: Human-Validated Task Generators with Reasoning Chain Templates for ARC-AGI [5.539241859666831]
ARC-TGIは、様々なARC-AGIタスクをサンプリングするタスクファミリージェネレータのためのオープンソースのフレームワークである。各タスクは自然言語入力と変換推論チェーンとペアリングされる。すべてのジェネレータは人間の精細化と局所的な検証を行い、グリッドと推論の両方を維持する。
論文参考訳（メタデータ） (2026-03-05T12:10:51Z)
GLOW: Graph-Language Co-Reasoning for Agentic Workflow Performance Prediction [51.83437071408662]
本稿では,AW性能予測のための統合フレームワークGLOWを提案する。 GLOWは、GNNのグラフ構造モデリング能力とLLMの推論能力を組み合わせる。 FLORA-Benchの実験では、GLOWは予測精度とランキングユーティリティにおいて最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2025-12-11T13:30:46Z)
The Geometry of Benchmarks: A New Path Toward AGI [0.0]
本稿では,AIエージェントのすべての心理測定バッテリーを,構造化されたモジュライ空間の点として扱う幾何学的枠組みを提案する。まず、測定可能なパフォーマンスに基づいて、Kardashevスタイルの自律性階層であるAutonomous AI(AAI)スケールを定義します。第二に、バッテリーのモジュライ空間を構築し、エージェントの順序や能力推定のレベルで区別できないベンチマークの等価クラスを特定する。第3に、強化学習、自己再生、討論、検証に基づく微調整を前提としたジェネラルジェネレータ-検証更新演算子(GVU)を導入する。
論文参考訳（メタデータ） (2025-12-03T21:34:09Z)
TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文参考訳（メタデータ） (2025-11-07T16:08:34Z)
Alita-G: Self-Evolving Generative Agent for Agent Generation [54.49365835457433]
汎用エージェントをドメインエキスパートに変換するフレームワークであるALITA-Gを提案する。このフレームワークでは、ジェネラリストエージェントが対象ドメインタスクのキュレートされたスイートを実行する。計算コストを削減しながら、大きな利益を得ることができます。
論文参考訳（メタデータ） (2025-10-27T17:59:14Z)
First RAG, Second SEG: A Training-Free Paradigm for Camouflaged Object Detection [14.070196423996045]
既存のアプローチは、しばしば重い訓練と大きな計算資源に依存している。 RAG-SEGはCODを2段階に分離し,粗いマスクをプロンプトとして生成するRAG(Retrieval-Augmented Generation)と,改良のためのSAMベースセグメンテーション(SEG)の2つを提案する。 RAG-SEGは、教師なしクラスタリングによってコンパクトな検索データベースを構築し、高速かつ効果的な特徴検索を可能にする。ベンチマークCODデータセットの実験では、RAG-SEGが最先端の手法に匹敵する性能を示した。
論文参考訳（メタデータ） (2025-08-21T07:14:18Z)
Arce: Augmented Roberta with Contextualized Elucidations for Ner in Automated Rule Checking [5.58730646214246]
ARCE(Augmented RoBERTa with contextualized elucidations)は、この生成プロセスを体系的に探索し最適化する新しいアプローチである。 ARCEはベンチマークAECデータセットに新たな最先端技術を確立し、マクロF1スコアは77.20%に達した。シンプルで説明に基づく知識は、このタスクの複雑なロールベースの論理よりも驚くほど効果的であることが証明されます。
論文参考訳（メタデータ） (2025-08-10T10:49:48Z)
Towards Learning Abductive Reasoning using VSA Distributed Representations [56.31867341825068]
本稿では,文脈認識モデルを用いた帰納的ルール学習手法を提案する。 ARLCは、誘引的推論のための、新しくより広く適用可能な訓練目標を特徴としている。プログラムされた知識の上に実例から漸進的に学習することで,ARLCのポストプログラミングトレーニングに対する堅牢性を示す。
論文参考訳（メタデータ） (2024-06-27T12:05:55Z)
CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay [12.499776923362461]
コードイット(Code It)と呼ばれる,言語モデルによる自己改善のための新しい,スケーラブルな手法を提案する。 Code It repeaterates between 1) program sample and hindsight relabeling, and 2) learn from Priord Experience replay。 CodeItをARCデータセットに適用することにより、事前トレーニングとデータ拡張とともに、優先順位付けされた後視リプレイがタスク間の一般化を成功させることを示す。
論文参考訳（メタデータ） (2024-02-07T13:55:27Z)
ArchGym: An Open-Source Gymnasium for Machine Learning Assisted Architecture Design [52.57999109204569]
ArchGymは、さまざまな検索アルゴリズムをアーキテクチャシミュレータに接続するオープンソースのフレームワークである。我々は、カスタムメモリコントローラ、ディープニューラルネットワークアクセラレータ、AR/VRワークロード用のカスタムSOCを設計する際に、複数のバニラおよびドメイン固有の検索アルゴリズムにわたってArchGymを評価する。
論文参考訳（メタデータ） (2023-06-15T06:41:23Z)
Graphs, Constraints, and Search for the Abstraction and Reasoning Corpus [19.27379168184259]
ARC(Abstraction and Reasoning Corpus)は、汎用人工知能アルゴリズムのパフォーマンスをベンチマークすることを目的としている。 ARCは広範な一般化と少数ショットの学習に重点を置いているため、純粋な機械学習を使って解決することは不可能である。本稿では,グラフを用いた画像の表現と,正しいプログラムの検索を行う新しいオブジェクト中心のフレームワークである,グラフ抽象化を用いた抽象推論を提案する。
論文参考訳（メタデータ） (2022-10-18T14:13:43Z)
Anchor-free Oriented Proposal Generator for Object Detection [59.54125119453818]
オブジェクト指向物体検出はリモートセンシング画像解釈において実用的で困難な課題である。今日では、指向性検出器は主に水平方向の箱を中間体として使用し、それらから指向性のある箱を導出している。本稿では,ネットワークアーキテクチャから水平ボックス関連操作を放棄する,AOPG(Anchor-free Oriented Proposal Generator)を提案する。
論文参考訳（メタデータ） (2021-10-05T10:45:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。