Fugu-MT 論文翻訳(概要): MADIL: An MDL-based Framework for Efficient Program Synthesis in the ARC Benchmark

論文の概要: MADIL: An MDL-based Framework for Efficient Program Synthesis in the ARC Benchmark

arxiv url: http://arxiv.org/abs/2505.01081v1
Date: Fri, 02 May 2025 07:39:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-05 17:21:19.958215
Title: MADIL: An MDL-based Framework for Efficient Program Synthesis in the ARC Benchmark
Title（参考訳）: MADIL:ARCベンチマークにおける効率的なプログラム合成のためのMDLベースのフレームワーク
Authors: Sébastien Ferré,
Abstract要約: ARC(Abstraction and Reasoning Corpus)ベンチマークは、最小限のトレーニング要件に基づいてインテリジェンスを評価する。 LLM(Large Language Models)は、最近ARCの性能を改善し、大規模な事前学習と高い計算コストに依存している。我々は,MDL(Minimum Description Length)の原理を有効活用した新しい手法であるMADILを紹介した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Artificial Intelligence (AI) has achieved remarkable success in specialized tasks but struggles with efficient skill acquisition and generalization. The Abstraction and Reasoning Corpus (ARC) benchmark evaluates intelligence based on minimal training requirements. While Large Language Models (LLMs) have recently improved ARC performance, they rely on extensive pre-training and high computational costs. We introduce MADIL (MDL-based AI), a novel approach leveraging the Minimum Description Length (MDL) principle for efficient inductive learning. MADIL performs pattern-based decomposition, enabling structured generalization. While its performance (7% at ArcPrize 2024) remains below LLM-based methods, it offers greater efficiency and interpretability. This paper details MADIL's methodology, its application to ARC, and experimental evaluations.
Abstract（参考訳）: 人工知能(AI)は、専門的なタスクにおいて顕著な成功を収めてきたが、効率的なスキル獲得と一般化に苦戦している。 ARC(Abstraction and Reasoning Corpus)ベンチマークは、最小限のトレーニング要件に基づいてインテリジェンスを評価する。 LLM(Large Language Models)は、最近ARCの性能を改善したが、大規模な事前学習と高い計算コストに依存している。我々は,MDL(Minimum Description Length)の原理を有効活用した新しい手法であるMADIL(MDL-based AI)を紹介した。 MADILはパターンベースの分解を行い、構造化された一般化を可能にする。性能(ArcPrize 2024の7%)はLLMベースの手法より低いが、効率と解釈性は高い。本稿では,MADILの方法論,ARCへの応用,実験的評価について述べる。

関連論文リスト

Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。 IB対応推論最適化(IBRO)を提案する。
論文参考訳（メタデータ） (2025-07-24T13:14:25Z)
TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文参考訳（メタデータ） (2025-06-12T05:25:35Z)
From Reasoning to Generalization: Knowledge-Augmented LLMs for ARC Benchmark [8.827173113748701]
近年の理学研究は,数学や理科試験などの課題に対して高い性能を発揮している。抽象的推論や一般化のような人間の知能のコア認知能力はいまだ未解明のままである。我々は,近年の推論指向LLMを抽象推論コーパスのベンチマークで評価した。
論文参考訳（メタデータ） (2025-05-23T05:21:14Z)
MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models [11.809732662992982]
本稿では,モデルコンテキストプロトコル (MCP) フレームワークにおける大規模言語モデル (LLM) の性能を評価するために設計された,最初の総合ベンチマークである MCP-RADAR を紹介する。 MCP-RADARは主観的な人的評価やバイナリ成功メトリクスに依存する従来のベンチマークとは異なり、複数のタスク領域にわたって客観的に定量化されている。
論文参考訳（メタデータ） (2025-05-22T14:02:37Z)
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文参考訳（メタデータ） (2025-02-17T16:56:23Z)
Optimizing Instruction Synthesis: Effective Exploration of Evolutionary Space with Tree Search [25.108044778194536]
命令を効率的に合成するスケーラブルなフレームワークであるIDEA-MCTS (Instruction Data Enhancement using Monte Carlo Tree Search)を紹介した。木探索と評価モデルにより、各命令を効率よくガイドして高品質な形式に進化させ、命令の微調整を支援することができる。実験の結果、IDEA-MCTSはシードインストラクションデータを大幅に向上させ、品質、多様性、複雑さの平均評価スコアを2.19から3.81に引き上げた。
論文参考訳（メタデータ） (2024-10-14T11:28:30Z)
Bridging LLMs and KGs without Fine-Tuning: Intermediate Probing Meets Subgraph-Aware Entity Descriptions [49.36683223327633]
大規模言語モデル(LLM)は、幅広い世界の知識をカプセル化し、強力なコンテキストモデリング能力を示す。実効的で効率的なKGCを実現するために,LLMの強みを頑健な知識表現と相乗化するための新しいフレームワークを提案する。従来手法に比べて47%の相対的な改善を達成し,我々の知る限り,ファインチューニング LLM に匹敵する分類性能を初めて達成した。
論文参考訳（メタデータ） (2024-08-13T10:15:55Z)
LLM-ARC: Enhancing LLMs with an Automated Reasoning Critic [2.1073328551105623]
LLM-ARCは,Large Language Models (LLM) の論理的推論能力を高めるために設計された,ニューロシンボリックなフレームワークである。 LLM-ARC は Actor-Critic 方式を採用しており、LLM アクターは宣言論理プログラムと意味的正当性テストを生成し、Automated Reasoning Critic はコードを評価し、テストを実行し、反復的洗練のためのテスト失敗に対するフィードバックを提供する。実験では,LLMのみのベースラインよりも大幅に改善され,論理的テスト生成と反復的自己精製の重要性が強調された。
論文参考訳（メタデータ） (2024-06-25T15:52:15Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文参考訳（メタデータ） (2024-01-17T08:22:52Z)
Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。しかし、その大きなサイズは推論を遅く、計算的に高価にする。最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文参考訳（メタデータ） (2023-10-28T04:07:58Z)
Sci-CoT: Leveraging Large Language Models for Enhanced Knowledge Distillation in Small Models for Scientific QA [5.117094291273979]
大規模言語モデル(LLM)は、幅広い下流タスクで優れたパフォーマンスを示している。本稿では2段階のフレームワークであるSci-CoTを提案する。我々の8000万のパラメータモデルは、いくつかのショット設定の下でARC-EasyデータセットにおけるBLOOM-176Bの性能を上回ることができる。
論文参考訳（メタデータ） (2023-08-09T03:18:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。