論文の概要: Sensi: Learn One Thing at a Time -- Curriculum-Based Test-Time Learning for LLM Game Agents
- arxiv url: http://arxiv.org/abs/2603.17683v1
- Date: Wed, 18 Mar 2026 12:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.706145
- Title: Sensi: Learn One Thing at a Time -- Curriculum-Based Test-Time Learning for LLM Game Agents
- Title(参考訳): Sensi: 一度にひとつのことを学ぶ - LLMゲームエージェントのためのカリキュラムベースのテストタイムラーニング
- Authors: Mohsen Arjmandi,
- Abstract要約: 本稿では、ARC-AGI-3ゲームプレイングチャレンジのためのエージェントアーキテクチャであるSensiを紹介し、構造化されたテスト時間学習を導入する。
Sensi v1は2つのプレイヤーアーキテクチャだけで2つのゲームレベルを解き、Sensi v2はカリキュラム学習を追加し、0レベルを解いた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents deployed in unknown environments must learn task structure at test time, but current approaches require thousands of interactions to form useful hypotheses. We present Sensi, an LLM agent architecture for the ARC-AGI-3 game-playing challenge that introduces structured test-time learning through three mechanisms: (1) a two-player architecture separating perception from action, (2) a curriculum-based learning system managed by an external state machine, and (3) a database-as-control-plane that makes the agents context window programmatically steerable. We further introduce an LLM-as-judge component with dynamically generated evaluation rubrics to determine when the agent has learned enough about one topic to advance to the next. We report results across two iterations: Sensi v1 solves 2 game levels using the two-player architecture alone, while Sensi v2 adds curriculum learning and solves 0 levels - but completes its entire learning curriculum in approximately 32 action attempts, achieving 50-94x greater sample efficiency than comparable systems that require 1600-3000 attempts. We precisely diagnose the failure mode as a self-consistent hallucination cascade originating in the perception layer, demonstrating that the architectural bottleneck has shifted from learning efficiency to perceptual grounding - a more tractable problem.
- Abstract(参考訳): 未知の環境にデプロイされる大規模言語モデル(LLM)エージェントは、テスト時にタスク構造を学習する必要があるが、現在のアプローチでは、有用な仮説を形成するために数千のインタラクションが必要である。
本稿では,ARC-AGI-3 ゲームプレイングチャレンジのための LLM エージェントアーキテクチャについて述べる。(1) 動作から知覚を分離した2人プレイヤアーキテクチャ,(2) 外部状態マシンが管理するカリキュラムベースの学習システム,(3) エージェントをプログラム的に操作可能なデータベース・アズ・コントロールプレーンである。
さらに、動的に生成される評価ルーブリックを持つLCM-as-judgeコンポーネントを導入し、エージェントが1つのトピックについて十分に学習し、次のトピックに進むかどうかを判断する。
Sensi v1は2つのプレイヤーアーキテクチャだけで2つのゲームレベルを解決し、Sensi v2はカリキュラム学習を追加して0レベルを解決します。
アーキテクチャ上のボトルネックが学習効率から知覚的グラウンド化(知覚的グラウンド化)へと移行したことを実証し,より難解な問題として,障害モードを認識層に起源を持つ自己一貫性の幻覚カスケードとして正確に診断する。
関連論文リスト
- Autonomous Quantum Simulation through Large Language Model Agents [0.29165586612027233]
大規模言語モデル(LLM)エージェントは、量子多体システムのテンソルネットワークシミュレーションを自律的に行うことができる。
私たちは、数分で専門的な計算領域でトレーニングできる自律的なAIエージェントを作成します。
論文 参考訳(メタデータ) (2026-01-15T08:50:57Z) - Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-11-03T14:27:00Z) - ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。
リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-02T21:42:35Z) - Bidirectional Awareness Induction in Autoregressive Seq2Seq Models [47.82947878753809]
双方向認識誘導(BAI)は、ネットワーク内の要素のサブセットであるPivotsを利用して、自己回帰的制約を破ることなく双方向学習を行う訓練手法である。
特に,イメージキャプションでは2.4CIDEr,ニューラルマシン翻訳では4.96BLEU,テキスト要約では1.16ROUGEの増加が確認された。
論文 参考訳(メタデータ) (2024-08-25T23:46:35Z) - Towards Automated Identification of Violation Symptoms of Architecture Erosion [2.915855887948474]
本稿では,コードレビューにおける開発者の議論から,違反症状の自動識別について検討する。
我々は,事前学習した単語埋め込みを用いた15の機械学習に基づく分類器を開発し,コードレビューのコメントで評価した。
その結果, word2vec を用いた SVM は F1 スコア 0.779 で最高の ML/DL 性能を示した。
論文 参考訳(メタデータ) (2023-06-14T16:20:59Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Anomaly Detection in Video via Self-Supervised and Multi-Task Learning [113.81927544121625]
ビデオにおける異常検出は、コンピュータビジョンの問題である。
本稿では,オブジェクトレベルでの自己教師型およびマルチタスク学習を通じて,ビデオ中の異常事象検出にアプローチする。
論文 参考訳(メタデータ) (2020-11-15T10:21:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。