論文の概要: 1GC-7RC: One Graphic Card -- Seven Research Challenges! How Good Are AI Agents at Doing Your Job?
- arxiv url: http://arxiv.org/abs/2605.17046v2
- Date: Tue, 19 May 2026 07:26:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.476214
- Title: 1GC-7RC: One Graphic Card -- Seven Research Challenges! How Good Are AI Agents at Doing Your Job?
- Title(参考訳): 1GC-7RC: 1枚のグラフィックカード - 7つの研究課題!
- Authors: Robin-Nico Kampa, Fabian Deuser, Anna Bößendörfer, Konrad Habel, Norbert Oswald,
- Abstract要約: **1GC-7RC*は、言語モデリング、画像分類、セマンティックセグメンテーション、グラフ学習、テキスト分類にまたがる7つのMLタスクのベンチマークである。
各タスクは、ベースライントレーニングスクリプトとともに、ロックされたデータ準備および評価スクリプトを提供する。
ベンチマーク、ハーネス、すべての評価アーティファクトはGitHubで公開されている。
- 参考スコア(独自算出の注目度): 7.781391987352844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous AI coding agents are becoming a core tool for ML practitioners in industry and research alike. Despite this growing adoption, no standardized benchmark exists to evaluate their ability to design, implement, and train models from scratch across diverse domains. We introduce **1GC-7RC** (*Single Graphic Card: Seven Research Challenges*), a benchmark comprising seven ML tasks spanning language modeling, image classification, semantic segmentation, graph learning, tabular prediction, time-series forecasting, and text classification. Each task provides a locked data-preparation and evaluation script together with a baseline training script; the agent may only modify the training code, has no access to pretrained weights (with one controlled exception for semantic segmentation), no internet access, and must complete each task within a task-specific wall-clock budget (40-120 minutes) on a single GPU. We evaluate seven coding agents: five proprietary (Claude Code with Sonnet 4.6, Opus 4.6, and Opus 4.7; Codex CLI with GPT 5.5; and OpenCode with Qwen 3.6+) and two open-source (OpenCode with Kimi K2.5, Kimi K2.6). Across 5 runs per agent-task pair, we report substantial performance differences that reveal varying levels of implicit ML knowledge, planning ability, and time-budget management. The benchmark, harness, and all evaluation artifacts are publicly available on GitHub at https://github.com/Strolchii/1GC-7RC-Benchmark to facilitate reproducible comparison of future agents. Because our benchmark design is modular, the benchmark can be extended to new tasks and domains, adapted to different GPU budgets, and used to study multi-agent settings, making it a flexible platform for future research on autonomous research agents.
- Abstract(参考訳): 自律的なAIコーディングエージェントは、業界や研究におけるML実践者の中核的なツールになりつつある。
この採用の増加にもかかわらず、さまざまなドメインでスクラッチからモデルを設計、実装、トレーニングする能力を評価するための標準ベンチマークは存在しない。
言語モデリング、画像分類、セマンティックセグメンテーション、グラフ学習、表形式予測、時系列予測、テキスト分類にまたがる7つのMLタスクからなるベンチマークである**1GC-7RC*(*Single Graphic Card: Seven Research Challenges*)を紹介する。
各タスクは、ベースラインのトレーニングスクリプトとともにロックされたデータ準備および評価スクリプトを提供する。エージェントはトレーニングコードのみを変更し、事前訓練された重み付けへのアクセス(セマンティックセグメンテーションの制御された例外が1つある)がなく、インターネットアクセスがなく、1つのGPU上でタスク固有のウォールクロック予算(40-120分)でタスクを完了しなければならない。
5つのプロプライエタリなコーディングエージェント(Sonnet 4.6、Opus 4.6、Opus 4.7、GPT 5.5のCodex CLI、Qwen 3.6+のOpenCode)と2つのオープンソース(Kim K2.5、Kim K2.6のOpenCode)を評価します。
エージェントとタスクのペア毎に5回にわたって実行し、暗黙的なML知識、計画能力、時間予算管理のレベルが異なるパフォーマンスの違いを報告します。
ベンチマーク、ハーネス、すべての評価アーティファクトは、将来のエージェントの再現可能な比較を容易にするために、https://github.com/Strolchii/1GC-7RC-BenchmarkでGitHubで公開されている。
ベンチマーク設計はモジュール化されているため、ベンチマークは新たなタスクやドメインに拡張でき、GPU予算に適合し、マルチエージェント設定の研究に使用される。
関連論文リスト
- WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation [88.10947115397971]
この研究でWildClawBenchは、6つのテーマのカテゴリにまたがる60の人間によるバイリンガルなマルチモーダルタスクのネイティブランタイムベンチマークである。
各タスクは、約8分間のウォールクロック時間と20以上のツールコールで実行されます。
グラディングはハイブリッドであり、決定論的ルールベースのチェック、副作用の環境状態監査、意味的検証のためのLLM/VLM判定を組み合わせている。
論文 参考訳(メタデータ) (2026-05-11T17:49:43Z) - AlphaLab: Autonomous Multi-Agent Research Across Optimization Domains with Frontier LLMs [14.167136550376497]
計算集約ドメインの完全な実験サイクルを自動化する自律的な研究ハーネスであるAlphaLabを紹介する。
ドメインに適応し、データを探索し、分析コードを書き、研究レポートを作成する。
Strategist/Workerループを通じて大規模な実験を実行し、永続的なプレイブックでドメイン知識を蓄積する。
論文 参考訳(メタデータ) (2026-03-31T21:16:20Z) - SWE-Bench Mobile: Can Large Language Model Agents Develop Industry-Level Mobile Applications? [21.241252187534055]
SWE-Bench Mobileは、実運用iOSから派生した現実的なソフトウェアエンジニアリングタスクのコーディングエージェントを評価するためのベンチマークである。
孤立した問題やバグ修正に焦点を当てた既存のベンチマークとは異なり、SWE-Bench Mobileは産業開発における完全な複雑さを捉えている。
論文 参考訳(メタデータ) (2026-02-10T08:51:11Z) - Multi-Agent Systems for Dataset Adaptation in Software Engineering: Capabilities, Limitations, and Future Directions [8.97512410819274]
本稿では,データセット適応タスクにおいて,最先端のマルチエージェントシステムがどのように機能するかについて,最初の実証的研究を行う。
我々は、GitHub Copilotを評価し、ROCODEやLogHub2.0といったベンチマークリポジトリからSE研究成果物を適用する。
その結果、現在のシステムはキーファイルを識別し、部分的な適応を生成することができるが、正しい実装を生成することは滅多にない。
論文 参考訳(メタデータ) (2025-11-26T13:26:11Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Tonic: A Deep Reinforcement Learning Library for Fast Prototyping and
Benchmarking [4.721069729610892]
ディープラーニングは、ここ数年で急速に成長している機械学習の分野のひとつであり、研究を支援するために多くのライブラリがオープンソース化されている。
本稿では、PythonライブラリであるTonicを紹介し、研究者が新しいアイデアを迅速に実装し、その重要性を測ることを可能にする。
論文 参考訳(メタデータ) (2020-11-15T14:10:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。