論文の概要: Neurodata Without Boredom: Benchmarking Agentic AI for Data Reuse
- arxiv url: http://arxiv.org/abs/2605.12808v2
- Date: Thu, 14 May 2026 01:55:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.384004
- Title: Neurodata Without Boredom: Benchmarking Agentic AI for Data Reuse
- Title(参考訳): ボレドムのない神経データ:データ再利用のためのエージェントAIのベンチマーク
- Authors: Ling-Qi Zhang, Kristin Branson,
- Abstract要約: 神経科学データは、実験室、フォーマット、実験パラダイムで非常に断片化されている。
多様な実験に対応するのに十分なフレキシブルなフォーマットは、自己説明が可能であることは滅多にない。
汎用的なコーディングエージェントは各サブタスクでうまく動作したが、完全にエラーのないエンドツーエンドのソリューションをまとめることはめったにない。
- 参考スコア(独自算出の注目度): 0.1494633072572191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neuroscience data are highly fragmented across labs, formats, and experimental paradigms, and reuse often requires substantial manual effort. A persistent roadblock to data reuse and integration is the need to decipher bespoke and diverse data formatting choices. Common data formats have been proposed in response, but the field continues to struggle with a fundamental tension: formats flexible enough to accommodate diverse experiments are rarely descriptive enough to be self-explanatory, and sufficiently descriptive formats demand detailed documentation and curation effort that few labs can sustain. Agentic AI is a natural candidate to solve this problem: LLMs read code and text faster and with sustained attention to the low-level details humans tend to skim over. To measure how well agentic AI performs on this task, we selected eight recent papers studying large-scale mouse neural population recordings that shared both data and code, spanning diverse recording modalities, behavioral paradigms, and dataset formats (e.g., NWB, specialized APIs, and general-purpose Python or MATLAB files). We provided agents with the data, code, and paper, and prompted them to load, understand, and reformat the data for a common downstream task: training a decoder from neural activity to task or behavioral variables. General-purpose coding agents commonly used by scientists performed well on each sub-task, but rarely strung together a fully error-free end-to-end solution. We characterize the types of mistakes agents made and the dataset properties that elicited them, and propose data-sharing best practices for the agentic-AI era. We further find that agents-as-judges are unreliable at catching errors, especially without ground-truth references, so interactive, human-in-the-loop coding remains necessary.
- Abstract(参考訳): 神経科学データは、実験室、フォーマット、実験パラダイムにまたがって非常に断片化されており、しばしば再利用にはかなりの手作業が必要である。
データ再利用と統合に対する永続的な障害は、Bespokeとさまざまなデータフォーマットの選択を解読する必要があることだ。
多様な実験に対応するのに十分なフレキシブルなフォーマットは、自己説明可能なほど説明に富むことは滅多になく、十分に記述的なフォーマットは、少数の研究室が維持できる詳細なドキュメントとキュレーションの努力を必要とする。
エージェントAIは、この問題を解決するための自然な候補である: LLMはコードとテキストの読み込みを速くし、人間がスキップする傾向がある低レベルの詳細に注意を払っている。
このタスクにおいてエージェントAIがいかにうまく機能するかを測定するため、我々は、データとコードの両方を共有し、多様な記録モダリティ、行動パラダイム、データセットフォーマット(NWB、特殊API、汎用PythonまたはMATLABファイルなど)にまたがる大規模なマウス神経集団記録を研究する8つの論文を選択した。
私たちはエージェントにデータ、コード、紙を提供し、共通の下流タスクのためにデータをロードし、理解し、再フォーマットするように促しました。
科学者が一般的に使用する汎用コーディングエージェントは、各サブタスクでよく機能するが、完全にエラーのないエンドツーエンドのソリューションをまとめることは滅多にない。
我々は,エージェントが犯したミスの種類とそれらを引き出すデータセット特性を特徴付け,エージェントAI時代のデータ共有ベストプラクティスを提案する。
さらに、エージェント・アズ・ジャッジは、特に地道な参照を伴わずにエラーをキャッチできないため、対話的かつ人道的なコーディングは依然として必要である。
関連論文リスト
- Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents [85.02904078131682]
本稿では,エージェントデータセット間の"インターリングア"として機能する軽量表現言語であるエージェントデータプロトコル(ADP)を紹介する。
ADPはAPI/ツールの使用、ブラウジング、コーディング、ソフトウェアエンジニアリング、一般的なエージェントなど、さまざまなタスクを捉えるのに十分な表現力を持っている。
すべてのコードとデータが公開され、ADPが標準化され、スケーラブルで再現可能なエージェントトレーニングの障壁を低くすることを期待している。
論文 参考訳(メタデータ) (2025-10-28T17:53:13Z) - SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文 参考訳(メタデータ) (2025-09-12T02:53:57Z) - The AI Data Scientist [4.565386491002663]
AI Data Scientistは、大規模言語モデル(LLM)を利用した自律エージェントである
単にコードを書くか、プロンプトに応答するのではなく、質問を通じて理由付け、アイデアをテストし、エンドツーエンドの洞察を提供する。
AI Data Scientistの中核には、特殊なLLMサブエージェントのチームがある。
論文 参考訳(メタデータ) (2025-08-25T15:21:49Z) - STORM-BORN: A Challenging Mathematical Derivations Dataset Curated via a Human-in-the-Loop Multi-Agent Framework [25.911928883289512]
STORM-BORN(STORM-BORN)は、最先端の学術論文から得られた数学的導出の超混成データセットである。
2,000種類の合成試料をキュレートし,最も難しい問題100点を意図的に選択した。
STORM-BORNの微調整により精度は7.84%(LLaMA3-8B)と9.12%(Qwen2.5-7B)向上する
論文 参考訳(メタデータ) (2025-06-02T10:48:49Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
不完全なドキュメンテーション、不正確なラベル、倫理的懸念、時代遅れの情報といったデータ品質問題は、広く使われているデータセットで共通している。
大きな言語モデル(LLM)の急増する能力により、LLMエージェントによる隠れデータセット問題の発見の合理化が約束されている。
本研究では,この課題に対処するLLMエージェントの能力を評価するためのベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - MultiADE: A Multi-domain Benchmark for Adverse Drug Event Extraction [11.458594744457521]
アクティブな有害事象監視は、異なるデータソースからの逆薬物イベント(ADE)を監視する。
ほとんどのデータセットや共有タスクは、特定のタイプのテキストからADEを抽出することに焦点を当てている。
ドメインの一般化 - 新しい、目に見えないドメイン(テキストタイプ)でうまく機能する機械学習モデルの能力は、まだ解明されていない。
我々はMultiADEと名づけた有害薬物イベント抽出のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2024-05-28T09:57:28Z) - Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled
Datasets [73.2096288987301]
オフラインでラベル付けされていないデータセットから、少量のダウンストリーム専門家データを用いて、関連する振る舞いを選択的にクエリする簡単なアプローチを提案する。
提案手法では,タスクへの関連する遷移のみを問合せし,サブ最適データやタスク非関連データをフィルタリングする。
我々の単純なクエリ手法は、画像からシミュレーションされた実際のロボット操作タスクに対して、より複雑な目標条件の手法よりも20%優れています。
論文 参考訳(メタデータ) (2023-04-18T05:42:53Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。