論文の概要: ConnectomeBench: Can LLMs Proofread the Connectome?
- arxiv url: http://arxiv.org/abs/2511.05542v1
- Date: Fri, 31 Oct 2025 02:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.036894
- Title: ConnectomeBench: Can LLMs Proofread the Connectome?
- Title(参考訳): ConnectomeBench: LLMはConnectomeを前進させることができるか?
- Authors: Jeff Brown, Andrew Kirjner, Annika Vivekananthan, Ed Boyden,
- Abstract要約: ConnectomeBenchは,大規模言語モデル(LLM)の能力を評価するベンチマークで,3つの重要な証明読解タスクについて紹介する。
我々は,Claude 3.7/4 Sonnet, o4-mini, GPT-4.1, GPT-4o, InternVL-3 や NVLM などのオープンソースモデルを含む,プロプライエタリなマルチモーダル LLM の評価を行った。
その結果, セグメント識別において, 現在のモデルが驚くほど高い性能を発揮することが示された。
最高のモデルはまだ専門家のパフォーマンスに遅れを取っているが、最終的にはコネクトロミクスにおける人間の証明読解の強化と置き換えを可能にする有望な能力を実証している。
- 参考スコア(独自算出の注目度): 0.4999814847776097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Connectomics - the mapping of neural connections in an organism's brain - currently requires extraordinary human effort to proofread the data collected from imaging and machine-learning assisted segmentation. With the growing excitement around using AI agents to automate important scientific tasks, we explore whether current AI systems can perform multiple tasks necessary for data proofreading. We introduce ConnectomeBench, a multimodal benchmark evaluating large language model (LLM) capabilities in three critical proofreading tasks: segment type identification, split error correction, and merge error detection. Using expert annotated data from two large open-source datasets - a cubic millimeter of mouse visual cortex and the complete Drosophila brain - we evaluate proprietary multimodal LLMs including Claude 3.7/4 Sonnet, o4-mini, GPT-4.1, GPT-4o, as well as open source models like InternVL-3 and NVLM. Our results demonstrate that current models achieve surprisingly high performance in segment identification (52-82% balanced accuracy vs. 20-25% chance) and binary/multiple choice split error correction (75-85% accuracy vs. 50% chance) while generally struggling on merge error identification tasks. Overall, while the best models still lag behind expert performance, they demonstrate promising capabilities that could eventually enable them to augment and potentially replace human proofreading in connectomics. Project page: https://github.com/jffbrwn2/ConnectomeBench and Dataset https://huggingface.co/datasets/jeffbbrown2/ConnectomeBench/tree/main
- Abstract(参考訳): コネクトミクス(Connectomics)は、生物の脳内の神経接続のマッピングであり、現在、画像から収集されたデータと機械学習支援セグメンテーションを実証するために、特別な人間の努力を必要としている。
AIエージェントを使用して重要な科学的タスクを自動化することに興奮が高まっているため、現在のAIシステムがデータ検証に必要な複数のタスクを実行できるかどうかを調査する。
ConnectomeBenchは大規模言語モデル(LLM)の機能を評価するマルチモーダルベンチマークで,セグメンテーション型識別,分割誤り訂正,マージエラー検出という3つの重要な証明処理を行う。
InternVL-3やNVLMなどのオープンソースモデルと同様に、Claude 3.7/4 Sonnet, o4-mini, GPT-4.1, GPT-4oなどのプロプライエタリなマルチモーダルLCMを評価する。
その結果,従来のモデルではセグメント識別の精度は52~82%,二分選択分割誤り訂正(75~85%,50%)は50%であった。
全体として、最高のモデルはまだ専門家のパフォーマンスに遅れを取っているが、最終的にはコネクトロミクスにおける人間の証明読取を置き換えることができる有望な能力を実証している。
プロジェクトページ: https://github.com/jffbrwn2/ConnectomeBench and Dataset https://huggingface.co/datasets/jeffbbrown2/ConnectomeBench/tree/main
関連論文リスト
- Performance of Machine Learning Classifiers for Anomaly Detection in Cyber Security Applications [0.1601392577755919]
この研究は、2つの不均衡なパブリックデータセット上の機械学習モデルを実証的に評価する。
テスト対象はeXtreme Gradient Boosting (XGB) と Multi Layer Perceptron (MLP) である。
IterativeImputerの結果は平均値と中央値に匹敵するが、複雑性と実行時間の増加のために大規模なデータセットには推奨されない。
論文 参考訳(メタデータ) (2025-04-26T02:43:27Z) - APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。
xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。
我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文 参考訳(メタデータ) (2025-04-04T17:13:57Z) - GeoBenchX: Benchmarking LLMs in Agent Solving Multistep Geospatial Tasks [0.11458853556386796]
本稿では,大規模言語モデル(LLM)のツールコール能力を評価するためのベンチマークを確立する。
我々は,23の地理空間機能を備えた簡易なツールコールエージェントを用いて,8種類の商用LCM (Claude Sonnet 3.5, 4, Claude Haiku 3.5, Gemini 2.0 Flash, Gemini 2.5 Pro Preview, GPT-4o, GPT-4.1, o4-mini) を評価した。
OpenAIのGPT-4.1、GPT-4o、GoogleのGemini 2.5 Pro Previewはそれほど遅れていないが、最後の2つはより効率的である。
論文 参考訳(メタデータ) (2025-03-23T16:20:14Z) - Exploring LLM Agents for Cleaning Tabular Machine Learning Datasets [19.844836459291546]
高品質でエラーのないデータセットは、信頼性、正確、偏見のない機械学習(ML)モデルを構築する上で重要な要素である。
しかし、実世界のデータセットは、センサーの故障、データ入力ミス、複数のソースにわたる不適切なデータ統合によるエラーに悩まされることが多い。
本研究では,Large Language Models (LLMs) が手作業によるデータクリーニングの負担軽減に有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-03-09T15:29:46Z) - Explainable AI for Comparative Analysis of Intrusion Detection Models [20.683181384051395]
本研究は,ネットワークトラフィックから侵入検出を行うために,各種機械学習モデルを二分分類および多クラス分類のタスクに解析する。
すべてのモデルをUNSW-NB15データセットで90%の精度でトレーニングしました。
また、Random Forestは正確さ、時間効率、堅牢性という点で最高のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2024-06-14T03:11:01Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Contextual-Bandit Anomaly Detection for IoT Data in Distributed
Hierarchical Edge Computing [65.78881372074983]
IoTデバイスは複雑なディープニューラルネットワーク(DNN)モデルにはほとんど余裕がなく、異常検出タスクをクラウドにオフロードすることは長い遅延を引き起こす。
本稿では,分散階層エッジコンピューティング(HEC)システムを対象とした適応型異常検出手法のデモと構築を行う。
提案手法は,検出タスクをクラウドにオフロードした場合と比較して,精度を犠牲にすることなく検出遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2020-04-15T06:13:33Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。