論文の概要: Cross-domain benchmarks reveal when coordinated AI agents improve scientific inference from partial evidence
- arxiv url: http://arxiv.org/abs/2605.22300v1
- Date: Thu, 21 May 2026 10:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.215998
- Title: Cross-domain benchmarks reveal when coordinated AI agents improve scientific inference from partial evidence
- Title(参考訳): AIエージェントが部分的証拠から科学的推論を改善するときのクロスドメインベンチマーク
- Authors: Fiona Y. Wong, Markus J. Buehler,
- Abstract要約: コーディネートされたAIエージェントが、より単純な科学的証明タスクよりも価値を付加するかどうかを評価する。
例えば、分子構造を音楽表現にマッピングし、科学における歴史的パラダイムシフトを検知し、トランジット・太陽系外惑星候補を審査する。
結果: 異なる分野がそれぞれ現象の一部のみを捕捉すると, クロスチャネルコンポジットは単一チャネルベースラインよりも改善する。
- 参考スコア(独自算出の注目度): 1.1458853556386797
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scientific evidence often spans instruments, databases, and disciplines, so no single source records the full phenomenon. This makes it difficult to determine when coordinated AI agents add value over simpler scientific workflows. We evaluate this question with a cross-domain benchmark spanning four scientific tasks: mapping molecular structure into musical representations, detecting historical paradigm shifts in science, identifying vector-borne disease emergence, and vetting transiting-exoplanet candidates. Each case uses a frozen evaluation panel, predefined scoring protocols, explicit baselines, ablations or null controls, and stated limitations. The results define three operating regimes. When different disciplines each capture only part of the phenomenon, cross-channel composites improve over single-channel baselines: climate-vector emergence reaches AUROC 0.944 and exoplanet vetting reaches AUROC 0.955. However, the exoplanet workflow is effectively tied with a strong combined-summary baseline, showing that decomposition does not always improve top-line performance. When one signal dominates, as in paradigm-shift detection, coordination mainly improves interpretation and traceability. For molecular sonification, the gain is representational rather than predictive. ScienceClaw x Infinite provides the auditable artifact and provenance layer for this evaluation. The benchmark therefore assigns value to coordination only when the corresponding performance, provenance, or representation claim is supported by explicit comparators.
- Abstract(参考訳): 科学的証拠は、しばしば楽器、データベース、規律にまたがっており、単一の情報源が完全な現象を記録することはない。
これにより、単純な科学的ワークフローよりも、コーディネートされたAIエージェントがいつ価値を付加するかを決定するのが難しくなる。
分子構造を音楽表現にマッピングすること、科学における歴史的パラダイムシフトを検出すること、ベクター病の発生を同定すること、トランジット・トランジット・太陽系外惑星候補を検証すること、の4つの科学的課題を網羅したクロスドメイン・ベンチマークを用いて、この問題を評価する。
各ケースは、凍結評価パネル、事前定義されたスコアリングプロトコル、明示的なベースライン、アブレーションまたはヌルコントロール、および記述された制限を使用する。
結果は3つの運営体制を定めている。
AUROC 0.944、AUROC 0.955、AUROC 0.955、AUROC 0.955、AUROC 0.955、AUROC 0.955。
しかしながら、外惑星のワークフローは、強大な組み合わせのベースラインと効果的に結びついており、分解が必ずしもトップライン性能を改善するとは限らないことを示している。
1つの信号が支配的になると、パラダイムシフト検出のように、コーディネーションは主に解釈とトレーサビリティを改善する。
分子音化では、利得は予測よりも表現的である。
ScienceClaw x Infiniteはこの評価のために監査可能なアーティファクトと証明層を提供する。
したがって、ベンチマークは、対応するパフォーマンス、証明、表現クレームが明示的なコンパレータによってサポートされている場合にのみ、調整に値を割り当てる。
関連論文リスト
- Beyond Binary Success: A Diagnostic Meta-Evaluation Framework for Fine-Grained Manipulation [98.79811866787263]
診断メタ評価フレームワークであるMetaFineを紹介する。
局所的な空間構造を保存できる視覚エンコーダの能力は,きめ細かな精度の鍵となるボトルネックである。
評価をランキングから診断にシフトすることで、MetaFineは、ベンチマークを実際の物理デキスタリティに基づく階層化された能力の修復のための実行可能なコンパスに変換する。
論文 参考訳(メタデータ) (2026-05-19T15:25:13Z) - Sheaf-Theoretic Transport and Obstruction for Detecting Scientific Theory Shift in AI Agents [0.0]
本稿では,輸送と障害物による理論シフト候補検出のための有限層理論フレームワークを開発する。
我々は,その言語の拡張からソース言語の変形を分離するために設計された制御されたトランジションカードベンチマーク上で,このフレームワークを評価する。
論文 参考訳(メタデータ) (2026-05-13T18:46:17Z) - How to Interpret Agent Behavior [56.59836196946289]
本稿では,エージェントの動作を実行時に記述・解析するための分類法であるACT*ONOMYを紹介する。
共用語彙を提供することで、ACT*ONOMYは研究者、エージェントデザイナー、エンドユーザーがエージェントの振る舞いをより一貫して解釈するのに役立つ。
論文 参考訳(メタデータ) (2026-05-13T14:52:40Z) - Validation of Whole-Slide Foundation Models for Image Retrieval in TCGA Data [1.834937230572996]
私たちはThe Cancer Genome Atlasの17の臓器と60の診断にまたがる9,387の診断スライドで10のパイプラインをベンチマークした。
方法としては、4つの事前訓練されたスライド基盤モデル、パッチ埋め込みのための注意ベースの多重インスタンス学習(ABMIL)アグリゲータ、パッチレベルの検索がある。
論文 参考訳(メタデータ) (2026-04-28T19:19:53Z) - NeuroTrace: Inference Provenance-Based Detection of Adversarial Examples [1.096626056612224]
Inference Provenance Graphs (IPGs) を用いた推論前駆体分析フレームワークであるNeuroTraceを紹介する。
IPGは、モデルの前方通過中にアクティベーション動作とパラメータ誘起データフローの両方をキャプチャする異種グラフである。
攻撃中, マルチアタック, クロススリート転送設定下での逆例検出のためのIPGベース検出器の評価を行った。
論文 参考訳(メタデータ) (2026-04-15T22:23:40Z) - Autonomous Agents Coordinating Distributed Discovery Through Emergent Artifact Exchange [3.923443951480117]
ScienceClaw + Infiniteは、独立したエージェントが中央調整なしで研究を行う自律的な科学調査の枠組みである。
システムは3つのコンポーネントで構成されている:300以上の科学スキルの相互運用可能なレジストリ、完全な計算系を保存するアーティファクト層、エージェントベースの科学談話のための構造化プラットフォーム。
論文 参考訳(メタデータ) (2026-03-15T10:06:57Z) - RPG-AE: Neuro-Symbolic Graph Autoencoders with Rare Pattern Mining for Provenance-Based Anomaly Detection [0.8373057326694192]
本稿では,グラフオートエンコーダと稀なパターンマイニングを組み合わせた,ニューロシンボリックな異常検出フレームワークを提案する。
異常候補は、観測されたグラフ構造と再構成されたグラフ構造の間のずれによって同定される。
DARPAトランスペアレント・コンピューティング・データセットを用いて提案手法の評価を行い, 異常なパターンの増大が異常なランク付け品質において著しく向上することを示す。
論文 参考訳(メタデータ) (2026-02-03T00:02:37Z) - Degree-Conscious Spiking Graph for Cross-Domain Adaptation [51.58506501415558]
Spiking Graph Networks (SGNs) はグラフ分類において大きな可能性を証明している。
DeSGraDA(Degree-Consicious Spiking Graph for Cross-Domain Adaptation)という新しいフレームワークを紹介する。
DeSGraDAは3つのキーコンポーネントを持つドメイン間の一般化を強化する。
論文 参考訳(メタデータ) (2024-10-09T13:45:54Z) - What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。
本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文 参考訳(メタデータ) (2024-06-04T05:30:16Z) - Optimizing OOD Detection in Molecular Graphs: A Novel Approach with Diffusion Models [71.39421638547164]
本稿では,入力分子と再構成グラフの類似性を比較する補助拡散モデルに基づくフレームワークを用いてOOD分子を検出することを提案する。
IDトレーニングサンプルの再構成に向けた生成バイアスのため、OOD分子の類似度スコアは検出を容易にするためにはるかに低い。
本研究は,PGR-MOOD(PGR-MOOD)とよばれる分子OOD検出のためのプロトタイプグラフ再構成のアプローチを開拓し,3つのイノベーションを生かした。
論文 参考訳(メタデータ) (2024-04-24T03:25:53Z) - Self-Challenging Improves Cross-Domain Generalization [81.99554996975372]
畳み込みニューラルネットワーク(CNN)は、ラベルと相関する支配的特徴を活性化することにより、画像分類を行う。
ドメイン外データに対するCNNの一般化を著しく改善する簡単なトレーニングである自己整合表現(RSC)を導入する。
RSCはトレーニングデータ上で活性化される主要な機能に対して反復的に挑戦し、ラベルと相関する残りの機能を有効にするようネットワークに強制する。
論文 参考訳(メタデータ) (2020-07-05T21:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。