論文の概要: Plausible but Wrong: A case study on Agentic Failures in Astrophysical Workflows
- arxiv url: http://arxiv.org/abs/2604.25345v1
- Date: Tue, 28 Apr 2026 08:01:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.767227
- Title: Plausible but Wrong: A case study on Agentic Failures in Astrophysical Workflows
- Title(参考訳): プラルーシブルだが間違っていた: 天体物理学的ワークフローにおけるエージェント障害の事例研究
- Authors: Shivam Rawat, Lucie Flek,
- Abstract要約: CMBAgentを2つのワークフローパラダイムと18の天体物理タスクで評価した。
One-Shot設定では、ドメイン固有のコンテキストへのアクセスは、およそ6倍のパフォーマンス向上をもたらす。
ディープ・リサーチ・セッティングでは、このシステムはストレステスト全体でサイレント障害をしばしば示し、身体的に矛盾した後部を自己診断なしで生成する。
- 参考スコア(独自算出の注目度): 10.078675569996992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic AI systems are increasingly being integrated into scientific workflows, yet their behavior under realistic conditions remains insufficiently understood. We evaluate CMBAgent across two workflow paradigms and eighteen astrophysical tasks. In the One-Shot setting, access to domain-specific context yields an approximately ~6x performance improvement (0.85 vs. ~0 without context), with the primary failure mode being silent incorrect computation - syntactically valid code that produces plausible but inaccurate results. In the Deep Research setting, the system frequently exhibits silent failures across stress tests, producing physically inconsistent posteriors without self-diagnosis. Overall, performance is strong on well-specified tasks but degrades on problems designed to probe reasoning limits, often without visible error signals. These findings highlight that the most concerning failure mode in agentic scientific workflows is not overt failure, but confident generation of incorrect results. We release our evaluation framework to facilitate systematic reliability analysis of scientific AI agents.
- Abstract(参考訳): エージェントAIシステムは、科学的なワークフローにますます統合されているが、現実的な条件下での動作は、まだ十分に理解されていない。
CMBAgentを2つのワークフローパラダイムと18の天体物理タスクで評価した。
One-Shotの設定では、ドメイン固有のコンテキストへのアクセスは、約6倍のパフォーマンス向上(0.85対0.80)をもたらす。
ディープ・リサーチ・セッティングでは、このシステムはストレステスト全体でサイレント障害をしばしば示し、身体的に矛盾した後部を自己診断なしで生成する。
全体としては、性能は明確に定義されたタスクでは強いが、しばしば可視的エラー信号なしで、推論限界を探索するように設計された問題では低下する。
これらの結果から, エージェント科学ワークフローにおける障害モードは, 過度な失敗ではなく, 確実な不正な結果の発生であることがわかった。
我々は、科学的AIエージェントの系統的信頼性分析を容易にするための評価フレームワークをリリースする。
関連論文リスト
- No Test Cases, No Problem: Distillation-Driven Code Generation for Scientific Workflows [5.470408942595905]
我々は、I/Oの監督なしに、科学コード生成のためのトレーニング不要なマルチエージェントフレームワークMOSAICを紹介する。
実行フィードバックの代わりに、MOSAICは、ドメイン固有の例と構造化された問題分解による生成を基盤とする、学生-教師の知識蒸留フレームワークを採用している。
SciCodeベンチマークの実験によると、MOSAICは軽量モデルに依存しながら既存のアプローチよりも精度、実行可能性、数値的精度を向上させる。
論文 参考訳(メタデータ) (2026-04-25T02:01:54Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - AI scientists produce results without reasoning scientifically [3.100302590436282]
大規模言語モデル(LLM)ベースのシステムは、科学的研究を自律的に行うためにますます多くデプロイされている。
そこで本研究では,8つの領域にまたがるLSMに基づく科学的エージェントの評価を行い,その実行と仮説に基づく調査を行った。
論文 参考訳(メタデータ) (2026-04-20T20:23:42Z) - OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language Environment Simulation [57.505743202759646]
OccuBenchは10の業界カテゴリと65の専門ドメインにわたる100の現実のプロフェッショナルタスクシナリオをカバーするベンチマークである。
我々のマルチエージェント合成パイプラインは, 可溶性, 校正困難, 文書基底の多様性を保証した評価インスタンスを自動生成する。
論文 参考訳(メタデータ) (2026-04-13T00:27:32Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Why Do AI Agents Systematically Fail at Cloud Root Cause Analysis? [1.0966260566122241]
大規模なクラウドシステムの障害は、かなりの財政的損失をもたらします。
大規模言語モデル(LLM)エージェントを活用した根本原因分析(RCA)の自動化
本稿では,LCMをベースとしたRCAエージェントのプロセスレベルの故障解析について述べる。
論文 参考訳(メタデータ) (2026-02-10T16:14:05Z) - When Benign Inputs Lead to Severe Harms: Eliciting Unsafe Unintended Behaviors of Computer-Use Agents [90.05202259420138]
意図しないコンピュータ利用エージェントは、良質な入力コンテキストの下でも期待された結果から逸脱することができる。
意図しないCUA行動に対する最初の概念的および方法論的枠組みを紹介する。
本稿では,CUA実行フィードバックを用いた命令を反復的に摂動するエージェントフレームワークであるAutoElicitを提案する。
論文 参考訳(メタデータ) (2026-02-09T03:20:11Z) - BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers? [21.78901120638025]
製造指向の紙生成エージェントがマルチモデルLCMレビューシステムを欺くことができるかどうかを考察する。
我々のジェネレータは、実際の実験を必要としないプレゼンテーション操作戦略を採用している。
健全な集約数学にもかかわらず、整合性検査は体系的に失敗する。
論文 参考訳(メタデータ) (2025-10-20T18:37:11Z) - Uncovering Systemic and Environment Errors in Autonomous Systems Using Differential Testing [9.625308787676286]
本稿では,非好ましくないエージェントの挙動に差分試験を適用する新しいブラックボックステスト手法であるAIProbeを紹介する。
AIProbeは、エージェントのモデルやポリシーのエラーによるものなのか、あるいは解決不可能なタスク条件によるものなのかを識別する。
評価の結果,AIProbeは,総誤差と一意誤差の両方を検出する上で,最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2025-07-05T02:50:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。