論文の概要: Let the Abyss Stare Back Adaptive Falsification for Autonomous Scientific Discovery
- arxiv url: http://arxiv.org/abs/2603.29045v1
- Date: Mon, 30 Mar 2026 22:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.887045
- Title: Let the Abyss Stare Back Adaptive Falsification for Autonomous Scientific Discovery
- Title(参考訳): Abyssが自律的な科学的発見のために適応的なファルシフィケーションを復活させる
- Authors: Peiran Li, Fangzhou Lin, Shuo Xing, Jiashuo Sun, Dylan Zhang, Siyuan Yang, Chaoqun Ni, Zhengzhong Tu,
- Abstract要約: DASESは、科学評価のためのファルシフィケーション駆動のフレームワークである。
科学的アーティファクトと科学的に許容される反例環境を、固定された科学的契約の下で共同で発展させる。
許容されるファルシフィケーションフロンティアを生き残る最初の候補を特定し、合成発見環境を超えた損失であるFNG-CEを発見する。
- 参考スコア(独自算出の注目度): 23.01447511261604
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Autonomous scientific discovery is entering a more dangerous regime: once the evaluator is frozen, a sufficiently strong search process can learn to win the exam without learning the mechanism the task was meant to reveal. This is the idea behind our title. To let the abyss stare back is to make evaluation actively push against the candidate through adaptive falsification, rather than passively certify it through static validation. We introduce DASES, a falsification-driven framework in which an Innovator, an Abyss Falsifier, and a Mechanistic Causal Extractor co-evolve executable scientific artifacts and scientifically admissible counterexample environments under a fixed scientific contract. In a controlled loss-discovery problem with a single editable locus, DASES rejects artifacts that static validation would have accepted, identifies the first candidate that survives the admissible falsification frontier, and discovers FNG-CE, a loss that transfers beyond the synthetic discovery environment and consistently outperforms CE and CE+L2 under controlled comparisons across standard benchmarks, including ImageNet.
- Abstract(参考訳): 自律的な科学的発見は、より危険な状況に入りつつある。評価者が凍結されると、そのタスクが明らかにしようとするメカニズムを知ることなく、十分に強力な探索プロセスが試験に勝つことを学べる。
これがタイトルの背景にある考え方です。
アビスを振り返らせるには、静的な検証によって受動的に認証するのではなく、適応的なファルシフィケーションによって候補に対して積極的に評価をプッシュする。
本稿では,イノベーター,アビス・ファルシファイア,メカニスティック・カウサル・エクストラクターが,科学的アーティファクトと科学的に許容できる反例環境を,固定された科学的契約の下で共進化させる,ファルシフィケーション駆動のフレームワークであるDASESを紹介する。
単一の編集可能な軌跡を持つ制御された損失発見問題において、DASESは静的検証が受け入れられたであろうアーティファクトを拒絶し、許容されるファルシフィケーションフロンティアを生き残る最初の候補を特定し、FNG-CEを発見した。
関連論文リスト
- Knowing When Not to Answer: Abstention-Aware Scientific Reasoning [2.680633756465714]
科学的条件下では、支持または不確実な結論は、棄権するよりも有害である。
本稿では,この問題に対して,留意点を考慮した検証フレームワークを用いて検討する。
我々はこのフレームワークをSciFactとPubMedQAの2つの科学的ベンチマークで評価した。
論文 参考訳(メタデータ) (2026-02-15T15:29:43Z) - From Fluent to Verifiable: Claim-Level Auditability for Deep Research Agents [8.49451413641847]
研究生成が安価になるにつれて、監査可能性がボトルネックになる、と我々は主張する。
この観点からは,ディープリサーチエージェントの第一級設計および評価対象として,クレームレベルの監査性を提案する。
論文 参考訳(メタデータ) (2026-02-14T19:39:15Z) - Can We Build a Monolithic Model for Fake Image Detection? SICA: Semantic-Induced Constrained Adaptation for Unified-Yet-Discriminative Artifact Feature Space Reconstruction [35.062003602486925]
モノリシックフェイク画像検出(FID)モデルは、実際には一貫して性能が劣っている。
本稿では,最初のモノリシックFIDパラダイムであるSemantic-induced Constrained Adaptation (SICA)を提案する。
SICAは15の最先端のメソッドを上回り、ターゲットの統一されたyet-差別的なアーティファクト特徴空間を再構築する。
論文 参考訳(メタデータ) (2026-02-06T13:03:26Z) - Preventing the Collapse of Peer Review Requires Verification-First AI [49.995126139461085]
我々は、真理結合、すなわち、過度に科学的真理をトラックする場所のスコアの厳密さを提案する。
プロキシ・ソブリン評価に向けた相転移を駆動する2つの力の形式化を行う。
論文 参考訳(メタデータ) (2026-01-23T17:17:32Z) - SciIF: Benchmarking Scientific Instruction Following Towards Rigorous Scientific Intelligence [60.202862987441684]
科学的妥当性を確立する制約に厳格に固執しながら、問題を解決する能力。
具体的には,大学レベルの問題と制約の固定されたカタログをペアにすることで,この能力を評価するマルチディシプリンのベンチマークであるSciIFを紹介する。
SciIFは、解の正当性と多拘束性の両方を測定することにより、構成的推論失敗のきめ細かい診断を可能にする。
論文 参考訳(メタデータ) (2026-01-08T09:45:58Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - MathPhys-Guided Coarse-to-Fine Anomaly Synthesis with SQE-Driven Bi-Level Optimization for Anomaly Detection [30.77558600436759]
本研究では,Math-Physモデル誘導による合成異常を生成する,新しい軽量パイプラインを提案する。
本手法は現実的な欠陥マスクを生成し,その後2段階に拡張した。
本手法を検証するために,MVTec AD, VisA, BTADの3つの異常検出ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2025-04-17T14:22:27Z) - Automated Hypothesis Validation with Agentic Sequential Falsifications [45.572893831500686]
多くの実世界の仮説は抽象的で、直接の検証が難しいハイレベルな主張である。
本稿では,自由形式仮説の厳密な自動検証のためのエージェントフレームワークであるPopperを提案する。
論文 参考訳(メタデータ) (2025-02-14T01:46:00Z) - Generating Scientific Claims for Zero-Shot Scientific Fact Checking [54.62086027306609]
科学言語の複雑さと大量のトレーニングデータが不足しているため、自動科学的事実チェックは困難である。
科学的な文から1つ以上の原子的かつ検証可能なクレームを生成するための科学的クレーム生成を提案する。
また, バイオメディカルクレームのゼロショット事実チェックにも有用であることを示す。
論文 参考訳(メタデータ) (2022-03-24T11:29:20Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。