論文の概要: The Case for Model Science: Verify, Explore, Steer, Refine
- arxiv url: http://arxiv.org/abs/2606.01189v1
- Date: Sun, 31 May 2026 12:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.372263
- Title: The Case for Model Science: Verify, Explore, Steer, Refine
- Title(参考訳): モデルサイエンスのケース:検証、探索、ステア、再定義
- Authors: Przemyslaw Biecek, Luca Longo, Jianlong Zhou, Thomas Fel, Andreas Holzinger, Wojciech Samek,
- Abstract要約: 複雑なAIモデルは今や何十億ものユーザーに役立ちますが、それらがどのように機能するかについての私たちの理解は、デプロイする能力よりもはるかに遅れています。
私たちは、AIコミュニティが、モデル分析における散在する取り組みを、モデルサイエンスと呼ばれる体系的な規律にまとめる準備が整っていると論じています。
- 参考スコア(独自算出の注目度): 33.29513243549132
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We argue that the AI community is now ready to move beyond benchmarking and consolidate scattered efforts in model analysis into a systematic discipline, a direction we term Model Science. Complex AI models now serve billions of users, yet our understanding of how they work lags far behind our ability to deploy them. Decades of benchmark-driven research have delivered remarkable progress: extensive leaderboards, a wide range of performance metrics, tracking capability gains across diverse tasks; yet this success has also revealed the limits of benchmarks as they tell us whether models perform but not why they succeed or fail, they miss critical failure modes, such as hallucinations or shortcuts. Precedents from established sciences point the way forward: cognitive science shows that understanding complex systems requires complementary levels of analysis; neuroscience demonstrates that deep study of single cases reveals what population studies miss; medicine teaches that specialised training must develop alongside research practice; and agriculture models how shared infrastructure and principles enable cumulative progress. These lessons inform three foundations for Model Science. First, we propose to consolidate research around four functional perspectives: Verify, Explore, Steer, and Refine that address complementary questions about model behaviour. Second, we discuss the required infrastructure for cumulative knowledge: catalogues of datasets, models and findings. Third, we highlight the need for deep analysis of individual model instances, not just model families, because single cases can reveal what population studies miss.
- Abstract(参考訳): 私たちは、AIコミュニティが、モデル分析における散在する取り組みを、モデルサイエンスと呼ばれる体系的な規律へと、ベンチマークを超えて統合する準備が整っていると論じています。
複雑なAIモデルは今や何十億ものユーザーに役立ちますが、それらがどのように機能するかについての私たちの理解は、デプロイする能力よりもはるかに遅れています。
広範なリーダボード、幅広いパフォーマンス指標、さまざまなタスク間でのトラッキング能力の向上 この成功は、モデルが機能するかどうか、なぜ失敗するのか、そして幻覚やショートカットのような重要な障害モードを見逃す、というベンチマークの限界を明らかにした。
認知科学は、複雑なシステムを理解するには相補的なレベルの分析を必要とすることを示し、神経科学は、単一のケースの深い研究は、人口研究が何を損なうかを明らかにすることを示し、医学は、専門の訓練が研究の実践と共に発展しなければならないことを示し、そして、共有インフラと原則が累積的な進歩を実現する方法の農業モデルである。
これらの教訓はモデルサイエンスの3つの基礎となる。
まず、モデルの振る舞いに関する補完的な問題に対処する、検証、探索、ステア、Refineの4つの機能的な観点に関する研究を統合することを提案する。
第二に、累積的知識に必要なインフラ、すなわちデータセット、モデル、発見のカタログについて論じる。
第3に、モデルファミリーだけでなく、個々のモデルインスタンスの深い分析の必要性を強調します。
関連論文リスト
- Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond [209.35045331678043]
2つの軸に沿って組織された「レベルx法」の分類を導入します。
第一に、3つの能力レベルを定義している: 1段階の局所遷移演算子を学ぶL1 Predictor、それらをドメインの法則を尊重する多段階のアクション条件付きロールアウトに構成するL2 Simulator、新しいエビデンスに対して予測が失敗すると自己のモデルを自動で修正するL3 Evolver。
我々は400以上の作品を合成し、モデルに基づく強化学習、ビデオ生成、WebおよびGUIエージェント、マルチエージェント社会シミュレーション、AIによる科学的発見にまたがる100以上の代表システムを要約する。
論文 参考訳(メタデータ) (2026-04-24T17:48:47Z) - Do We Need Bigger Models for Science? Task-Aware Retrieval with Small Language Models [4.049850026698638]
既存の学者のアシスタントの多くは、数十億から数百億のパラメータを持つプロプライエタリなシステムに依存している。
我々は,タスク認識型ルーティングを行う軽量な検索拡張フレームワークを設計し,特定の検索戦略を選択する。
このフレームワークは、フルテキストの科学論文と構造化された学術メタデータのエビデンスを統合し、コンパクトな命令チューニング言語モデルを使用して、引用による応答を生成する。
論文 参考訳(メタデータ) (2026-04-02T12:28:51Z) - A Survey on Generative Model Unlearning: Fundamentals, Taxonomy, Evaluation, and Future Direction [21.966560704390716]
我々はジェネレーティブ・モデル・アンラーニング(GenMU)に関する最近の研究についてレビューする。
本研究では,未学習目標,方法論的戦略,評価指標を分類するための統合分析フレームワークを提案する。
実世界のアプリケーションにおける非学習技術の潜在的な実用的価値を強調した。
論文 参考訳(メタデータ) (2025-07-26T09:49:57Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Large Language Models for Scholarly Ontology Generation: An Extensive Analysis in the Engineering Field [0.0]
本稿では,異なる研究トピック間の意味的関係を識別する大規模モデルの能力について分析する。
我々はそのタスクを評価するためにIEEE Thesaurusに基づく金の標準を開発した。
Mixtral-8x7B、Dolphin-Mistral、Claude 3-7Bなど、いくつかの優れた結果が得られた。
論文 参考訳(メタデータ) (2024-12-11T10:11:41Z) - Learning-based Models for Vulnerability Detection: An Extensive Study [3.1317409221921144]
我々は、最先端の学習ベースアプローチの2つのタイプを広範かつ包括的に調査する。
本稿では,シーケンスベースモデルの優先度と,グラフベースモデルの限定能力について実験的に検証する。
論文 参考訳(メタデータ) (2024-08-14T13:01:30Z) - Recognizing Identities From Human Skeletons: A Survey on 3D Skeleton Based Person Re-Identification [60.939250172443586]
3Dスケルトンによる人物の再同定は、パターン認識コミュニティ内で注目を集める重要な研究分野である。
近年のSRID進歩の総合的なレビューと分析を行っている。
様々なベンチマークやプロトコルを用いて、最先端のSRID手法の徹底的な評価を行い、その有効性と効率性を比較した。
論文 参考訳(メタデータ) (2024-01-27T04:52:24Z) - Generative Models as a Complex Systems Science: How can we make sense of
large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。
言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文 参考訳(メタデータ) (2023-07-31T22:58:41Z) - On the Opportunities and Risks of Foundation Models [256.61956234436553]
これらのモデルの基礎モデルは、批判的に中心的だが不完全な性格を根底から立証するものです。
本報告では,基礎モデルの可能性とリスクについて概説する。
これらの疑問に対処するためには、基礎モデルに関する重要な研究の多くは、深い学際的なコラボレーションが必要であると信じている。
論文 参考訳(メタデータ) (2021-08-16T17:50:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。