論文の概要: Towards Foundation Models: Evaluation of Geoscience Artificial Intelligence with Uncertainty
- arxiv url: http://arxiv.org/abs/2501.14809v1
- Date: Wed, 15 Jan 2025 16:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-02 21:31:26.811642
- Title: Towards Foundation Models: Evaluation of Geoscience Artificial Intelligence with Uncertainty
- Title(参考訳): 基礎モデルに向けて:不確実性を考慮した地球科学人工知能の評価
- Authors: Samuel Myren, Nidhi Parikh, Rosalyn Rael, Garrison Flynn, Dave Higdon, Emily Casleton,
- Abstract要約: Geoscience Foundation Model(FM)は、ワークフロー内で複数のタスクを達成またはワークフローを完全に置き換えることを約束する。
我々は,パフォーマンスの不確実性,学習効率,重なり合うトレーニングテストデータなどを共同で組み込んだ評価フレームワークを設計する。
我々のフレームワークは,トレーニングデータの様々な予算で,モデルの性能を明示的に分析することによって,実践者が自身の問題に対して最適なモデルを選択し,パフォーマンスの期待値を設定するのに役立ちます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial intelligence (AI) has transformed the geoscience community with deep learning models (DLMs) that are trained to complete specific tasks within workflows. This success has led to the development of geoscience foundation models (FMs), which promise to accomplish multiple tasks within a workflow or replace the workflow altogether. However, lack of robust evaluation frameworks, even for traditional DLMs, leaves the geoscience community ill prepared for the inevitable adoption of FMs. We address this gap by designing an evaluation framework that jointly incorporates three crucial aspects to current DLMs and future FMs: performance uncertainty, learning efficiency, and overlapping training-test data splits. To target the three aspects, we meticulously construct the training, validation, and test splits using clustering methods tailored to geoscience data and enact an expansive training design to segregate performance uncertainty arising from stochastic training processes and random data sampling. The framework's ability to guard against misleading declarations of model superiority is demonstrated through evaluation of PhaseNet, a popular seismic phase picking DLM, under 3 training approaches. Furthermore, we show how the performance gains due to overlapping training-test data can lead to biased FM evaluation. Our framework helps practitioners choose the best model for their problem and set performance expectations by explicitly analyzing model performance at varying budgets of training data.
- Abstract(参考訳): 人工知能(AI)は、ワークフロー内で特定のタスクを完了させるために訓練されたディープラーニングモデル(DLM)で、地球科学コミュニティを変革した。
この成功は、ワークフロー内で複数のタスクを達成したり、ワークフローを完全に置き換えることを約束する地球科学基礎モデル(FM)の開発につながった。
しかし、従来のDLMでさえ、堅牢な評価フレームワークが欠如しているため、地球科学コミュニティは必然的にFMを採用する準備が整ったままである。
我々は、現在のDLMと将来のFMの3つの重要な側面、すなわちパフォーマンスの不確実性、学習効率、重なり合うトレーニングとテストのデータ分割を共同で組み込んだ評価フレームワークを設計することで、このギャップに対処する。
これら3つの側面を念頭に置いて, 地理データに適したクラスタリング手法を用いて, 学習, 検証, テスト分割を慎重に構築し, 確率的トレーニングプロセスとランダムデータサンプリングから生じるパフォーマンスの不確実性を分離する拡張トレーニング設計を実践する。
モデル優越性の誤解を招く宣言に対するフレームワークの防御能力は,3つのトレーニング手法の下で,一般的な位相選択型DLMであるフェイズネットの評価によって実証される。
さらに,トレーニングテストデータの重複による性能向上がFM評価のバイアスの原因となることを示す。
我々のフレームワークは,トレーニングデータの様々な予算で,モデルの性能を明示的に分析することによって,実践者が自身の問題に対して最適なモデルを選択し,パフォーマンスの期待値を設定するのに役立ちます。
関連論文リスト
- Rethinking BPS: A Utility-Based Evaluation Framework [6.590869939300887]
BPSモデルを評価するための最先端のアプローチには2つの重要な制限がある。
シミュレーションを予測問題として扱い、モデルが目に見えない未来の事象を予測できるかどうかをテストする。
代表的なプロセスの振る舞いを生成する能力に基づいて,シミュレーション品質を評価する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T13:00:52Z) - DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks [40.91931801667421]
本稿では,ベイズ最適化を用いたデータ選択手法を組み込むことで,フィードバックループを活用できるDUETという,グローバル・ローカルなアルゴリズムを提案する。
その結果、DUETは、データドメインのプールから混合したトレーニングデータを効率よく洗練し、目に見えない評価タスクにおけるモデルの性能を最大化することができる。
論文 参考訳(メタデータ) (2025-02-01T01:52:32Z) - Self-Supervised Radio Pre-training: Toward Foundational Models for Spectrogram Learning [6.1339395157466425]
Foundational Deep Learning(DL)モデルは、多種多様で多様なデータセットに基づいてトレーニングされた一般的なモデルである。
本稿では,無線信号を用いた基礎DLモデルの事前学習のための,新しい自己教師型学習手法であるMasked Spectrogram Modelingを紹介する。
論文 参考訳(メタデータ) (2024-11-14T23:56:57Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Refining 3D Point Cloud Normal Estimation via Sample Selection [13.207964615561261]
我々は,グローバルな情報と様々な制約機構を組み込むことにより,正規推定の基本的枠組みを導入し,既存モデルを拡張した。
また,非オブジェクト指向タスクと非オブジェクト指向タスクの両方における最先端性能を達成し,推定された非オブジェクト指向の正規性を補正するために,既存の配向手法を利用する。
論文 参考訳(メタデータ) (2024-05-20T02:06:10Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Towards Robust Federated Learning via Logits Calibration on Non-IID Data [49.286558007937856]
Federated Learning(FL)は、エッジネットワークにおける分散デバイスの共同モデルトレーニングに基づく、プライバシ保護のための分散管理フレームワークである。
近年の研究では、FLは敵の例に弱いことが示されており、その性能は著しく低下している。
本研究では,対戦型訓練(AT)フレームワークを用いて,対戦型実例(AE)攻撃に対するFLモデルの堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-05T09:18:29Z) - Self-Improving Interference Management Based on Deep Learning With
Uncertainty Quantification [10.403513606082067]
本稿では,無線通信に適した自己改善型干渉管理フレームワークを提案する。
提案手法は,従来の最適化アルゴリズムに固有の計算課題に対処する。
私たちのフレームワークのブレークスルーは、データ駆動モデルに固有の制限を認識することです。
論文 参考訳(メタデータ) (2024-01-24T03:28:48Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - On the Calibration of Large Language Models and Alignment [63.605099174744865]
信頼性キャリブレーションは、ディープモデルの信頼性を高める重要なツールである。
構築プロセス全体を通して、アライメント言語モデルの校正を体系的に検討する。
我々の研究は、人気のあるLCMが十分に校正されているか、トレーニングプロセスがモデルの校正にどのように影響するかに光を当てています。
論文 参考訳(メタデータ) (2023-11-22T08:57:55Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Training, Architecture, and Prior for Deterministic Uncertainty Methods [33.45069308137142]
本研究は決定論的不確実性法(DUM)における重要な設計選択について検討する。
コアアーキテクチャと不確実性ヘッドスキームを分離したトレーニングスキームは、不確実性性能を大幅に改善できることを示す。
他のベイズモデルとは対照的に、DUMが定義した事前定義が最終的な性能に強い影響を及ぼさないことを示す。
論文 参考訳(メタデータ) (2023-03-10T09:00:52Z) - Post-hoc Uncertainty Learning using a Dirichlet Meta-Model [28.522673618527417]
本研究では,不確実性定量化能力の優れた事前学習モデルを構築するための新しいベイズメタモデルを提案する。
提案手法は追加のトレーニングデータを必要としないため,不確かさの定量化に十分な柔軟性がある。
提案するメタモデルアプローチの柔軟性と,これらのアプリケーションに対する優れた経験的性能を実証する。
論文 参考訳(メタデータ) (2022-12-14T17:34:11Z) - Holistic Deep Learning [3.718942345103135]
本稿では、入力摂動、過度なパラメータ化、性能不安定といった脆弱性の課題に対処する、新しい総合的なディープラーニングフレームワークを提案する。
提案したフレームワークは、標準的なディープラーニングモデルよりも正確性、堅牢性、疎性、安定性を全面的に改善する。
論文 参考訳(メタデータ) (2021-10-29T14:46:32Z) - Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。
データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文 参考訳(メタデータ) (2021-09-03T14:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。