論文の概要: Does Full Waveform Inversion Benefit from Big Data?
- arxiv url: http://arxiv.org/abs/2307.15388v1
- Date: Fri, 28 Jul 2023 08:32:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 13:24:31.082797
- Title: Does Full Waveform Inversion Benefit from Big Data?
- Title(参考訳): 波形インバージョンはビッグデータから得られるか?
- Authors: Peng Jin, Yinan Feng, Shihang Feng, Hanchen Wang, Yinpeng Chen,
Benjamin Consolvo, Zicheng Liu, Youzuo Lin
- Abstract要約: 本稿では,FWI(Full Waveform Inversion)のためのディープラーニングモデルに対するビッグデータの影響について検討する。
我々は、合計470万のデータペアを含むOpenFWIの10つの2Dサブセットの組み合わせでFWIモデルを訓練し、評価する。
実験により、より大きなデータセットがFWIのディープラーニングモデルの性能向上と一般化につながることが示された。
- 参考スコア(独自算出の注目度): 21.124767363522423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the impact of big data on deep learning models for
full waveform inversion (FWI). While it is well known that big data can boost
the performance of deep learning models in many tasks, its effectiveness has
not been validated for FWI. To address this gap, we present an empirical study
that investigates how deep learning models in FWI behave when trained on
OpenFWI, a collection of large-scale, multi-structural datasets published
recently. Particularly, we train and evaluate the FWI models on a combination
of 10 2D subsets in OpenFWI that contain 470K data pairs in total. Our
experiments demonstrate that larger datasets lead to better performance and
generalization of deep learning models for FWI. We further demonstrate that
model capacity needs to scale in accordance with data size for optimal
improvement.
- Abstract(参考訳): 本稿では,FWI(Full Waveform Inversion)のためのディープラーニングモデルに対するビッグデータの影響について検討する。
ビッグデータは多くのタスクでディープラーニングモデルのパフォーマンスを高めることが知られているが、その効果はfwiでは検証されていない。
本稿では,fwiのディープラーニングモデルが,最近発表された大規模マルチストラクショナルデータセットのコレクションであるopenfwi上でトレーニングされた際にどのように振る舞うかを,実証的に検討する。
特に,470Kのデータペアを含むOpenFWIの10つの2次元サブセットの組み合わせでFWIモデルをトレーニングし,評価する。
実験により、より大きなデータセットがFWIのディープラーニングモデルの性能向上と一般化につながることが示された。
さらに,モデルのキャパシティは,最適な改善のためにデータサイズに応じてスケールする必要があることを実証する。
関連論文リスト
- Fisher Information-based Efficient Curriculum Federated Learning with Large Language Models [43.26028399395612]
本稿では,2つの新しい手法を用いたフィッシャー情報に基づく効率的なカリキュラムフェデレート学習フレームワーク(FibecFed)を提案する。
まず,各装置内のデータを適応的にサンプリングし,FL微調整プロセスの有効性を向上させるための漁師情報に基づく手法を提案する。
第2に,グローバルアグリゲーションのための適切なレイヤとLoRAによるローカル更新のためのスパースパラメータを動的に選択する。
論文 参考訳(メタデータ) (2024-09-30T18:12:18Z) - A Novel Adaptive Fine-Tuning Algorithm for Multimodal Models: Self-Optimizing Classification and Selection of High-Quality Datasets in Remote Sensing [46.603157010223505]
マルチモーダル大モデルに対する適応的な微調整アルゴリズムを提案する。
我々は、GeoChatマルチモーダルリモートセンシングデータセットの3分の1を使用して、2台の3090 GPU上でモデルをトレーニングする。
このモデルはUCMercedおよびAID評価データセットで89.86と77.19のスコアを得た。
論文 参考訳(メタデータ) (2024-09-20T09:19:46Z) - Imbalance-Aware Culvert-Sewer Defect Segmentation Using an Enhanced Feature Pyramid Network [1.7466076090043157]
本稿では,不均衡なデータセット内での変質管と下水道管のセマンティックセグメンテーションの深層学習モデルを提案する。
このモデルは、データセットの不均衡に対応するために、クラス分解やデータ拡張のような戦略を採用している。
E-FPNが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-08-19T17:40:18Z) - AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs [61.13296177652599]
本稿では,異なる領域からのトレーニングデータの最適構成がスケール依存であることを示す。
我々は、潜在的に大規模なトレーニングデータスケールでデータ合成を最適化するための、新しい実用的なアプローチである*AutoScale*を紹介します。
GPT-2Large and BERT pre-training の評価は,トレーニング収束性および下流性能向上における *AutoScale* の有効性を示す。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - SmallToLarge (S2L): Scalable Data Selection for Fine-tuning Large
Language Models by Summarizing Training Trajectories of Small Models [25.354520724493845]
教師付き微調整のための効率的でスケーラブルなデータ選択手法を提案する。
S2Lは数学的な問題解決のために,SFTのデータ効率を著しく向上させることを示した。
また,S2Lは対象モデルよりも40倍小さい参照モデルを用いてデータ選択を行うことができることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:45:33Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。
高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。
これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T17:54:59Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。