Fugu-MT 論文翻訳(概要): Does Full Waveform Inversion Benefit from Big Data?

論文の概要: Does Full Waveform Inversion Benefit from Big Data?

arxiv url: http://arxiv.org/abs/2307.15388v1
Date: Fri, 28 Jul 2023 08:32:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-31 13:24:31.082797
Title: Does Full Waveform Inversion Benefit from Big Data?
Title（参考訳）: 波形インバージョンはビッグデータから得られるか?
Authors: Peng Jin, Yinan Feng, Shihang Feng, Hanchen Wang, Yinpeng Chen, Benjamin Consolvo, Zicheng Liu, Youzuo Lin
Abstract要約: 本稿では,FWI(Full Waveform Inversion)のためのディープラーニングモデルに対するビッグデータの影響について検討する。我々は、合計470万のデータペアを含むOpenFWIの10つの2Dサブセットの組み合わせでFWIモデルを訓練し、評価する。実験により、より大きなデータセットがFWIのディープラーニングモデルの性能向上と一般化につながることが示された。
参考スコア（独自算出の注目度）: 21.124767363522423
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper investigates the impact of big data on deep learning models for full waveform inversion (FWI). While it is well known that big data can boost the performance of deep learning models in many tasks, its effectiveness has not been validated for FWI. To address this gap, we present an empirical study that investigates how deep learning models in FWI behave when trained on OpenFWI, a collection of large-scale, multi-structural datasets published recently. Particularly, we train and evaluate the FWI models on a combination of 10 2D subsets in OpenFWI that contain 470K data pairs in total. Our experiments demonstrate that larger datasets lead to better performance and generalization of deep learning models for FWI. We further demonstrate that model capacity needs to scale in accordance with data size for optimal improvement.
Abstract（参考訳）: 本稿では,FWI(Full Waveform Inversion)のためのディープラーニングモデルに対するビッグデータの影響について検討する。ビッグデータは多くのタスクでディープラーニングモデルのパフォーマンスを高めることが知られているが、その効果はfwiでは検証されていない。本稿では,fwiのディープラーニングモデルが,最近発表された大規模マルチストラクショナルデータセットのコレクションであるopenfwi上でトレーニングされた際にどのように振る舞うかを,実証的に検討する。特に,470Kのデータペアを含むOpenFWIの10つの2次元サブセットの組み合わせでFWIモデルをトレーニングし,評価する。実験により、より大きなデータセットがFWIのディープラーニングモデルの性能向上と一般化につながることが示された。さらに,モデルのキャパシティは,最適な改善のためにデータサイズに応じてスケールする必要があることを実証する。

関連論文リスト

Approximating Language Model Training Data from Weights [70.08614275061689]
モデル重みからデータ近似の問題を定式化し、いくつかのベースラインとメトリクスを提案する。そこで我々は,大規模公開テキストコーパスから最高のマッチングデータを選択する勾配に基づく手法を開発した。真のトレーニングデータがない場合でも、我々の方法では、公開Webドキュメントの小さなサブセットを見つけることができる。
論文参考訳（メタデータ） (2025-06-18T15:26:43Z)
Can Mixture-of-Experts Surpass Dense LLMs Under Strictly Equal Resources? [58.56306556151929]
Mixture-of-Experts (MoE)言語モデルは、モデルキャパシティを劇的に拡張し、トーケン毎の計算量を増やすことなく優れたパフォーマンスを達成する。 MoEsは厳密なリソース制約の下で密集したアーキテクチャを超えることができるか? 最適領域における活性化率を持つMoEモデルは,同じパラメータ,トレーニング計算,およびデータ資源の下で,その密度の高いモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-13T17:59:05Z)
Skywork Open Reasoner 1 Technical Report [51.403686909760914]
提案するSkywork-OR1は,長期チェーン・オブ・ソート(CoT)モデルのための,効果的かつスケーラブルな強化学習(RL)実装である。 DeepSeek-R1-Distillモデルシリーズをベースとして、我々のRLアプローチは顕著なパフォーマンス向上を実現している。我々のSkywork-OR1-32Bモデルは、AIME24とAIME25ベンチマークでDeepSeek-R1とQwen3-32Bを上回っています。
論文参考訳（メタデータ） (2025-05-28T12:56:04Z)
WorldPM: Scaling Human Preference Modeling [130.23230492612214]
我々は、このスケーリングの可能性を強調するために、World Preference Modeling$ (WorldPM)を提案する。多様なユーザコミュニティをカバーする公開フォーラムから選好データを収集する。 1.5Bから72Bパラメータの範囲で15Mスケールのデータを用いて広範囲なトレーニングを行う。
論文参考訳（メタデータ） (2025-05-15T17:38:37Z)
DONOD: Robust and Generalizable Instruction Fine-Tuning for LLMs via Model-Intrinsic Dataset Pruning [22.704995231753397]
大規模言語モデル(LLM)のアドホック命令の微調整は、ドメイン固有の適応に広く採用されている。本研究では,軽量なモデル固有データ解析手法であるDONODを提案する。完全なデータセットの70%をフィルタリングすることで、ターゲットドメインの精度を14.90%、クロスドメインの精度を5.67%向上させる。
論文参考訳（メタデータ） (2025-04-21T02:25:03Z)
Exploring the Efficacy of Meta-Learning: Unveiling Superior Data Diversity Utilization of MAML Over Pre-training [1.3980986259786223]
データセットの多様性が視覚モデルの性能に影響を及ぼすことを示す。本研究は,テストセットの精度とデータの多様性との間に正の相関関係を示す。これらの結果は我々の仮説を支持し、形式的なデータの多様性がモデルの性能にどのように影響するかをより深く探究するための有望な方法を示す。
論文参考訳（メタデータ） (2025-01-15T00:56:59Z)
Fisher Information-based Efficient Curriculum Federated Learning with Large Language Models [43.26028399395612]
本稿では,2つの新しい手法を用いたフィッシャー情報に基づく効率的なカリキュラムフェデレート学習フレームワーク(FibecFed)を提案する。まず,各装置内のデータを適応的にサンプリングし,FL微調整プロセスの有効性を向上させるための漁師情報に基づく手法を提案する。第2に,グローバルアグリゲーションのための適切なレイヤとLoRAによるローカル更新のためのスパースパラメータを動的に選択する。
論文参考訳（メタデータ） (2024-09-30T18:12:18Z)
A Novel Adaptive Fine-Tuning Algorithm for Multimodal Models: Self-Optimizing Classification and Selection of High-Quality Datasets in Remote Sensing [46.603157010223505]
マルチモーダル大モデルに対する適応的な微調整アルゴリズムを提案する。我々は、GeoChatマルチモーダルリモートセンシングデータセットの3分の1を使用して、2台の3090 GPU上でモデルをトレーニングする。このモデルはUCMercedおよびAID評価データセットで89.86と77.19のスコアを得た。
論文参考訳（メタデータ） (2024-09-20T09:19:46Z)
Imbalance-Aware Culvert-Sewer Defect Segmentation Using an Enhanced Feature Pyramid Network [1.7466076090043157]
本稿では,不均衡なデータセット内での変質管と下水道管のセマンティックセグメンテーションの深層学習モデルを提案する。このモデルは、データセットの不均衡に対応するために、クラス分解やデータ拡張のような戦略を採用している。 E-FPNが最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2024-08-19T17:40:18Z)
AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs [61.13296177652599]
本稿では,異なる領域からのトレーニングデータの最適構成がスケール依存であることを示す。我々は、潜在的に大規模なトレーニングデータスケールでデータ合成を最適化するための、新しい実用的なアプローチである*AutoScale*を紹介します。 GPT-2Large and BERT pre-training の評価は,トレーニング収束性および下流性能向上における *AutoScale* の有効性を示す。
論文参考訳（メタデータ） (2024-07-29T17:06:30Z)
DiffPuter: Empowering Diffusion Models for Missing Data Imputation [56.48119008663155]
本稿ではDiffPuterについて紹介する。DiffPuterは、データ計算の欠如に対する期待最大化(EM)アルゴリズムと組み合わせた、カスタマイズされた拡散モデルである。我々の理論的解析は、DiffPuterのトレーニングステップがデータ密度の最大推定値に対応することを示している。 DiffPuterは,最も競争力のある既存手法と比較して,MAEが6.94%,RMSEが4.78%向上した。
論文参考訳（メタデータ） (2024-05-31T08:35:56Z)
SmallToLarge (S2L): Scalable Data Selection for Fine-tuning Large Language Models by Summarizing Training Trajectories of Small Models [25.354520724493845]
教師付き微調整のための効率的でスケーラブルなデータ選択手法を提案する。 S2Lは数学的な問題解決のために,SFTのデータ効率を著しく向上させることを示した。また,S2Lは対象モデルよりも40倍小さい参照モデルを用いてデータ選択を行うことができることを示す。
論文参考訳（メタデータ） (2024-03-12T07:45:33Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文参考訳（メタデータ） (2023-07-28T16:03:28Z)
A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文参考訳（メタデータ） (2023-03-02T21:48:22Z)
Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2022-10-12T17:54:59Z)
Strict baselines for Covid-19 forecasting and ML perspective for USA and Russia [105.54048699217668]
Covid-19は、2年間にわたって蓄積されたデータセットを収集し、予測分析に使用できるようにする。本研究は、米国とロシアの2カ国の地域データに基づいて、Covid-19の拡散のダイナミクスを予測するための様々な種類の方法に関する一貫した研究結果である。
論文参考訳（メタデータ） (2022-07-15T18:21:36Z)
Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文参考訳（メタデータ） (2021-11-09T03:23:05Z)
Dataset Cartography: Mapping and Diagnosing Datasets with Training Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文参考訳（メタデータ） (2020-09-22T20:19:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。