論文の概要: Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs
- arxiv url: http://arxiv.org/abs/2510.05278v1
- Date: Mon, 06 Oct 2025 18:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.941364
- Title: Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs
- Title(参考訳): 部分微分方程式の復号:復号子のみのモデルのPDEへのクロスモーダル適応
- Authors: Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam,
- Abstract要約: 時間依存シミュレーションタスクに対して,エンコーダのみのモデルとデコーダのみのモデルを比較した。
デコーダのみのモデルは、既存のアプローチを修正せずに適用した場合に、エンコーダのみのモデルよりもはるかに悪いことが判明した。
自己回帰モデルにおいて、双方向性を模倣しようとする2つの新しいアプローチ、Parallel FlippingとSequence Duublingを導入する。
- 参考スコア(独自算出の注目度): 27.331524018411926
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models have shown great success on natural language tasks in recent years, but they have also shown great promise when adapted to new modalities, e.g., for scientific machine learning tasks. Even though decoder-only models are more popular within NLP and scale exceedingly well at generating natural language, most proposed approaches for cross-modal adaptation focus on encoder-only models, raising the question of how model architecture affects these approaches. In this paper, we therefore perform a series of ablation studies to answer this question, systematically comparing encoder-only and decoder-only models on cross-modal adaptation for time-dependent simulation tasks based on partial differential equations (PDEs). We find that decoder-only models are far worse than encoder-only models, when existing approaches are applied unmodified. In contrast to several other domains, scaling decoder-only models also does not help. To harness the potential of decoder-only models in this context, we introduce two novel approaches, Parallel Flipping and Sequence Doubling, attempting to mimic bidirectionality in autoregressive models. Both our methods improve overall performance using decoder-only models for all tasks and all cross-model adaptation methods, closing the gap to encoder-only model performance. We hope that our findings broaden the spectrum of models used on cross-modal adaptation tasks to further scientific ML.
- Abstract(参考訳): 大規模言語モデルは近年,自然言語タスクにおいて大きな成功を収めていますが,科学的な機械学習タスクにおいて,新たなモダリティ(例:機械学習タスク)に適応する上でも,非常に有望であることが示されています。
デコーダのみのモデルは、NLP内でより人気があり、自然言語生成においてスケールがはるかに優れているが、最も提案されているクロスモーダル適応アプローチはエンコーダのみのモデルに焦点をあて、モデルアーキテクチャがこれらのアプローチにどのように影響するかという疑問を提起する。
そこで本研究では,偏微分方程式(PDE)に基づく時間依存シミュレーションタスクに対する,エンコーダのみのモデルとデコーダのみのモデルとの相互適応を系統的に比較する,一連のアブレーション研究を行った。
デコーダのみのモデルは、既存のアプローチを修正せずに適用した場合に、エンコーダのみのモデルよりもはるかに悪いことが判明した。
他のいくつかのドメインとは対照的に、デコーダのみのモデルのスケーリングも役に立たない。
この文脈でデコーダのみのモデルの可能性を活用するために、自動回帰モデルにおいて双方向性を模倣しようとする2つの新しいアプローチ、Parallel FlippingとSequence Doublingを導入する。
両手法ともデコーダのみのモデルとクロスモデル適応手法を用いて全体的な性能を改善し,エンコーダのみのモデル性能とのギャップを埋める。
我々の研究成果は、クロスモーダル適応タスクに使用されるモデルのスペクトルを広げて、さらなる科学的MLを期待する。
関連論文リスト
- Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Scaling Laws of Decoder-Only Models on the Multilingual Machine Translation Task [1.9107347888374506]
マルチ言語およびマルチドメイン翻訳タスクにおけるデコーダのみのモデルのスケーリング法則について検討する。
大規模言語モデルで発見されたようなスケーリング法則を用いて,デコーダのみのモデルの損失を推定できることを示す。
また、モデルの深さと幅のスケーリングは、同様のテスト損失の改善をもたらすが、モデルの効率に異なる影響を与えることを示す。
論文 参考訳(メタデータ) (2024-09-23T14:26:01Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Exploiting the Potential of Seq2Seq Models as Robust Few-Shot Learners [8.43854206194162]
この結果から,Seq2seqモデルは多種多様なアプリケーションに対して非常に効果的であることを示す。
本稿では,セq2seqモデルにおける文脈内学習能力をより効果的に活用する2つの手法を提案する。
論文 参考訳(メタデータ) (2023-07-27T13:37:06Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。