論文の概要: Fine-Tune Language Models as Multi-Modal Differential Equation Solvers
- arxiv url: http://arxiv.org/abs/2308.05061v4
- Date: Thu, 1 Feb 2024 07:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 19:25:32.719510
- Title: Fine-Tune Language Models as Multi-Modal Differential Equation Solvers
- Title(参考訳): マルチモーダル微分方程式解法としての微動言語モデル
- Authors: Liu Yang, Siting Liu, Stanley J. Osher
- Abstract要約: 本稿では,コンテキスト内演算子の学習をマルチモーダルパラダイムに変換する。
特に,近年の大規模言語モデルの成功からインスピレーションを得て,演算子に関する人間の知識を統合するために「カプセル」の使用を提案する。
- 参考スコア(独自算出の注目度): 14.181842691371935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the growing domain of scientific machine learning, in-context operator
learning has shown notable potential in building foundation models, as in this
framework the model is trained to learn operators and solve differential
equations using prompted data, during the inference stage without weight
updates. However, the current model's overdependence on function data overlooks
the invaluable human insight into the operator. To address this, we present a
transformation of in-context operator learning into a multi-modal paradigm. In
particular, we take inspiration from the recent success of large language
models, and propose using "captions" to integrate human knowledge about the
operator, expressed through natural language descriptions and equations. Also,
we introduce a novel approach to train a language-model-like architecture, or
directly fine-tune existing language models, for in-context operator learning.
We beat the baseline on single-modal learning tasks, and also demonstrated the
effectiveness of multi-modal learning in enhancing performance and reducing
function data requirements. The proposed method not only significantly enhanced
the development of the in-context operator learning paradigm, but also created
a new path for the application of language models.
- Abstract(参考訳): 科学機械学習の分野では、文脈内演算子学習は基礎モデル構築において顕著な可能性を示しており、このフレームワークでは、重み更新のない推論段階において、演算子を学習し、誘導データを用いて微分方程式を解くよう訓練されている。
しかし、現在のモデルの関数データへの過度な依存は、オペレーターに対する貴重な人間の洞察を見落としている。
そこで本稿では,マルチモーダルパラダイムへのインコンテクスト演算子学習の変換について述べる。
特に,近年の大規模言語モデルの成功から着想を得て,自然言語記述と方程式を用いて表現された操作者に関する人間知識を統合するための"captions"の利用を提案する。
また,言語モデルライクなアーキテクチャをトレーニングするための新しいアプローチや,コンテキスト内演算子学習のための言語モデルを直接微調整する手法も導入する。
我々は単一モーダル学習タスクのベースラインを破り、性能の向上と機能データ要求の低減にマルチモーダル学習の有効性を実証した。
提案手法は,文脈内演算子学習パラダイムの開発を著しく促進するだけでなく,言語モデルに適用するための新たな経路を創りだした。
関連論文リスト
- RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。
タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文 参考訳(メタデータ) (2023-07-04T02:47:42Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - Interactively Generating Explanations for Transformer Language Models [14.306470205426526]
トランスフォーマー言語モデルは、多くのNLPタスクにおいて最先端である。
最近の手法はブラックボックスモデルに対する解釈可能性と説明可能性を提供することを目的としている。
モデルアーキテクチャに直接組み込まれたプロトタイプネットワークを使うことを強調した。
論文 参考訳(メタデータ) (2021-09-02T11:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。