論文の概要: Fine-Tune Language Models as Multi-Modal Differential Equation Solvers
- arxiv url: http://arxiv.org/abs/2308.05061v3
- Date: Thu, 9 Nov 2023 17:10:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 12:08:31.403692
- Title: Fine-Tune Language Models as Multi-Modal Differential Equation Solvers
- Title(参考訳): マルチモーダル微分方程式解法としての微動言語モデル
- Authors: Liu Yang, Siting Liu, Stanley J. Osher
- Abstract要約: 本稿では,コンテキスト内演算子の学習をマルチモーダルパラダイムに変換する。
本研究では,自然言語記述や方程式を通じて表現される演算子に関する人間の知識を統合するために,キャプションの利用を提案する。
また、言語モデルのようなアーキテクチャをトレーニングするための新しいアプローチや、既存の言語モデルを直接微調整する手法も導入する。
- 参考スコア(独自算出の注目度): 14.181842691371935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the growing domain of scientific machine learning, in-context operator
learning has shown notable potential in learning operators and solving
differential equations using prompted data, during the inference stage without
weight updates. However, the current model's overdependence on function data,
may inadvertently overlook the invaluable human insight into the operator. To
address this, we present a transformation of in-context operator learning into
a multi-modal paradigm. In particular, we take inspiration from the recent
success of large language models, and propose using "captions" to integrate
human knowledge about the operator, expressed through natural language
descriptions and equations. Also, we introduce a novel approach to train a
language-model-like architecture, or directly fine-tune existing language
models, for in-context operator learning. We beat the baseline on single-modal
learning tasks, and also demonstrated the effectiveness of multi-modal learning
in enhancing performance and reducing function data requirements. The proposed
method not only significantly improves in-context operator learning, but also
creates a new path for the application of language models.
- Abstract(参考訳): 科学機械学習の領域が拡大する中で、文脈内演算子学習は、重み更新のない推論段階において、学習演算子や誘導データを用いた微分方程式の解法において顕著なポテンシャルを示した。
しかし、現在のモデルの関数データへの過度な依存は、不注意に操作者に対する人間的洞察を見落としているかもしれない。
そこで本稿では,マルチモーダルパラダイムへのインコンテクスト演算子学習の変換について述べる。
特に,近年の大規模言語モデルの成功から着想を得て,自然言語記述と方程式を用いて表現された操作者に関する人間知識を統合するための"captions"の利用を提案する。
また,言語モデルライクなアーキテクチャをトレーニングするための新しいアプローチや,コンテキスト内演算子学習のための言語モデルを直接微調整する手法も導入する。
我々は単一モーダル学習タスクのベースラインを破り、性能の向上と機能データ要求の低減にマルチモーダル学習の有効性を実証した。
提案手法は,文脈内演算子学習を著しく改善するだけでなく,言語モデルに適用するための新たなパスを生成する。
関連論文リスト
- RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。
タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文 参考訳(メタデータ) (2023-07-04T02:47:42Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - Interactively Generating Explanations for Transformer Language Models [14.306470205426526]
トランスフォーマー言語モデルは、多くのNLPタスクにおいて最先端である。
最近の手法はブラックボックスモデルに対する解釈可能性と説明可能性を提供することを目的としている。
モデルアーキテクチャに直接組み込まれたプロトタイプネットワークを使うことを強調した。
論文 参考訳(メタデータ) (2021-09-02T11:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。