論文の概要: Feedback-aligned Mixed LLMs for Machine Language-Molecule Translation
- arxiv url: http://arxiv.org/abs/2405.13984v1
- Date: Wed, 22 May 2024 20:40:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 20:14:01.737226
- Title: Feedback-aligned Mixed LLMs for Machine Language-Molecule Translation
- Title(参考訳): 機械語-分子翻訳のためのフィードバック整合混合LLM
- Authors: Dimitris Gkoumas, Maria Liakata,
- Abstract要約: 言語-分子自動翻訳の課題に焦点をあてる。
私たちは、クロスモーダルな設定で人間中心の最適化アルゴリズムを最初に使用しました。
使用可能なデータの10%のみを使用して実験を行い、記憶効果を緩和する。
- 参考スコア(独自算出の注目度): 11.778576032848482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The intersection of chemistry and Artificial Intelligence (AI) is an active area of research focused on accelerating scientific discovery. While using large language models (LLMs) with scientific modalities has shown potential, there are significant challenges to address, such as improving training efficiency and dealing with the out-of-distribution problem. Focussing on the task of automated language-molecule translation, we are the first to use state-of-the art (SOTA) human-centric optimisation algorithms in the cross-modal setting, successfully aligning cross-language-molecule modals. We empirically show that we can augment the capabilities of scientific LLMs without the need for extensive data or large models. We conduct experiments using only 10% of the available data to mitigate memorisation effects associated with training large models on extensive datasets. We achieve significant performance gains, surpassing the best benchmark model trained on extensive in-distribution data by a large margin and reach new SOTA levels. Additionally we are the first to propose employing non-linear fusion for mixing cross-modal LLMs which further boosts performance gains without increasing training costs or data needs. Finally, we introduce a fine-grained, domain-agnostic evaluation method to assess hallucination in LLMs and promote responsible use.
- Abstract(参考訳): 化学と人工知能(AI)の交差は、科学的発見の加速に焦点を当てた研究の活発な領域である。
科学的モダリティを持つ大規模言語モデル(LLM)を使用することは、潜在的な可能性を示しているが、トレーニング効率の向上やアウト・オブ・ディストリビューション問題への対処など、対処すべき重要な課題がある。
言語-分子の自動翻訳の課題に焦点をあてて、私たちは、言語-分子間のモーダルの整合を成功させながら、クロスモーダル設定において人間中心の最適化アルゴリズムを初めて使用しました。
我々は、大規模なデータや大規模なモデルを必要としない科学的LLMの能力を増強できることを実証的に示す。
利用可能なデータの10%のみを使用して実験を行い、広範囲なデータセットで大規模モデルをトレーニングする際の記憶効果を軽減する。
我々は、大規模な流通データに基づいて訓練された最高のベンチマークモデルよりも大きな利益を得、新たなSOTAレベルに達することを目標に、大幅な性能向上を実現している。
また、我々は、トレーニングコストやデータニーズを増大させることなく、さらなる性能向上を図るため、クロスモーダルLLMを混合する非線形核融合を初めて提案する。
最後に, LLMにおける幻覚の評価と, 責任ある使用を促進するための, きめ細かいドメインに依存しない評価手法を提案する。
関連論文リスト
- Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
大規模言語モデルにおける一般化と記憶の相互作用について検討する。
各種のオープンソースLLMとその事前学習コーパスを用いて、モデルのサイズが大きくなるにつれて、タスク関連$n$-gramのペアデータの重要性が増すのを観察する。
その結果,LLMの能力は,十分なタスク関連事前学習データによる記憶と一般化の微妙なバランスから生じるという仮説を支持した。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - The Future of Large Language Model Pre-training is Federated [15.237418036900582]
フェデレーション学習は、地球のデータと計算資源の大部分を解き放つ可能性がある。
我々は、この新たなトレーニングパラダイムの調査と開発を可能にする、Photonと呼ばれるスケーラブルなデプロイメントシステムを提案する。
我々は、プライベートなデータソースや計算リソースとのコラボレーションに関心のある組織がPhotonを利用できることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:27:52Z) - ALMol: Aligned Language-Molecule Translation LLMs through Offline Preference Contrastive Optimisation [2.296475290901356]
機械語-分子翻訳に焦点をあて、コントラスト優先最適化と呼ばれる新しい訓練手法を展開する。
その結果,我々のモデルでは,他のモデルと比較して最大32%の改善が達成された。
論文 参考訳(メタデータ) (2024-05-14T13:59:24Z) - The Truth is in There: Improving Reasoning in Language Models with
Layer-Selective Rank Reduction [22.659005954676598]
重み行列の高次成分を選択的に除去することにより,大規模言語モデルの性能を大幅に向上させることができることを示す。
LAER(Layer-Selective Rank reduction)と呼ばれるこの単純な介入は、トレーニングが完了した後、モデル上で行うことができる。
言語モデルとデータセットにまたがって、この発見の汎用性を実証する広範な実験を示す。
論文 参考訳(メタデータ) (2023-12-21T03:51:08Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Large Language Models as Data Preprocessors [10.914067455923847]
OpenAIのGPTシリーズとMetaのLLaMAに代表されるLarge Language Models (LLMs)は、人工知能において大きな進歩を遂げている。
この研究は、LLMの応用を拡大し、データ前処理におけるその可能性を探る。
我々は,最先端のプロンプト技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Improving Small Language Models on PubMedQA via Generative Data
Augmentation [4.96649519549027]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
小型言語モデル(SLM)はその効率で知られているが、限られた能力と訓練データに悩まされることが多い。
医療領域におけるSLMの改善を目的とした,LLMに基づく生成データ拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-12T23:49:23Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。