論文の概要: MarineGPT: Unlocking Secrets of Ocean to the Public
- arxiv url: http://arxiv.org/abs/2310.13596v1
- Date: Fri, 20 Oct 2023 15:45:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 22:03:55.112444
- Title: MarineGPT: Unlocking Secrets of Ocean to the Public
- Title(参考訳): marinegpt:海洋の秘密を一般公開する
- Authors: Ziqiang Zheng and Jipeng Zhang and Tuan-Anh Vu and Shizhe Diao and Yue
Him Wong Tim and Sai-Kit Yeung
- Abstract要約: 大規模言語モデル(LLM)は、AIアシスタントとしてのユーザエクスペリエンスを促進する強力なツールであることが証明されている。
我々は,海洋ドメイン用に特別に設計された最初の視覚言語モデルである textbfMarineGPT を提案し,海洋の秘密を一般に公開する。
- 参考スコア(独自算出の注目度): 32.17362940242431
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs), such as ChatGPT/GPT-4, have proven to be
powerful tools in promoting the user experience as an AI assistant. The
continuous works are proposing multi-modal large language models (MLLM),
empowering LLMs with the ability to sense multiple modality inputs through
constructing a joint semantic space (e.g. visual-text space). Though
significant success was achieved in LLMs and MLLMs, exploring LLMs and MLLMs in
domain-specific applications that required domain-specific knowledge and
expertise has been less conducted, especially for \textbf{marine domain}.
Different from general-purpose MLLMs, the marine-specific MLLM is required to
yield much more \textbf{sensitive}, \textbf{informative}, and
\textbf{scientific} responses. In this work, we demonstrate that the existing
MLLMs optimized on huge amounts of readily available general-purpose training
data show a minimal ability to understand domain-specific intents and then
generate informative and satisfactory responses. To address these issues, we
propose \textbf{MarineGPT}, the first vision-language model specially designed
for the marine domain, unlocking the secrets of the ocean to the public. We
present our \textbf{Marine-5M} dataset with more than 5 million marine
image-text pairs to inject domain-specific marine knowledge into our model and
achieve better marine vision and language alignment. Our MarineGPT not only
pushes the boundaries of marine understanding to the general public but also
offers a standard protocol for adapting a general-purpose assistant to
downstream domain-specific experts. We pave the way for a wide range of marine
applications while setting valuable data and pre-trained models for future
research in both academic and industrial communities.
- Abstract(参考訳): ChatGPT/GPT-4のような大規模言語モデル(LLM)は、AIアシスタントとしてのユーザエクスペリエンスを促進する強力なツールであることが証明されている。
連続的な作業はMLLM(Multi-modal large language model)の提案であり、共同意味空間(例えば、ビジュアルテキスト空間)を構築することで複数のモーダル入力を検知する能力を持つLLMの強化である。
LLM や MLLM では大きな成功を収めたが、ドメイン固有の知識と専門知識を必要とするドメイン固有のアプリケーションにおける LLM や MLLM の探索は、特に \textbf{marine ドメインでは、あまり行われていない。
汎用MLLMとは異なり、海洋固有のMLLMは、より多くの \textbf{sensitive} 、 \textbf{informative} 、 \textbf{scientific} 応答を得る必要がある。
本研究は,既存のMLLMが大量の汎用トレーニングデータに最適化されていることを実証し,ドメイン固有の意図を最小限に理解し,情報的かつ満足な応答を生成することを示した。
これらの問題に対処するために,海洋ドメイン用に特別に設計された最初の視覚言語モデルである \textbf{MarineGPT} を提案する。
我々は,500万以上の海洋画像テキストペアを用いて,我々のモデルにドメイン固有の海洋知識を注入し,より優れた海洋ビジョンと言語アライメントを実現する。
私たちのMarineGPTは、海洋理解の境界を一般大衆に広めるだけでなく、汎用アシスタントを下流ドメインの専門家に適応するための標準プロトコルも提供しています。
学術分野と産業分野の両方における今後の研究のための貴重なデータと事前訓練されたモデルを設定しながら、幅広い海洋応用への道を開く。
関連論文リスト
- Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Fine-tuning Large Language Models for Domain-specific Machine
Translation [8.439661191792897]
大規模言語モデル(LLM)は機械翻訳(MT)において大きな進歩を遂げた。
しかし、ドメイン特異的MTのポテンシャルはいまだ未解明のままである。
本稿では,LlamaIT と呼ばれる,ドメイン固有の MT タスクのための汎用 LLM を効果的かつ効率的に微調整する,プロンプト指向の微調整手法を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:24:15Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs [49.32067576992511]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - A Self-enhancement Approach for Domain-specific Chatbot Training via
Knowledge Mining and Digest [62.63606958140248]
大規模言語モデル(LLM)は、特定のドメインで複雑な知識要求クエリを扱う際に、しばしば困難に直面する。
本稿では、ドメイン固有のテキストソースから関連知識を効果的に抽出し、LLMを強化する新しいアプローチを提案する。
我々は知識マイナー、すなわちLLMinerを訓練し、関連する文書から質問応答対を自律的に抽出する。
論文 参考訳(メタデータ) (2023-11-17T16:09:10Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Enhancing the Spatial Awareness Capability of Multi-Modal Large Language
Model [25.86351431223383]
MLLM(Multi-Modal Large Language Model)は、マルチモーダルデータの受信と推論機能を備えたLarge Language Model (LLM)の拡張である。
本稿では,MLLMを誘導するオブジェクト間のより正確な空間的位置情報を用いて,ユーザ関連の質問に対するより正確な応答を提供する。
論文 参考訳(メタデータ) (2023-10-31T10:57:35Z) - Augmented Large Language Models with Parametric Knowledge Guiding [72.71468058502228]
大規模言語モデル(LLM)は、言語理解と生成能力に優れた自然言語処理(NLP)を備えています。
それらのパフォーマンスは、関連するデータへの限られた露出のために専門的な知識を必要とするドメイン固有のタスクに最適であるかもしれない。
本稿では,LLMに関連知識にアクセスするための知識誘導モジュールを組み込んだ新しいPKGフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T15:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。