論文の概要: StructLM: Towards Building Generalist Models for Structured Knowledge
Grounding
- arxiv url: http://arxiv.org/abs/2402.16671v2
- Date: Wed, 28 Feb 2024 14:49:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 12:01:29.998936
- Title: StructLM: Towards Building Generalist Models for Structured Knowledge
Grounding
- Title(参考訳): StructLM:構造化知識接地のための汎用モデルの構築に向けて
- Authors: Alex Zhuang, Ge Zhang, Tianyu Zheng, Xinrun Du, Junjie Wang, Weiming
Ren, Stephen W. Huang, Jie Fu, Xiang Yue, Wenhu Chen
- Abstract要約: StructLMは、評価された18のデータセットのうち14のタスク固有のモデルを上回る一連のモデルである。
予測とは対照的に,StructLM-34BはStructLM-7Bよりもわずかに改善されている。
- 参考スコア(独自算出の注目度): 50.73401326337493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured data sources, such as tables, graphs, and databases, are
ubiquitous knowledge sources. Despite the demonstrated capabilities of large
language models (LLMs) on plain text, their proficiency in interpreting and
utilizing structured data remains limited. Our investigation reveals a notable
deficiency in LLMs' ability to process structured data, e.g., ChatGPT lags
behind state-of-the-art (SoTA) model by an average of 35%. To augment the
Structured Knowledge Grounding (SKG) capabilities in LLMs, we have developed a
comprehensive instruction tuning dataset comprising 1.1 million examples.
Utilizing this dataset, we train a series of models, referred to as StructLM,
based on the Code-LLaMA architecture, ranging from 7B to 34B parameters. Our
StructLM series surpasses task-specific models on 14 out of 18 evaluated
datasets and establishes new SoTA achievements on 7 SKG tasks. Furthermore,
StructLM demonstrates exceptional generalization across 6 novel SKG tasks.
Contrary to expectations, we observe that scaling model size offers marginal
benefits, with StructLM-34B showing only slight improvements over StructLM-7B.
This suggests that structured knowledge grounding is still a challenging task
and requires more innovative design to push to a new level.
- Abstract(参考訳): テーブル、グラフ、データベースなどの構造化データソースはユビキタスな知識ソースである。
プレーンテキスト上での大規模言語モデル(LLM)の実証能力にもかかわらず、構造化データの解釈と利用能力は依然として限られている。
我々の研究は、LLMが構造化データを処理する能力に顕著な欠陥があることを明らかにしている。例えば、ChatGPTは最先端(SoTA)モデルに平均35%遅れている。
llmsにおける構造化知識グラウンド(skg)機能を強化するため,111万例からなる包括的命令チューニングデータセットを開発した。
このデータセットを利用して、7Bから34BパラメータのCode-LLaMAアーキテクチャに基づいて、StructLMと呼ばれる一連のモデルをトレーニングする。
我々のStructLMシリーズは、評価された18のデータセットのうち14のタスク固有モデルを超え、7つのSKGタスクに新しいSoTAの成果を確立する。
さらに、StructLMは6つの新しいSKGタスクにまたがる例外的な一般化を示す。
予測とは対照的に,StructLM-34BはStructLM-7Bよりもわずかに改善されている。
これは、構造化知識基盤は依然として困難な課題であり、新しいレベルに進むためにはより革新的な設計が必要であることを示唆している。
関連論文リスト
- LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Increasing The Performance of Cognitively Inspired Data-Efficient
Language Models via Implicit Structure Building [6.445605125467575]
階層型文構造に関する教師なし予測をモデルアーキテクチャに組み込んだ言語モデルを訓練する。
StructFormerモデルは、限られた事前学習データに基づいて教師なしの構文誘導でうまく機能することが示されている。
BabyLMチャレンジが提供する39のタスクに対するモデルの評価は、階層的バイアスをアーキテクチャに組み込むモデルの改善を期待できることを示す。
論文 参考訳(メタデータ) (2023-10-31T16:26:36Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex
Structured Data? [52.17988569079598]
現在のLarge Language Models (LLM) は複雑な構造化された出力を生成する必要のあるタスクと競合する。
本稿では,この能力向上のソリューションとして,構造を考慮した微調整手法を提案する。
実験の結果,LLaMA-7Bに適用した場合,構造認識による微調整手法は自然言語の制約への順応性を著しく向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - StructGPT: A General Framework for Large Language Model to Reason over
Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。
提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-16T17:45:23Z) - StrAE: Autoencoding for Pre-Trained Embeddings using Explicit Structure [5.2869308707704255]
StrAEは構造化オートエンコーダフレームワークであり、明示的な構造に厳格に固執することで、マルチレベル表現の効果的な学習を可能にする。
本研究の結果は,入力として提供される構造に直接的な関連性があることを示し,既存のツリーモデルではそうではないことを示す。
次に、StrAEを拡張して、単純なローカライズ・マージアルゴリズムを用いてモデルが独自の構成を定義する。
論文 参考訳(メタデータ) (2023-05-09T16:20:48Z) - LasUIE: Unifying Information Extraction with Latent Adaptive
Structure-aware Generative Language Model [96.889634747943]
全ての典型的な情報抽出タスク(UIE)を1つの生成言語モデル(GLM)で普遍的にモデル化し、大きな可能性を明らかにした。
UIE のための構文知識のパワーを完全に解放する構造対応 GLM を提案する。
7つのタスクにわたるIEベンチマークが12以上あり、私たちのシステムはベースラインのUIEシステムよりも大幅に改善されていることを示しています。
論文 参考訳(メタデータ) (2023-04-13T04:01:14Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。