論文の概要: Small Language Model Is a Good Guide for Large Language Model in Chinese
Entity Relation Extraction
- arxiv url: http://arxiv.org/abs/2402.14373v1
- Date: Thu, 22 Feb 2024 08:26:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:52:35.485937
- Title: Small Language Model Is a Good Guide for Large Language Model in Chinese
Entity Relation Extraction
- Title(参考訳): 中国語エンティティ関係抽出における大言語モデルのための小言語モデルの提案
- Authors: Xuemei Tang and Jun Wang and Qi Su
- Abstract要約: 本稿では,モデルコラボレーションフレームワークSLCoLMを提案する。
textit-Training-Guide-Predict' 戦略を用いて,事前学習言語モデル (PLM) と大規模言語モデル (LLM) の強みを組み合わせる。
関係型に富んだREデータセットに対する実験により,本論文のアプローチが長い関係型のREを促進することを示す。
- 参考スコア(独自算出の注目度): 13.344709924683471
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, large language models (LLMs) have been successful in relational
extraction (RE) tasks, especially in the few-shot learning. An important
problem in the field of RE is long-tailed data, while not much attention is
currently paid to this problem using LLM approaches. Therefore, in this paper,
we propose SLCoLM, a model collaboration framework, to mitigate the data
long-tail problem. In our framework, We use the
``\textit{Training-Guide-Predict}'' strategy to combine the strengths of
pre-trained language models (PLMs) and LLMs, where a task-specific PLM
framework acts as a tutor, transfers task knowledge to the LLM, and guides the
LLM in performing RE tasks. Our experiments on a RE dataset rich in relation
types show that the approach in this paper facilitates RE of long-tail relation
types.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)はリレーショナル抽出(RE)タスク,特に数ショット学習において成功している。
REの分野における重要な問題は、長い尾を持つデータであるが、LLMアプローチを用いてこの問題にはあまり注目されていない。
そこで本稿では,データロングテール問題を軽減するためのモデルコラボレーションフレームワークであるslcolmを提案する。
このフレームワークでは,<\textit{Training-Guide-Predict}' という戦略を用いて,事前学習言語モデル (PLM) と LLM の強みを組み合わせ,タスク固有の PLM フレームワークがチューターとして機能し,タスク知識を LLM に伝達し,RE タスクの実行において LLM を導く。
関係型に富んだREデータセットに対する実験により,本論文のアプローチが長い関係型のREを促進することを示す。
関連論文リスト
- Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
論文 参考訳(メタデータ) (2024-03-05T04:58:37Z) - Unsupervised Information Refinement Training of Large Language Models
for Retrieval-Augmented Generation [133.52393894760107]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [50.408957515411096]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential
Behavior Comprehension in Recommendation [44.89764672511655]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z) - Enhancing In-Context Learning with Answer Feedback for Multi-Span
Question Answering [9.158919909909146]
本稿では,LLMが望ましくない出力を通知するなど,ラベル付きデータを活用する新しい手法を提案する。
3つのマルチスパン質問応答データセットとキーフレーズ抽出データセットの実験により、我々の新しいプロンプト戦略はLLMの文脈内学習性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2023-06-07T15:20:24Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。