論文の概要: Instructed Language Models with Retrievers Are Powerful Entity Linkers
- arxiv url: http://arxiv.org/abs/2311.03250v1
- Date: Mon, 6 Nov 2023 16:38:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 13:35:12.473576
- Title: Instructed Language Models with Retrievers Are Powerful Entity Linkers
- Title(参考訳): Retrieverを使った命令型言語モデルは強力なエンティティリンカである
- Authors: Zilin Xiao, Ming Gong, Jie Wu, Xingyao Zhang, Linjun Shou, Jian Pei,
Daxin Jiang
- Abstract要約: Instructed Generative Entity Linker (INSGENEL)は、カジュアル言語モデルが知識ベース上でエンティティリンクを実行することを可能にする最初のアプローチである。
INSGENEL は、+6.8 F1 点が平均的に上昇する以前の生成的代替よりも優れていた。
- 参考スコア(独自算出の注目度): 87.16283281290053
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative approaches powered by large language models (LLMs) have
demonstrated emergent abilities in tasks that require complex reasoning
abilities. Yet the generative nature still makes the generated content suffer
from hallucinations, thus unsuitable for entity-centric tasks like entity
linking (EL) requiring precise entity predictions over a large knowledge base.
We present Instructed Generative Entity Linker (INSGENEL), the first approach
that enables casual language models to perform entity linking over knowledge
bases. Several methods to equip language models with EL capability were
proposed in this work, including (i) a sequence-to-sequence training EL
objective with instruction-tuning, (ii) a novel generative EL framework based
on a light-weight potential mention retriever that frees the model from heavy
and non-parallelizable decoding, achieving 4$\times$ speedup without compromise
on linking metrics. INSGENEL outperforms previous generative alternatives with
+6.8 F1 points gain on average, also with a huge advantage in training data
efficiency and training compute consumption. In addition, our skillfully
engineered in-context learning (ICL) framework for EL still lags behind
INSGENEL significantly, reaffirming that the EL task remains a persistent
hurdle for general LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用した生成的アプローチは、複雑な推論能力を必要とするタスクにおいて創発的能力を示す。
しかし、生成するコンテンツは幻覚に苦しむため、エンティティリンク(el)のようなエンティティ中心のタスクには、大きな知識ベースで正確なエンティティ予測が必要となる。
本稿では,カジュアル言語モデルが知識ベース上でのエンティティリンクを実現するための最初のアプローチであるgenerative entity linker(insgenel)について述べる。
言語モデルにEL機能を持たせるためのいくつかの手法が提案されている。
i)命令調整によるシーケンス・ツー・シーケンス・トレーニングEL目標
(II)重くて並列化不可能なデコードからモデルを解放し、メトリクスのリンクに妥協することなく4$\times$スピードアップを達成する軽量な潜在的な参照レトリバーに基づく新しいELフレームワーク。
INSGENELは、データ効率のトレーニングと計算消費のトレーニングにおいて大きな利点があり、+6.8 F1ポイントの以前の生成代替よりも平均的に優れている。
さらに、elのicl(skillally engineered in-context learning)フレームワークはいまだにinsgenelに大きく遅れており、elタスクが一般的なllmにとって永続的なハードルであることを再確認しています。
関連論文リスト
- Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Enhancing Retrieval-Augmented Large Language Models with Iterative
Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。
モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。
Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文 参考訳(メタデータ) (2023-05-24T16:17:36Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Selective Token Generation for Few-shot Natural Language Generation [19.015739016376532]
我々は、強化学習(RL)に基づく新しい追加学習アルゴリズムを開発する。
提案した選択トークン生成法は, PLM に基づく従来の付加的学習アルゴリズムよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-09-17T00:48:52Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z) - SAS: Self-Augmented Strategy for Language Model Pre-training [31.69657711092598]
言語モデルの事前トレーニングにおけるほとんどのデータ拡張は、文脈に依存しない。
モデルに1つのフォワードパスを用いた自己拡張戦略 (SAS) を提案し, 次の時代におけるモデルトレーニングのための入力データを拡張した。
我々のSASは,計算GLUEタスクにおいて,ELECTRAや他の最先端モデルよりも同等あるいはより低コストで性能を向上することができる。
論文 参考訳(メタデータ) (2021-06-14T05:57:46Z) - Energy-Based Models for Code Generation under Compilability Constraints [2.9176992922046923]
本研究では,コンパイル可能なコードを制約満足度として生成する学習の課題を提起する。
本稿では,コンパイル可能なシーケンスのみを生成する制約を課した,事前学習された生成モデルを表すEnergy-Based Model(EBM)を定義する。
次に,KL-Adaptive Distributional Policy Gradientアルゴリズムを用いて,EMMを近似した生成モデルを訓練する。
論文 参考訳(メタデータ) (2021-06-09T11:06:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。