Fugu-MT 論文翻訳(概要): Instructed Language Models with Retrievers Are Powerful Entity Linkers

論文の概要: Instructed Language Models with Retrievers Are Powerful Entity Linkers

arxiv url: http://arxiv.org/abs/2311.03250v1
Date: Mon, 6 Nov 2023 16:38:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 13:35:12.473576
Title: Instructed Language Models with Retrievers Are Powerful Entity Linkers
Title（参考訳）: Retrieverを使った命令型言語モデルは強力なエンティティリンカである
Authors: Zilin Xiao, Ming Gong, Jie Wu, Xingyao Zhang, Linjun Shou, Jian Pei, Daxin Jiang
Abstract要約: Instructed Generative Entity Linker (INSGENEL)は、カジュアル言語モデルが知識ベース上でエンティティリンクを実行することを可能にする最初のアプローチである。 INSGENEL は、+6.8 F1 点が平均的に上昇する以前の生成的代替よりも優れていた。
参考スコア（独自算出の注目度）: 87.16283281290053
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Generative approaches powered by large language models (LLMs) have demonstrated emergent abilities in tasks that require complex reasoning abilities. Yet the generative nature still makes the generated content suffer from hallucinations, thus unsuitable for entity-centric tasks like entity linking (EL) requiring precise entity predictions over a large knowledge base. We present Instructed Generative Entity Linker (INSGENEL), the first approach that enables casual language models to perform entity linking over knowledge bases. Several methods to equip language models with EL capability were proposed in this work, including (i) a sequence-to-sequence training EL objective with instruction-tuning, (ii) a novel generative EL framework based on a light-weight potential mention retriever that frees the model from heavy and non-parallelizable decoding, achieving 4$\times$ speedup without compromise on linking metrics. INSGENEL outperforms previous generative alternatives with +6.8 F1 points gain on average, also with a huge advantage in training data efficiency and training compute consumption. In addition, our skillfully engineered in-context learning (ICL) framework for EL still lags behind INSGENEL significantly, reaffirming that the EL task remains a persistent hurdle for general LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)を利用した生成的アプローチは、複雑な推論能力を必要とするタスクにおいて創発的能力を示す。しかし、生成するコンテンツは幻覚に苦しむため、エンティティリンク(el)のようなエンティティ中心のタスクには、大きな知識ベースで正確なエンティティ予測が必要となる。本稿では,カジュアル言語モデルが知識ベース上でのエンティティリンクを実現するための最初のアプローチであるgenerative entity linker(insgenel)について述べる。言語モデルにEL機能を持たせるためのいくつかの手法が提案されている。 i)命令調整によるシーケンス・ツー・シーケンス・トレーニングEL目標 (II)重くて並列化不可能なデコードからモデルを解放し、メトリクスのリンクに妥協することなく4$\times$スピードアップを達成する軽量な潜在的な参照レトリバーに基づく新しいELフレームワーク。 INSGENELは、データ効率のトレーニングと計算消費のトレーニングにおいて大きな利点があり、+6.8 F1ポイントの以前の生成代替よりも平均的に優れている。さらに、elのicl(skillally engineered in-context learning)フレームワークはいまだにinsgenelに大きく遅れており、elタスクが一般的なllmにとって永続的なハードルであることを再確認しています。

関連論文リスト

Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines [71.14354526117958]
In-context Learning (ICL) は、事前訓練された大規模言語モデル(LLM)の重要かつ完全には理解されていない能力である。タスク言語とフォーマット特性をキャプチャする2つのガイドラインの並列ストリームを効率よく生成するLongGuideを提案する。 LongGuideはガイドラインの最良の組み合わせを自動的に選択し、ゼロショット設定と少数ショット設定の両方で、強力なオープンソースLLMとクローズドソースLLMの両方を5%以上改善する。
論文参考訳（メタデータ） (2025-06-02T02:35:24Z)
Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning [80.27561080938747]
本研究では,人間のアノテーションを使わずに,大規模言語モデル(LLM)の短文および長文生成タスクにおける忠実度を改善するための体系的フレームワークであるCANOEを提案する。また,ルールに基づく強化学習手法であるDual-GRPOを提案する。実験結果から,CANOEは11の下流タスクにまたがるLLMの忠実度を大幅に向上し,最も先進的なLLMよりも優れていた。
論文参考訳（メタデータ） (2025-05-22T10:10:07Z)
UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models [54.75551043657238]
学習可能なパラメトリック接尾辞(アンラーニングトークン)を用いて、ターゲットとなる忘れ行動に向けて言語モデルを操る新しいアンラーニングパラダイムであるUniEraseを紹介する。 UniEraseは、実世界の知識設定の下で、バッチ、シーケンシャル、そして正確なアンラーニングで、最先端のSOTA(State-of-the-art)パフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-21T15:53:28Z)
Efficient Tuning of Large Language Models for Knowledge-Grounded Dialogue Generation [21.52726424882653]
KEDiTは、知識基底対話生成のための大規模言語モデルを微調整する効率的な方法である。まず、検索した知識を学習可能なパラメータに圧縮するために情報ボトルネックを使用し、計算オーバーヘッドを最小限に抑えながら重要な情報を保持する。ウィキペディアのウィザードと新しく構築されたPubMed-Dialogデータセットの実験結果は、KEDiTが文脈的に関連があり、情報的な応答を生成するのに優れていることを示している。
論文参考訳（メタデータ） (2025-04-10T13:54:36Z)
EAGER-LLM: Enhancing Large Language Models as Recommenders through Exogenous Behavior-Semantic Integration [60.47645731801866]
大規模言語モデル(LLM)は、高度なレコメンデータシステムの基本バックボーンとしてますます活用されている。 LLMは事前訓練された言語意味論であるが、llm-Backboneを通してゼロから協調意味論を学ぶ。内因性行動情報と内因性行動情報とを非侵襲的に統合するデコーダのみの生成推薦フレームワークであるEAGER-LLMを提案する。
論文参考訳（メタデータ） (2025-02-20T17:01:57Z)
Oreo: A Plug-in Context Reconstructor to Enhance Retrieval-Augmented Generation [28.568010424711563]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) の機能強化を目的としている。生成に使用する前に検索したチャンクを洗練するために設計された,コンパクトで効率的な,プラグ可能なモジュールを導入する。
論文参考訳（メタデータ） (2025-02-18T16:38:39Z)
Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文参考訳（メタデータ） (2024-10-01T04:20:14Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。 Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文参考訳（メタデータ） (2023-05-24T16:17:36Z)
Concept-aware Training Improves In-context Learning Ability of Language Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。テキスト内情報をよりよく活用できるLMを作成する手法を提案する。概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文参考訳（メタデータ） (2023-05-23T07:44:52Z)
GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。 GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文参考訳（メタデータ） (2022-12-20T12:51:11Z)
Selective Token Generation for Few-shot Natural Language Generation [19.015739016376532]
我々は、強化学習(RL)に基づく新しい追加学習アルゴリズムを開発する。提案した選択トークン生成法は, PLM に基づく従来の付加的学習アルゴリズムよりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2022-09-17T00:48:52Z)
Offline RL for Natural Language Generation with Implicit Language Q Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。 ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文参考訳（メタデータ） (2022-06-05T18:38:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。