Fugu-MT 論文翻訳(概要): Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest

論文の概要: Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest

arxiv url: http://arxiv.org/abs/2502.11275v1
Date: Sun, 16 Feb 2025 21:32:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.970502
Title: Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest
Title（参考訳）: Cuckoo:LLMのNestで大量の栄養を摂取したIEフリーライダー
Authors: Letian Peng, Zilong Wang, Feng Yao, Jingbo Shang,
Abstract要約: 本研究では,情報抽出モデルが大規模言語モデル (LLM) リソースのフリーライダーとして機能することを示す。 We show that IE model can act a free riders on LLM resources by reframing next-token emphprediction into emphextraction for tokens present in the context。具体的には,提案する次世代トークン抽出(NTE)パラダイムを用いて,LLMの事前学習および後学習データから102.6Mの抽出データを変換し,汎用IEモデルであるemphCuckooを学習する。
参考スコア（独自算出の注目度）: 36.58490792678384
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Massive high-quality data, both pre-training raw texts and post-training annotations, have been carefully prepared to incubate advanced large language models (LLMs). In contrast, for information extraction (IE), pre-training data, such as BIO-tagged sequences, are hard to scale up. We show that IE models can act as free riders on LLM resources by reframing next-token \emph{prediction} into \emph{extraction} for tokens already present in the context. Specifically, our proposed next tokens extraction (NTE) paradigm learns a versatile IE model, \emph{Cuckoo}, with 102.6M extractive data converted from LLM's pre-training and post-training data. Under the few-shot setting, Cuckoo adapts effectively to traditional and complex instruction-following IE with better performance than existing pre-trained IE models. As a free rider, Cuckoo can naturally evolve with the ongoing advancements in LLM data preparation, benefiting from improvements in LLM training pipelines without additional manual effort.
Abstract（参考訳）: 事前学習された原文と後学習のアノテーションの両方を含む大量の高品質なデータは、高度に大規模言語モデル(LLM)をインキュベートするために慎重に準備されている。対照的に、情報抽出(IE)では、BIOタグ付きシーケンスのような事前学習データのスケールアップが困難である。 We show that IE model can action as free riders on LLM resources by reframing next-token \emph{prediction} to \emph{extraction} for tokens already in the context。具体的には,提案する次世代トークン抽出(NTE)パラダイムを用いて,LLMの事前学習および後学習データから102.6Mの抽出データを変換し,汎用IEモデルである \emph{Cuckoo} を学習する。数ショット設定では、Cuckooは既存のトレーニング済みのIEモデルよりも優れたパフォーマンスで、従来の複雑な命令追従IEに効果的に適応する。フリーライダーとして、CuckooはLLMデータ準備の継続的な進歩とともに自然に進化し、追加の手作業なしでLLMトレーニングパイプラインの改善の恩恵を受けることができる。

関連論文リスト

LLM-based Semantic Augmentation for Harmful Content Detection [5.954202581988127]
本稿では,大規模言語モデルに対して,雑音の多いテキストをきれいにし,文脈に富んだ説明を提供するアプローチを提案する。我々はSemEval 2024マルチラベルPersuasive Memeデータセットを評価し、Google Jigsawの有毒なコメントとFacebookの憎しみのあるミームデータセットで検証した。その結果, 教師付きモデルと比較して, ゼロショットLLM分類はこれらの高文脈タスクでは不十分であることが判明した。
論文参考訳（メタデータ） (2025-04-22T02:59:03Z)
Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,LLM学習を必要とせず,高品質な事前学習データを選択するフレームワークを提案する。我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。提案手法は,DataComp-LMで見つかった最高のデータセレクタをマッチングしながら,各ベンチマークでDSIRより優れている。
論文参考訳（メタデータ） (2024-09-09T17:23:29Z)
Beyond Next Token Prediction: Patch-Level Training for Large Language Models [69.67438563485887]
大規模言語モデル(LLM)に対するパッチレベルのトレーニングを導入する。パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。パッチレベルのトレーニングは、モデルのパフォーマンスを損なうことなく、全体のトレーニングコストを0.5$times$に削減できることを示す。
論文参考訳（メタデータ） (2024-07-17T15:48:39Z)
Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文参考訳（メタデータ） (2024-03-05T19:32:01Z)
In-Context Unlearning: Language Models as Few Shot Unlearners [27.962361828354716]
我々は,Large Language Models (LLMs) のための新しいアンラーニング手法を提案する。このメソッドは、モデルパラメータを更新することなく、コンテキスト内で特定の種類の入力を提供することで、モデルからインスタンスを解放する。実験の結果、文脈内アンラーニングは、モデルパラメータへのアクセスを必要とする他の最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-10-11T15:19:31Z)
Pre-training with Synthetic Data Helps Offline Reinforcement Learning [4.531082205797088]
性能向上には言語が不可欠ではないことを示す。次に、人気のあるオフラインDRLアルゴリズムである保守的Q-Learning(CQL)について検討する。驚くべきことに、少数の更新のための単純な合成データによる事前トレーニングにより、CQLも改善される。
論文参考訳（メタデータ） (2023-10-01T19:32:14Z)
ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation [43.270424225285105]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文参考訳（メタデータ） (2023-08-22T02:25:04Z)
CodeIE: Large Code Generation Models are Better Few-Shot Information Extractors [92.17328076003628]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、多くのNLPタスクにおいて、驚くべき数ショットの学習能力を示している。本稿では、自然言語の代わりに構造化された出力をコード形式で再キャストすることを提案する。
論文参考訳（メタデータ） (2023-05-09T18:40:31Z)
IELM: An Open Information Extraction Benchmark for Pre-Trained Language Models [75.48081086368606]
我々は、事前学習言語モデル(LM)のための新しいオープン情報抽出(OIE)ベンチマークを導入する。我々は、事前訓練されたLMに存在するオープンリレーショナル情報を十分に検証することを目的としたOIEベンチマークを作成する。驚いたことに、事前訓練されたLMは、両方の標準OIEデータセットで競合する性能を得ることができる。
論文参考訳（メタデータ） (2022-10-25T16:25:00Z)
On the Transferability of Pre-trained Language Models: A Study from Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文参考訳（メタデータ） (2021-09-08T10:39:57Z)
COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。 COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文参考訳（メタデータ） (2021-02-16T22:24:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。