論文の概要: TIFG: Text-Informed Feature Generation with Large Language Models
- arxiv url: http://arxiv.org/abs/2406.11177v1
- Date: Mon, 17 Jun 2024 03:29:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 18:33:51.803525
- Title: TIFG: Text-Informed Feature Generation with Large Language Models
- Title(参考訳): TIFG:大規模言語モデルを用いたテキストインフォームド特徴生成
- Authors: Xinhao Zhang, Jinghan Zhang, Fengran Mo, Yuzhong Chen, Kunpeng Liu,
- Abstract要約: テキスト・インフォームド・フィーチャー・ジェネレーション(TIFG)は,テキストベースの新しい特徴生成フレームワークである。
TheTIFGは、Retrieval Augmented Generation (RAG)技術を用いて、外部知識内の可能性のある機能を取得することで、機能を生成する。
下流タスクにおける様々な実験は、我々のアプローチが高品質で有意義な特徴を生み出すことができ、既存の手法よりもはるかに優れていることを示している。
- 参考スコア(独自算出の注目度): 7.445440204397416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textual information of data is of vital importance for data mining and feature engineering. However, existing methods focus on learning the data structures and overlook the textual information along with the data. Consequently, they waste this valuable resource and miss out on the deeper data relationships embedded within the texts. In this paper, we introduce Text-Informed Feature Generation (TIFG), a novel LLM-based text-informed feature generation framework. TIFG utilizes the textual information to generate features by retrieving possible relevant features within external knowledge with Retrieval Augmented Generation (RAG) technology. In this approach, the TIFG can generate new explainable features to enrich the feature space and further mine feature relationships. We design the TIFG to be an automated framework that continuously optimizes the feature generation process, adapts to new data inputs, and improves downstream task performance over iterations. A broad range of experiments in various downstream tasks showcases that our approach can generate high-quality and meaningful features, and is significantly superior to existing methods.
- Abstract(参考訳): データのテキスト情報は、データマイニングと機能エンジニアリングにとって極めて重要である。
しかし、既存の手法では、データ構造を学習し、データとともにテキスト情報を見渡すことに重点を置いている。
その結果、彼らはこの貴重なリソースを無駄にし、テキストに埋め込まれた深いデータ関係を見逃します。
本稿では,新しい LLM ベースのテキストインフォームド特徴生成フレームワークである Text-Informed Feature Generation (TIFG) を紹介する。
TIFGは、テキスト情報を利用して、検索可能な拡張生成(RAG)技術を用いて、外部知識内の可能性のある機能を検索することで、特徴を生成する。
このアプローチでは、TIFGは機能空間を強化し、機能関係をさらに掘り下げるために、新しい説明可能な機能を生成することができる。
我々は、TIFGを機能生成プロセスを継続的に最適化し、新しいデータ入力に適応し、反復よりも下流タスクのパフォーマンスを向上させる自動化フレームワークとして設計する。
様々な下流タスクにおける幅広い実験は、我々のアプローチが高品質で有意義な特徴を生み出すことができ、既存の手法よりもはるかに優れていることを示している。
関連論文リスト
- Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - GPT Struct Me: Probing GPT Models on Narrative Entity Extraction [2.049592435988883]
我々は,2つの最先端言語モデル(GPT-3とGPT-3.5)の物語の抽出能力を評価する。
本研究はポルトガルの119のニュース記事を集めたText2Story Lusaデータセットを用いて行った。
論文 参考訳(メタデータ) (2023-11-24T16:19:04Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Empower Text-Attributed Graphs Learning with Large Language Models
(LLMs) [5.920353954082262]
本稿では,Large Language Models (LLMs) を用いたノード生成によるテキスト分散グラフの強化のためのプラグイン・アンド・プレイ手法を提案する。
エッジ予測器を用いて、生のデータセットに固有の構造情報をキャプチャし、新たに生成されたサンプルを元のグラフに統合する。
実験では、特に低ショットシナリオにおいて、提案したパラダイムの卓越した性能を示す。
論文 参考訳(メタデータ) (2023-10-15T16:04:28Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Exploring In-Context Learning Capabilities of Foundation Models for
Generating Knowledge Graphs from Text [3.114960935006655]
本論文は,知識グラフの自動構築と完成の技術をテキストから改善することを目的としている。
この文脈では、新しいパラダイムの1つは、言語モデルがプロンプトとともにそのまま使われる、コンテキスト内学習である。
論文 参考訳(メタデータ) (2023-05-15T17:10:19Z) - Active Retrieval Augmented Generation [123.68874416084499]
外部知識資源から情報を取得することで、大きな言語モデル(LM)を拡張することは、有望な解決策である。
ほとんどの既存の検索拡張LMは、入力に基づいて一度だけ情報を検索する検索と生成のセットアップを採用している。
本稿では,将来的な内容を予測するために,文の予測を反復的に利用する汎用手法であるフォワード・フォワード・アクティブ・レトリヴァル・ジェネレーション・ジェネレーション(FLARE)を提案する。
論文 参考訳(メタデータ) (2023-05-11T17:13:40Z) - Informative Text Generation from Knowledge Triples [56.939571343797304]
本稿では,トレーニング中に学習した有用な知識を記憶するために,メモリネットワークを利用した新しいメモリ拡張ジェネレータを提案する。
我々は、新しい設定のためのWebNLGからデータセットを導き、我々のモデルの有効性を調べるための広範な実験を行う。
論文 参考訳(メタデータ) (2022-09-26T14:35:57Z) - ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。
我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。
本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文 参考訳(メタデータ) (2020-04-30T14:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。