論文の概要: AmalREC: A Dataset for Relation Extraction and Classification Leveraging Amalgamation of Large Language Models
- arxiv url: http://arxiv.org/abs/2412.20427v1
- Date: Sun, 29 Dec 2024 10:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:03:44.777331
- Title: AmalREC: A Dataset for Relation Extraction and Classification Leveraging Amalgamation of Large Language Models
- Title(参考訳): AmalREC:大規模言語モデルのアマルガメーションを利用した関係抽出と分類のためのデータセット
- Authors: Mansi, Pranshu Pandya, Mahek Bhavesh Vora, Soumya Bharadwaj, Ashish Anand,
- Abstract要約: この研究は、(i)関係から文を生成する方法、(ii)関係を比較・ランク付けする方法、(iii)個々の方法の強みを組み合わせて、文のさらにベットな品質を生成する方法、(iv)最終的なデータセットを評価する方法、といった主な疑問に焦点を当てた。
- 参考スコア(独自算出の注目度): 0.7381551917607596
- License:
- Abstract: Existing datasets for relation classification and extraction often exhibit limitations such as restricted relation types and domain-specific biases. This work presents a generic framework to generate well-structured sentences from given tuples with the help of Large Language Models (LLMs). This study has focused on the following major questions: (i) how to generate sentences from relation tuples, (ii) how to compare and rank them, (iii) can we combine strengths of individual methods and amalgamate them to generate an even bette quality of sentences, and (iv) how to evaluate the final dataset? For the first question, we employ a multifaceted 5-stage pipeline approach, leveraging LLMs in conjunction with template-guided generation. We introduce Sentence Evaluation Index(SEI) that prioritizes factors like grammatical correctness, fluency, human-aligned sentiment, accuracy, and complexity to answer the first part of the second question. To answer the second part of the second question, this work introduces a SEI-Ranker module that leverages SEI to select top candidate generations. The top sentences are then strategically amalgamated to produce the final, high-quality sentence. Finally, we evaluate our dataset on LLM-based and SOTA baselines for relation classification. The proposed dataset features 255 relation types, with 15K sentences in the test set and around 150k in the train set organized in, significantly enhancing relational diversity and complexity. This work not only presents a new comprehensive benchmark dataset for RE/RC task, but also compare different LLMs for generation of quality sentences from relational tuples.
- Abstract(参考訳): 関係分類と抽出のための既存のデータセットは、制限された関係型やドメイン固有のバイアスのような制限を示すことが多い。
この研究は、Large Language Models (LLM) の助けを借りて、与えられたタプルから構造化された文を生成するための一般的なフレームワークを示す。
本研究は,以下の主要な疑問に焦点をあてた。
(i)関係タプルから文を生成する方法
(二)比較・格付けの仕方
三 個々の方法の長所を組み合せて一括して文の質を生み出すことができること。
(iv)最終データセットの評価方法?
まず,LLMとテンプレート誘導生成を併用した多面的5段階パイプライン方式を提案する。
本稿では,第2質問の前半に答えるために,文法的正しさ,流布度,人間に沿った感情,正確性,複雑度などの因子を優先するセンテンス評価指標を提案する。
2つ目の疑問に答えるために、この研究はSEI-Rankerモジュールを導入し、SEIを利用して上位候補の世代を選択する。
上位の文は、最終的な高品質な文を生成するために戦略的に合併される。
最後に、関係分類のためのLLMベースとSOTAベースラインのデータセットを評価する。
提案したデータセットは、テストセットに15K文、編成された列車セットに約150kのリレーショナルタイプ255を特徴とし、リレーショナルの多様性と複雑性を著しく向上させる。
この研究は、RE/RCタスクのための新しい包括的なベンチマークデータセットを提示するだけでなく、リレーショナルタプルから品質文を生成するために異なるLLMを比較する。
関連論文リスト
- Rephrasing natural text data with different languages and quality levels for Large Language Model pre-training [12.29061850090405]
既存の結果をC4で複製し、最適化されたリフレーズパイプラインで拡張することで、以前の作業の上に構築します。
私たちのパイプラインは、単言語と多言語の両方のセットアップにおける標準評価ベンチマークのパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2024-10-28T07:30:05Z) - FRACTAL: Fine-Grained Scoring from Aggregate Text Labels [17.052047103156372]
大規模言語モデル(LLM)は、書き込み、ファクト検索、クエリ、推論といった複雑な生成タスクをパワーアップするように調整されている。
伝統的に、LLM性能の評価とチューニングのための人間またはモデルフィードバックが応答レベルで提供されてきた。
最近の研究は、文レベルのラベルがLLM最適化のためのより正確で解釈可能なフィードバックを提供する可能性を示唆している。
論文 参考訳(メタデータ) (2024-04-07T05:54:28Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - What Makes Sentences Semantically Related: A Textual Relatedness Dataset
and Empirical Study [31.062129406113588]
本稿では,5500の英文対を手動で注釈付けしたセマンティックテキスト関連性データセットSTR-2022を紹介する。
文対の関連性に関する人間の直感は信頼性が高く, 繰り返しアノテーションの相関は0.84である。
また, STR-2022は, 文章表現の自動手法や, 下流の様々なNLPタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2021-10-10T16:23:54Z) - Using BERT Encoding and Sentence-Level Language Model for Sentence
Ordering [0.9134244356393667]
本稿では,短い記事のコーパスにおける文順序付けのアルゴリズムを提案する。
提案手法では,アテンション機構を用いて文の依存関係をキャプチャするUniversal Transformer (UT) に基づく言語モデルを用いる。
提案モデルには文、言語モデル、Brute Force Searchによる文配列の3つのコンポーネントが含まれている。
論文 参考訳(メタデータ) (2021-08-24T23:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。