論文の概要: LaiDA: Linguistics-aware In-context Learning with Data Augmentation for Metaphor Components Identification
- arxiv url: http://arxiv.org/abs/2408.05404v1
- Date: Sat, 10 Aug 2024 02:02:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 19:11:07.054015
- Title: LaiDA: Linguistics-aware In-context Learning with Data Augmentation for Metaphor Components Identification
- Title(参考訳): LaiDA:メタファー成分同定のためのデータ拡張による言語学的文脈学習
- Authors: Hongde Liu, Chenyuan He, Feiyang Meng, Changyong Niu, Yuxiang Jia,
- Abstract要約: 大規模言語モデル(LLM)は、複雑な自然言語テキストの正確な理解のための新しい道を提供する。
LLMベースの新しいフレームワークが提案され、Lingguistics-aware In-context Learning with Data Augmentation (LaiDA) と名付けられた。
グラフアテンションネットワークエンコーダは言語的にリッチな特徴表現を生成し、同様の例を検索する。
- 参考スコア(独自算出の注目度): 0.07989135005592125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Metaphor Components Identification (MCI) contributes to enhancing machine understanding of metaphors, thereby advancing downstream natural language processing tasks. However, the complexity, diversity, and dependency on context and background knowledge pose significant challenges for MCI. Large language models (LLMs) offer new avenues for accurate comprehension of complex natural language texts due to their strong semantic analysis and extensive commonsense knowledge. In this research, a new LLM-based framework is proposed, named Linguistics-aware In-context Learning with Data Augmentation (LaiDA). Specifically, ChatGPT and supervised fine-tuning are utilized to tailor a high-quality dataset. LaiDA incorporates a simile dataset for pre-training. A graph attention network encoder generates linguistically rich feature representations to retrieve similar examples. Subsequently, LLM is fine-tuned with prompts that integrate linguistically similar examples. LaiDA ranked 2nd in Subtask 2 of NLPCC2024 Shared Task 9, demonstrating its effectiveness. Code and data are available at https://github.com/WXLJZ/LaiDA.
- Abstract(参考訳): メタファーコンポーネント識別(MCI)は、メタファの機械的理解の向上に寄与し、下流の自然言語処理タスクを促進する。
しかし、複雑性、多様性、背景知識への依存は、MCIにとって大きな課題となる。
大規模言語モデル(LLM)は、その強力な意味分析と広範な常識知識により、複雑な自然言語テキストの正確な理解のための新しい道を提供する。
本研究では,Linguistics-aware In-context Learning with Data Augmentation (LaiDA)という,LLMに基づく新しいフレームワークを提案する。
具体的には、ChatGPTと教師付き微調整を使用して、高品質なデータセットをカスタマイズする。
LaiDAには、事前トレーニング用のsimileデータセットが組み込まれている。
グラフアテンションネットワークエンコーダは言語的にリッチな特徴表現を生成し、同様の例を検索する。
その後、LLMは言語的に類似した例を統合するプロンプトで微調整される。
レイダはNLPCC2024共有タスク9のサブタスク2で2位にランクインし、その効果を示した。
コードとデータはhttps://github.com/WXLJZ/LaiDA.comで公開されている。
関連論文リスト
- Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。
視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。
SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文 参考訳(メタデータ) (2024-09-02T08:56:12Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Entity Aware Syntax Tree Based Data Augmentation for Natural Language
Understanding [5.02493891738617]
本研究では,木構造,エンティティ・アウェア・シンタクス・ツリー (EAST) を応用した新しいNLPデータ拡張手法を提案する。
我々のEADA技術は、少量の注釈付きデータからEASTを自動的に構築し、インテント検出とスロットフィリングのための多数のトレーニングインスタンスを生成する。
4つのデータセットに対する実験結果から,提案手法は,精度と一般化能力の両方の観点から,既存のデータ拡張手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-09-06T07:34:10Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - Hierarchical Multi Task Learning with Subword Contextual Embeddings for
Languages with Rich Morphology [5.5217350574838875]
自然言語処理(NLP)における多くのシーケンスラベリングタスクにおける形態情報の重要性
本研究では, 単語文脈埋め込みを用いて, 豊富な形態素を持つ言語に対する形態情報を取得することを提案する。
我々のモデルは、トルコ語の両方のタスクにおける過去の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-25T22:55:56Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。