論文の概要: LLaMA-Based Models for Aspect-Based Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2508.08649v1
- Date: Tue, 12 Aug 2025 05:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.309783
- Title: LLaMA-Based Models for Aspect-Based Sentiment Analysis
- Title(参考訳): アスペクトベース感性分析のためのLLaMAモデル
- Authors: Jakub Šmíd, Pavel Přibáň, Pavel Král,
- Abstract要約: 大規模言語モデル(LLM)は様々なタスクを約束し、複雑なアスペクトベースの感情分析(ABSA)タスクのパフォーマンスは微調整モデルに遅れている。
本稿では,ABSA 向けに微調整されたオープンソース LLM の機能について検討し,LLaMA ベースのモデルに着目した。
我々は、4つのタスクと8つの英語データセットのパフォーマンスを評価し、微調整されたOrca2モデルがすべてのタスクで最先端の結果を上回ることを発見した。
- 参考スコア(独自算出の注目度): 0.8602553195689511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) show promise for various tasks, their performance in compound aspect-based sentiment analysis (ABSA) tasks lags behind fine-tuned models. However, the potential of LLMs fine-tuned for ABSA remains unexplored. This paper examines the capabilities of open-source LLMs fine-tuned for ABSA, focusing on LLaMA-based models. We evaluate the performance across four tasks and eight English datasets, finding that the fine-tuned Orca~2 model surpasses state-of-the-art results in all tasks. However, all models struggle in zero-shot and few-shot scenarios compared to fully fine-tuned ones. Additionally, we conduct error analysis to identify challenges faced by fine-tuned models.
- Abstract(参考訳): 大きな言語モデル(LLM)は様々なタスクを約束するが、複雑なアスペクトベースの感情分析(ABSA)タスクのパフォーマンスは微調整モデルに遅れている。
しかし、ABSAのために微調整されたLLMのポテンシャルは未解明のままである。
本稿では,ABSA 向けに微調整されたオープンソース LLM の機能について検討し,LLaMA ベースのモデルに着目した。
我々は、4つのタスクと8つの英語データセットのパフォーマンスを評価し、微調整されたOrca~2モデルがすべてのタスクで最先端の結果を上回ることを発見した。
しかしながら、すべてのモデルは、完全に微調整されたモデルと比べてゼロショットと少数ショットのシナリオで苦労する。
さらに、細調整されたモデルが直面する課題を特定するために、エラー解析を行う。
関連論文リスト
- Large Language Models for Czech Aspect-Based Sentiment Analysis [0.8602553195689511]
ドメイン固有の小さなモデルでは、ABSAはゼロショットと少数ショットの設定で汎用LLMより優れている。
我々は,多言語性,モデルサイズ,遅延などの要因が性能に与える影響を分析し,重要な課題を浮き彫りにする誤り解析を提示する。
論文 参考訳(メタデータ) (2025-08-11T11:24:57Z) - Reasoning Multimodal Large Language Model: Data Contamination and Dynamic Evaluation [9.434966074326056]
MLLM(Multimodal Large Language Models)は、視覚ベースのベンチマーク性能を示すが、真の一般化を隠蔽するデータ汚染リスクへの懸念が増大している。
静的ベンチマークを超えてMLLMの一般化を厳格に評価する新しい動的評価フレームワークを提案する。
シミュレーションテストデータ(極端汚染)の微調整はタスク固有の性能を大幅に向上させるが、全体的な一般化には悪影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2025-06-08T15:52:38Z) - LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning [76.82159851648711]
負対に対する埋め込みモデルの表現学習を動的に改善するフレームワークを提案する。
LLaVEは、最先端(SOTA)のパフォーマンスを実現する強力なベースラインを確立する。
LLaVEはゼロショット方式でテキストビデオ検索タスクを一般化し、高い性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T10:21:57Z) - Zero-Shot Commonsense Validation and Reasoning with Large Language Models: An Evaluation on SemEval-2020 Task 4 Dataset [0.16385815610837165]
本研究では,SemEval-2020 Task 4データセット上でのLarge Language Models(LLM)の性能を評価する。
モデルは、タスクA(Commonsense Validation)とタスクB(Commonsense Explanation)の2つのタスクでテストされる。
結果、LLaMA3-70BはタスクAで98.40%の最高精度を達成し、タスクBで93.40%の旧モデルより遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-19T12:40:49Z) - PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。
LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。
我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文 参考訳(メタデータ) (2024-04-06T20:02:20Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - EmoLLMs: A Series of Emotional Large Language Models and Annotation Tools for Comprehensive Affective Analysis [33.0280076936761]
EmoLLMs はオープンソースの命令追従型 LLM の第1シリーズであり,インストラクションデータを用いた各種 LLM の微調整に基づく感情分析を行う。
EmoLLMは、感情分析タスクにおいて、ChatGPTレベルおよびGPT-4レベルの一般化機能を実現する。
論文 参考訳(メタデータ) (2024-01-16T17:11:11Z) - Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue [122.20016030723043]
大規模言語モデル(LLM)におけるモデル編集の副作用を評価する。
分析の結果,モデルの重みを過度に修正したモデル編集によって副作用が生じることが明らかとなった。
これを軽減するために、修正の重み付けを正規化するためにRECTというメソッドが提案されている。
論文 参考訳(メタデータ) (2024-01-09T18:03:15Z) - Large language models for aspect-based sentiment analysis [0.0]
GPT-4 と GPT-3.5 の性能をゼロショット, 少ないショット, 微調整で評価した。
微調整 GPT-3.5 は、共同アスペクト項抽出と極性分類タスクにおいて最先端の F1 スコア 83.8 を達成する。
論文 参考訳(メタデータ) (2023-10-27T10:03:21Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。