Fugu-MT 論文翻訳(概要): Evaluating Zero-Shot Multilingual Aspect-Based Sentiment Analysis with Large Language Models

論文の概要: Evaluating Zero-Shot Multilingual Aspect-Based Sentiment Analysis with Large Language Models

arxiv url: http://arxiv.org/abs/2412.12564v1
Date: Tue, 17 Dec 2024 05:48:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.553756
Title: Evaluating Zero-Shot Multilingual Aspect-Based Sentiment Analysis with Large Language Models
Title（参考訳）: 大規模言語モデルを用いたゼロショット多言語アスペクトに基づく感性分析の評価
Authors: Chengyan Wu, Bolei Ma, Zheyu Zhang, Ningyuan Deng, Yanqing He, Yun Xue,
Abstract要約: 我々は,大規模言語モデル(LLM)をゼロショット条件下で評価し,ABSA課題に取り組む可能性を探る。本稿では,バニラゼロショット,チェーン・オブ・シント(CoT),自己改善,自己議論,自己整合性など,様々な促進策について検討する。その結果、LLMは多言語ABSAを扱う上での有望性を示すが、一般的には細調整されたタスク固有モデルに欠けることがわかった。
参考スコア（独自算出の注目度）: 0.9832963381777073
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Aspect-based sentiment analysis (ABSA), a sequence labeling task, has attracted increasing attention in multilingual contexts. While previous research has focused largely on fine-tuning or training models specifically for ABSA, we evaluate large language models (LLMs) under zero-shot conditions to explore their potential to tackle this challenge with minimal task-specific adaptation. We conduct a comprehensive empirical evaluation of a series of LLMs on multilingual ABSA tasks, investigating various prompting strategies, including vanilla zero-shot, chain-of-thought (CoT), self-improvement, self-debate, and self-consistency, across nine different models. Results indicate that while LLMs show promise in handling multilingual ABSA, they generally fall short of fine-tuned, task-specific models. Notably, simpler zero-shot prompts often outperform more complex strategies, especially in high-resource languages like English. These findings underscore the need for further refinement of LLM-based approaches to effectively address ABSA task across diverse languages.
Abstract（参考訳）: シーケンスラベリングタスクであるアスペクトベース感情分析(ABSA)は、多言語文脈において注目を集めている。前回の研究では、ABSA専用の微調整モデルやトレーニングモデルに重点を置いているが、ゼロショット条件下での大規模言語モデル(LLM)を評価し、タスク特化を最小限に抑えてこの問題に取り組む可能性を探る。我々は,多言語ABSAタスクにおける一連のLLMの包括的実証評価を行い,バニラゼロショット,チェーン・オブ・シント(CoT),自己改善,自己議論,自己整合性など,9つのモデルにわたる様々な促進戦略について検討した。その結果、LLMは多言語ABSAを扱う上での有望性を示すが、一般的には細調整されたタスク固有モデルに欠けることがわかった。特に、より単純なゼロショットプロンプトは、特に英語のような高リソース言語において、より複雑な戦略を上回ります。これらの知見は、多様な言語でABSAタスクを効果的に処理するためのLLMベースのアプローチのさらなる改良の必要性を浮き彫りにしている。

関連論文リスト

Improving Generative Cross-lingual Aspect-Based Sentiment Analysis with Constrained Decoding [0.8602553195689511]
本稿では,シーケンス・ツー・シーケンスモデルを用いた制約付き復号法を提案する。最も複雑なタスクでは、言語間のパフォーマンスを平均で5%向上させる。我々は7つの言語と6つのABSAタスクにまたがるアプローチを評価した。
論文参考訳（メタデータ） (2025-08-14T06:07:53Z)
Advancing Cross-lingual Aspect-Based Sentiment Analysis with LLMs and Constrained Decoding for Sequence-to-Sequence Models [0.8602553195689511]
現在の言語横断型ABSA研究は、単純なタスクに重点を置いており、外部翻訳ツールに大きく依存している。本稿では,複雑なABSAタスクのための新しいシーケンス・ツー・シーケンス方式を提案する。制約付き復号法を用いる我々の手法は,言語間ABSAの性能を最大10%向上させる。
論文参考訳（メタデータ） (2025-08-14T06:07:43Z)
Few-shot Cross-lingual Aspect-Based Sentiment Analysis with Sequence-to-Sequence Models [0.8602553195689511]
4つのABSAタスクと6つのターゲット言語と2つのシーケンス・ツー・シーケンス・モデルからなるトレーニングセットに、少数ショット対象言語サンプルを追加する効果を評価する。我々は、1000のターゲット言語例と英語データを組み合わせることで、モノリンガルベースラインを超越することも実証した。
論文参考訳（メタデータ） (2025-08-11T11:31:37Z)
Large Language Models for Czech Aspect-Based Sentiment Analysis [0.8602553195689511]
ドメイン固有の小さなモデルでは、ABSAはゼロショットと少数ショットの設定で汎用LLMより優れている。我々は,多言語性,モデルサイズ,遅延などの要因が性能に与える影響を分析し,重要な課題を浮き彫りにする誤り解析を提示する。
論文参考訳（メタデータ） (2025-08-11T11:24:57Z)
The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文参考訳（メタデータ） (2025-06-11T16:00:54Z)
Large Language Models for Multilingual Vulnerability Detection: How Far Are We? [13.269680075539135]
多言語脆弱性検出のための事前学習言語モデル(PLM)と大規模言語モデル(LLM)の有効性を評価する。 7つの言語にまたがる3万以上の現実世界の脆弱性修正パッチを使用して、機能レベルとラインレベルの両方でモデルパフォーマンスを評価します。 GPT-4oはインストラクションチューニングと数発のプロンプトによって強化され、他の評価モデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2025-06-09T07:27:49Z)
Multilingual Definition Modeling [1.9409995498330783]
私たちは4つの新言語(スペイン語、フランス語、ポルトガル語、ドイツ語)に単言語辞書データを使用します。このデータに微調整を施すと, 単文単語の定義モデル上で, 事前学習した多言語言語モデルの性能を検証した。結果から,多言語モデルでは英語のオンペア化が可能であるが,言語間相乗効果の可能性が示唆された。
論文参考訳（メタデータ） (2025-06-02T09:48:37Z)
Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文参考訳（メタデータ） (2025-05-24T12:31:27Z)
Demystifying Multilingual Chain-of-Thought in Process Reward Modeling [71.12193680015622]
プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
論文参考訳（メタデータ） (2025-02-18T09:11:44Z)
Evalita-LLM: Benchmarking Large Language Models on Italian [3.3334839725239798]
Evalita-LLM(エヴァリタ-LLM)は、イタリア語のタスクでLarge Language Models(LLM)を評価するために設計されたベンチマークである。すべてのタスクはネイティブなイタリア語であり、イタリア語からの翻訳の問題や潜在的な文化的偏見を避ける。ベンチマークには生成タスクが含まれており、LLMとのより自然なインタラクションを可能にする。
論文参考訳（メタデータ） (2025-02-04T12:58:19Z)
Exploring Robustness of LLMs to Sociodemographically-Conditioned Paraphrasing [7.312170216336085]
我々は、社会デミノグラフィーの次元にまたがる幅広いバリエーションを探求するために、より広いアプローチを取る。我々はSocialIQAデータセットを拡張し、ソシオデミノグラフィースタイルを条件とした多様なパラフレーズセットを作成する。人口統計学的パラフレーズが言語モデルの性能に大きく影響していることが判明した。
論文参考訳（メタデータ） (2025-01-14T17:50:06Z)
Align, Generate, Learn: A Novel Closed-Loop Framework for Cross-Lingual In-Context Learning [0.0]
言語間インコンテキスト学習(XICL)は、多言語タスクに対処するために大規模言語モデル(LLM)を活用するための変換パラダイムとして登場した。タスク関連事例を内部的に選択・活用するために, LLMの生成能力を活用する, 自己管理型フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-12T05:36:51Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs [36.30321941154582]
Herculeは、英語で利用可能な参照回答に基づいて、応答にスコアを割り当てることを学ぶ言語間評価モデルである。本研究は,LLMを用いた言語横断評価の総合的研究であり,多言語評価のためのスケーラブルで効果的なアプローチを提案する。
論文参考訳（メタデータ） (2024-10-17T09:45:32Z)
Single Ground Truth Is Not Enough: Add Linguistic Variability to Aspect-based Sentiment Analysis Evaluation [41.66053021998106]
アスペクトベース感情分析(ABSA)は、人間の言語から感情を抽出する上で困難な課題である。このタスクの現在の評価手法は、表面形が異なる意味論的に等価な予測をペナルティ化して、単一の真実に対する答えを制限することが多い。我々は、アスペクトと意見の項に対して、代替の有効なレスポンスで既存のテストセットを拡張する、新しく完全に自動化されたパイプラインを提案する。
論文参考訳（メタデータ） (2024-10-13T11:48:09Z)
LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文参考訳（メタデータ） (2024-06-24T03:36:29Z)
ROAST: Review-level Opinion Aspect Sentiment Target Joint Detection for ABSA [50.90538760832107]
本研究は新たな課題であるROAST(Review-Level Opinion Aspect Sentiment Target)を提示する。 ROASTは、文章レベルのABSAとテキストレベルのABSAのギャップを埋めようとしている。利用可能なデータセットを拡張してROASTを有効にし、以前の研究で指摘された欠点に対処します。
論文参考訳（メタデータ） (2024-05-30T17:29:15Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文参考訳（メタデータ） (2024-03-04T10:48:13Z)
Cross-lingual QA: A Key to Unlocking In-context Cross-lingual Performance [2.371686365695081]
クロスランガルQAは、質問と回答の部分のみを翻訳し、翻訳コストを削減できる言語間プロンプト手法である。 4つのタイプ的多言語ベンチマークの実験により、クロスランガルQAはモデルに効果的に刺激を与え、クロスランガルの知識を引き出すことを示した。本研究は,言語間実例を用いたオープンソースMLLMの高速化により,モデルスケールの増大に伴い,性能が向上することを示す。
論文参考訳（メタデータ） (2023-05-24T15:14:49Z)
Multilingual Large Language Models Are Not (Yet) Code-Switchers [41.47534626749588]
大規模言語モデル(LLM)は、最近、幅広いタスクにおいて優れた機能を示している。発話の中で言語を交互に行う習慣は、いまだにほとんど受け継がれていない。 LLMの現在の「多言語主義」は、本質的にはコードスイッチングテキストの習熟度を示唆していない、と我々は主張する。
論文参考訳（メタデータ） (2023-05-23T16:50:48Z)
Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文参考訳（メタデータ） (2022-05-24T03:35:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。