論文の概要: Zero-Shot End-to-End Relation Extraction in Chinese: A Comparative Study of Gemini, LLaMA and ChatGPT
- arxiv url: http://arxiv.org/abs/2502.05694v1
- Date: Sat, 08 Feb 2025 21:12:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:36:09.971252
- Title: Zero-Shot End-to-End Relation Extraction in Chinese: A Comparative Study of Gemini, LLaMA and ChatGPT
- Title(参考訳): 中国におけるゼロショットエンドツーエンド関係抽出:Gemini, LLaMA, ChatGPTの比較検討
- Authors: Shaoshuai Du, Yiyi Tao, Yixian Shen, Hang Zhang, Yanxin Shen, Xinyu Qiu, Chuanqi Shi,
- Abstract要約: 本研究では,中国語のエンドツーエンド関係抽出(RE)における様々な大規模言語モデル(LLM)の性能について検討する。
以前の研究のほとんどは英語に焦点をあてるか、事前に注釈付けされたエンティティを仮定し、中国語のREでの有効性は未解明のままである。
精度,効率,適応性に基づいてChatGPT,Gemini,LLaMAを評価した。
- 参考スコア(独自算出の注目度): 1.6099554688900524
- License:
- Abstract: This study investigates the performance of various large language models (LLMs) on zero-shot end-to-end relation extraction (RE) in Chinese, a task that integrates entity recognition and relation extraction without requiring annotated data. While LLMs show promise for RE, most prior work focuses on English or assumes pre-annotated entities, leaving their effectiveness in Chinese RE largely unexplored. To bridge this gap, we evaluate ChatGPT, Gemini, and LLaMA based on accuracy, efficiency, and adaptability. ChatGPT demonstrates the highest overall performance, balancing precision and recall, while Gemini achieves the fastest inference speed, making it suitable for real-time applications. LLaMA underperforms in both accuracy and latency, highlighting the need for further adaptation. Our findings provide insights into the strengths and limitations of LLMs for zero-shot Chinese RE, shedding light on trade-offs between accuracy and efficiency. This study serves as a foundation for future research aimed at improving LLM adaptability to complex linguistic tasks in Chinese NLP.
- Abstract(参考訳): 本研究では,中国語のゼロショット・エンド・ツー・エンド関係抽出(RE)における様々な大規模言語モデル(LLM)の性能について検討する。
LLMはREを約束する一方で、以前の研究は英語に焦点をあてたり、注釈付きエンティティを前提にしており、中国のREでの有効性はほとんど解明されていない。
このギャップを埋めるため、精度、効率、適応性に基づいてChatGPT、Gemini、LLaMAを評価した。
ChatGPTは高い全体的なパフォーマンスを示し、精度とリコールのバランスをとる一方、Geminiは推論速度を最速に達成し、リアルタイムアプリケーションに適している。
LLaMAは精度とレイテンシの両方で性能が低く、さらなる適応の必要性を強調している。
以上の結果から, ゼロショット中国のREにおけるLDMの強度と限界に関する知見が得られ, 精度と効率のトレードオフに光を当てることができた。
本研究は,中国NLPにおける複雑な言語課題に対するLLM適応性の向上を目的とした今後の研究の基盤となる。
関連論文リスト
- Exploring Accuracy-Fairness Trade-off in Large Language Models [10.5817207739373]
本研究では,大規模言語モデルの拡張において,精度と公平性を調和させることの難しさについて検討する。
1つの計量の過度な最適化は、必然的にもう1つの計量を著しく劣化させる。
本研究は,多目的進化学習(MOEL)手法が,この課題に対処するための有望な方法であることを明らかにした。
論文 参考訳(メタデータ) (2024-11-21T04:40:35Z) - Are LLMs Good Annotators for Discourse-level Event Relation Extraction? [15.365993658296016]
大規模言語モデル (LLM) は、様々な自然言語処理タスクにおいて習熟度を示す。
本研究は, 教師あり学習によって確立されたベースラインと比較して, LLMの顕著な性能低下を明らかにした。
論文 参考訳(メタデータ) (2024-07-28T19:27:06Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Are LLMs Effective Backbones for Fine-tuning? An Experimental Investigation of Supervised LLMs on Chinese Short Text Matching [12.213307496643376]
中国語短文マッチング作業のための微調整LDMによる実験的検討を行った。
タスクモデリング手法,プロンプト形式,出力形式など,微調整LDMの性能に影響を及ぼす諸要因について検討する。
論文 参考訳(メタデータ) (2024-03-29T02:36:54Z) - Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations [34.07537926291133]
CHARMは、中国語で大規模言語モデル(LLM)の常識推論能力を評価するための、網羅的で詳細なベンチマークである。
我々はCHARMで7つの英語と12の中国語のLLMを評価した。
一部のLLMは中国の常識を覚えることに苦労し、推論能力に影響を及ぼす一方、同様のパフォーマンスにもかかわらず推論の違いを示す。
論文 参考訳(メタデータ) (2024-03-21T03:52:01Z) - Rethinking the Roles of Large Language Models in Chinese Grammatical
Error Correction [62.409807640887834]
中国語の文法的誤り訂正(CGEC)は、入力文中のすべての文法的誤りを修正することを目的としている。
CGECの修正器としてのLLMの性能は、課題の焦点が難しいため不満足なままである。
CGECタスクにおけるLCMの役割を再考し、CGECでよりよく活用し、探索できるようにした。
論文 参考訳(メタデータ) (2024-02-18T01:40:34Z) - Are Large Language Models Good Fact Checkers: A Preliminary Study [26.023148371263012]
大規模言語モデル(LLM)は、その卓越した推論能力と広範な知識リポジトリによって、大きな注目を集めている。
本研究の目的は,特定のファクトチェックサブタスクに対処する上で,様々なLSMを包括的に評価することである。
論文 参考訳(メタデータ) (2023-11-29T05:04:52Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - SCALE: Synergized Collaboration of Asymmetric Language Translation
Engines [105.8983433641208]
本稿では,コンパクトな特殊翻訳モデル (STM) と汎用大言語モデル (LLM) を1つの統合翻訳エンジンとして結合する協調フレームワークを提案する。
STMからの翻訳を3重項インコンテキストのデモに導入することで、SCALEはLLMの洗練とピボット能力を解放する。
実験の結果,SCALEは低リソース環境において,少数ショットLLM (GPT-4) と特殊モデル (NLLB) の両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-29T08:46:38Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。