論文の概要: In-Context Learning for Long-Context Sentiment Analysis on Infrastructure Project Opinions
- arxiv url: http://arxiv.org/abs/2410.11265v1
- Date: Tue, 15 Oct 2024 04:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:04:10.559147
- Title: In-Context Learning for Long-Context Sentiment Analysis on Infrastructure Project Opinions
- Title(参考訳): インフラプロジェクトにおける長期感性分析のためのインコンテキスト学習
- Authors: Alireza Shamshiri, Kyeong Rok Ryu, June Young Park,
- Abstract要約: 本研究では, GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Proの3大言語モデルの性能評価を行った。
以上の結果から,GPT-4oはより単純で短い文書のゼロショットシナリオに優れており,Claude 3.5 Sonnetはより複雑で感情変動的な意見を扱うという点でGPT-4oを上回っていることがわかった。
- 参考スコア(独自算出の注目度): 2.974480694911691
- License:
- Abstract: Large language models (LLMs) have achieved impressive results across various tasks. However, they still struggle with long-context documents. This study evaluates the performance of three leading LLMs: GPT-4o, Claude 3.5 Sonnet, and Gemini 1.5 Pro on lengthy, complex, and opinion-varying documents concerning infrastructure projects, under both zero-shot and few-shot scenarios. Our results indicate that GPT-4o excels in zero-shot scenarios for simpler, shorter documents, while Claude 3.5 Sonnet surpasses GPT-4o in handling more complex, sentiment-fluctuating opinions. In few-shot scenarios, Claude 3.5 Sonnet outperforms overall, while GPT-4o shows greater stability as the number of demonstrations increases.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクで印象的な結果を得た。
しかし、長文文書に苦戦している。
本研究では,GPT-4o,Claude 3.5 Sonnet,Gemini 1.5 Proの3つの主要なLCMの性能を評価する。
以上の結果から,GPT-4oはより単純で短い文書のゼロショットシナリオに優れており,Claude 3.5 Sonnetはより複雑で感情変動的な意見を扱うという点でGPT-4oを上回っていることがわかった。
数ショットのシナリオでは、Claude 3.5 Sonnetは全体的にパフォーマンスが向上し、GPT-4oはデモの数が増えるにつれて安定性が向上する。
関連論文リスト
- Can Large Language Models do Analytical Reasoning? [45.69642663863077]
本稿では,スポーツにおける分析的推論を用いた最先端の大規模言語モデルについて検討する。
GPT-4が有効であり,次いでClaude-2.1,GPT-3.5,Gemini-Pro,Llama-2-70bが遅れている。
意外なことに、GPT-4を含むほとんどのモデルでは、NFLのクォータースコアは高いパフォーマンスを示したにもかかわらず、NBAのクォーターの総得点を正確に数えるのに苦労している。
論文 参考訳(メタデータ) (2024-03-06T20:22:08Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - A Comparative Analysis of Large Language Models for Code Documentation Generation [1.9282110216621835]
本論文は, GPT-3.5, GPT-4, Bard, Llama2, Starchat などのモデルについて, 精度, 完全性, 妥当性, 可読性, 可読性, タイムテイクなどのパラメータについて検討した。
論文 参考訳(メタデータ) (2023-12-16T06:40:09Z) - Large language models for aspect-based sentiment analysis [0.0]
GPT-4 と GPT-3.5 の性能をゼロショット, 少ないショット, 微調整で評価した。
微調整 GPT-3.5 は、共同アスペクト項抽出と極性分類タスクにおいて最先端の F1 スコア 83.8 を達成する。
論文 参考訳(メタデータ) (2023-10-27T10:03:21Z) - Prompt Engineering or Fine Tuning: An Empirical Assessment of Large
Language Models in Automated Software Engineering Tasks [8.223311621898983]
対話型プロンプトを持つ GPT-4 は, 自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善を示した。
完全に自動化されたプロンプトエンジニアリング ループに人間はいない より多くの研究と改善が必要です
論文 参考訳(メタデータ) (2023-10-11T00:21:00Z) - GPT-3.5, GPT-4, or BARD? Evaluating LLMs Reasoning Ability in Zero-Shot
Setting and Performance Boosting Through Prompts [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。
本稿では, GPT-3.5, GPT-4, BARDモデルの性能について, 様々な推論タスクについて, 徹底的な技術的評価を行うことにより検討する。
論文 参考訳(メタデータ) (2023-05-21T14:45:17Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。
その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。
GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文 参考訳(メタデータ) (2021-09-16T09:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。