Fugu-MT 論文翻訳(概要): In-Context Learning for Long-Context Sentiment Analysis on Infrastructure Project Opinions

論文の概要: In-Context Learning for Long-Context Sentiment Analysis on Infrastructure Project Opinions

arxiv url: http://arxiv.org/abs/2410.11265v1
Date: Tue, 15 Oct 2024 04:42:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.61469
Title: In-Context Learning for Long-Context Sentiment Analysis on Infrastructure Project Opinions
Title（参考訳）: インフラプロジェクトにおける長期感性分析のためのインコンテキスト学習
Authors: Alireza Shamshiri, Kyeong Rok Ryu, June Young Park,
Abstract要約: 本研究では, GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Proの3大言語モデルの性能評価を行った。以上の結果から,GPT-4oはより単純で短い文書のゼロショットシナリオに優れており,Claude 3.5 Sonnetはより複雑で感情変動的な意見を扱うという点でGPT-4oを上回っていることがわかった。
参考スコア（独自算出の注目度）: 2.974480694911691
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have achieved impressive results across various tasks. However, they still struggle with long-context documents. This study evaluates the performance of three leading LLMs: GPT-4o, Claude 3.5 Sonnet, and Gemini 1.5 Pro on lengthy, complex, and opinion-varying documents concerning infrastructure projects, under both zero-shot and few-shot scenarios. Our results indicate that GPT-4o excels in zero-shot scenarios for simpler, shorter documents, while Claude 3.5 Sonnet surpasses GPT-4o in handling more complex, sentiment-fluctuating opinions. In few-shot scenarios, Claude 3.5 Sonnet outperforms overall, while GPT-4o shows greater stability as the number of demonstrations increases.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々なタスクで印象的な結果を得た。しかし、長文文書に苦戦している。本研究では,GPT-4o,Claude 3.5 Sonnet,Gemini 1.5 Proの3つの主要なLCMの性能を評価する。以上の結果から,GPT-4oはより単純で短い文書のゼロショットシナリオに優れており,Claude 3.5 Sonnetはより複雑で感情変動的な意見を扱うという点でGPT-4oを上回っていることがわかった。数ショットのシナリオでは、Claude 3.5 Sonnetは全体的にパフォーマンスが向上し、GPT-4oはデモの数が増えるにつれて安定性が向上する。

関連論文リスト

Reasoning about Affordances: Causal and Compositional Reasoning in LLMs [0.0]
本研究では,大規模言語モデル (LLM) と人間による,物価の分野における因果的・構成的推論能力について検討する。実験1では, GPT-3.5 と GPT-4o を比較し, GPT-4o がヒトと同等であったのに対し, GPT-3.5 は有意に低下していた。実験2では, GPTモデルに加えて, Distractor と Image という2つの新しい条件を導入し, Claude 3 Sonnet と Claude 3.5 Sonnet の評価を行った。 GPT-4oとClaude 3.5は依然としてかなり上回っているが、ディトラクタ条件は人体とモデル間で性能を著しく低下させた。
論文参考訳（メタデータ） (2025-02-23T15:21:47Z)
Counting-Stars: A Multi-evidence, Position-aware, and Scalable Benchmark for Evaluating Long-Context Large Language Models [14.906150451947443]
textbfCounting-Starsは、長文LLMのマルチエビデンス検索能力を評価するために設計されたマルチエビデンス、位置認識、スケーラブルなベンチマークである。我々は, GPT-4 Turbo, Gemini 1.5 Pro, Claude3 Opus, GLM-4, Moonshot-v1 などの長文 LLM の評価実験を行った。 Gemini 1.5 Proは、GPT-4 Turboは、様々なタスクで最も安定したパフォーマンスを示す。
論文参考訳（メタデータ） (2024-03-18T14:01:45Z)
Can Large Language Models do Analytical Reasoning? [45.69642663863077]
本稿では,スポーツにおける分析的推論を用いた最先端の大規模言語モデルについて検討する。 GPT-4が有効であり,次いでClaude-2.1,GPT-3.5,Gemini-Pro,Llama-2-70bが遅れている。意外なことに、GPT-4を含むほとんどのモデルでは、NFLのクォータースコアは高いパフォーマンスを示したにもかかわらず、NBAのクォーターの総得点を正確に数えるのに苦労している。
論文参考訳（メタデータ） (2024-03-06T20:22:08Z)
Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。分析の核となるのは、各モデルの視覚的理解能力である。両モデルのユニークな強みとニッチを照らし出した。
論文参考訳（メタデータ） (2023-12-22T18:59:58Z)
A Comparative Analysis of Large Language Models for Code Documentation Generation [1.9282110216621835]
本論文は, GPT-3.5, GPT-4, Bard, Llama2, Starchat などのモデルについて, 精度, 完全性, 妥当性, 可読性, 可読性, タイムテイクなどのパラメータについて検討した。
論文参考訳（メタデータ） (2023-12-16T06:40:09Z)
Large language models for aspect-based sentiment analysis [0.0]
GPT-4 と GPT-3.5 の性能をゼロショット, 少ないショット, 微調整で評価した。微調整 GPT-3.5 は、共同アスペクト項抽出と極性分類タスクにおいて最先端の F1 スコア 83.8 を達成する。
論文参考訳（メタデータ） (2023-10-27T10:03:21Z)
Prompt Engineering or Fine Tuning: An Empirical Assessment of Large Language Models in Automated Software Engineering Tasks [8.223311621898983]
対話型プロンプトを持つ GPT-4 は, 自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善を示した。完全に自動化されたプロンプトエンジニアリングループに人間はいないより多くの研究と改善が必要です
論文参考訳（メタデータ） (2023-10-11T00:21:00Z)
GPT-3.5, GPT-4, or BARD? Evaluating LLMs Reasoning Ability in Zero-Shot Setting and Performance Boosting Through Prompts [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。本稿では, GPT-3.5, GPT-4, BARDモデルの性能について, 様々な推論タスクについて, 徹底的な技術的評価を行うことにより検討する。
論文参考訳（メタデータ） (2023-05-21T14:45:17Z)
Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文参考訳（メタデータ） (2023-04-05T03:49:06Z)
GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文参考訳（メタデータ） (2023-03-15T17:15:04Z)
Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-10-17T14:52:39Z)
Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。 GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文参考訳（メタデータ） (2021-09-16T09:44:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。