論文の概要: An evaluation of LLMs for generating movie reviews: GPT-4o, Gemini-2.0 and DeepSeek-V3
- arxiv url: http://arxiv.org/abs/2506.00312v1
- Date: Fri, 30 May 2025 23:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.697183
- Title: An evaluation of LLMs for generating movie reviews: GPT-4o, Gemini-2.0 and DeepSeek-V3
- Title(参考訳): 映画レビュー作成のためのLCMの評価:GPT-4o, Gemini-2.0, DeepSeek-V3
- Authors: Brendan Sands, Yining Wang, Chenhao Xu, Yuxuan Zhou, Lai Wei, Rohitash Chandra,
- Abstract要約: 大規模言語モデル(LLM)の製品レビュー生成への適用性は、勢いを増している。
3つのLCM(GPT-4o, DeepSeek-V3, Gemini-2.0)を用いて映画レビューを生成するフレームワークを提案する。
生成した出力をIMDbユーザレビューと比較することにより,その性能を評価する。
- 参考スコア(独自算出の注目度): 8.061047317867333
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have been prominent in various tasks, including text generation and summarisation. The applicability of LLMs to the generation of product reviews is gaining momentum, paving the way for the generation of movie reviews. In this study, we propose a framework that generates movie reviews using three LLMs (GPT-4o, DeepSeek-V3, and Gemini-2.0), and evaluate their performance by comparing the generated outputs with IMDb user reviews. We use movie subtitles and screenplays as input to the LLMs and investigate how they affect the quality of reviews generated. We review the LLM-based movie reviews in terms of vocabulary, sentiment polarity, similarity, and thematic consistency in comparison to IMDB user reviews. The results demonstrate that LLMs are capable of generating syntactically fluent and structurally complete movie reviews. Nevertheless, there is still a noticeable gap in emotional richness and stylistic coherence between LLM-generated and IMDb reviews, suggesting that further refinement is needed to improve the overall quality of movie review generation. We provided a survey-based analysis where participants were told to distinguish between LLM and IMDb user reviews. The results show that LLM-generated reviews are difficult to distinguish from IMDB user reviews. We found that DeepSeek-V3 produced the most balanced reviews, closely matching IMDb reviews. GPT-4o overemphasised positive emotions, while Gemini-2.0 captured negative emotions better but showed excessive emotional intensity.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト生成や要約など、様々なタスクで顕著である。
LLMの製品レビュー生成への適用性は勢いを増し、映画レビュー生成への道が開けている。
本研究では,3つのLCM(GPT-4o,DeepSeek-V3,Gemini-2.0)を用いて映画レビューを生成するフレームワークを提案する。
映画の字幕と脚本をLCMの入力として使用し、それらが生成されたレビューの質に与える影響について検討する。
IMDBユーザレビューと比較して,語彙,感情極性,類似性,テーマ整合性の観点からLLMに基づく映画レビューをレビューする。
以上の結果から,LLMは構文的に流動的で構造的に完全な映画レビューを生成することができることが示された。
それでも、LLM生成レビューとIMDbレビューの間には、感情豊かさとスタイリスティックなコヒーレンスの間には目覚ましいギャップがあり、映画レビュー生成の全体的な品質を改善するためには、さらなる改善が必要であることを示唆している。
参加者はLCMとIMDbのユーザレビューを区別するように指示された。
その結果, IMDB ユーザレビューと LLM 生成レビューを区別することは困難であった。
私たちは、DeepSeek-V3が最もバランスの取れたレビューを作成し、IMDbレビューと密接に一致した。
GPT-4oは肯定的な感情を過度に強調し、Gemini-2.0は否定的な感情をより良く捉えたが、過度な感情の強さを示した。
関連論文リスト
- Detecting LLM-Generated Peer Reviews [37.51215252353345]
大規模言語モデル(LLM)の台頭は、一部のレビュアーが独立して記述するのではなく、レビューを生成するためにこれらのツールに依存するのではないかという懸念を提起している。
論文のPDFを通じて間接的インジェクションを行うアプローチを考察し,LLMが生成したレビューに隠された透かしを埋め込むよう促す。
本稿では,複数のレビューにまたがって家族的誤り率を制御し,標準的な修正よりも高い統計力を実現する透かし方式と仮説テストを導入する。
論文 参考訳(メタデータ) (2025-03-20T01:11:35Z) - Mind the Blind Spots: A Focus-Level Evaluation Framework for LLM Reviews [46.0003776499898]
大きな言語モデル(LLM)は、レビューを自動的にドラフトできる。
LLM生成レビューが信頼できるかどうかを決定するには、体系的な評価が必要である。
注意の正規分布として焦点を運用する焦点レベル評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-02-24T12:05:27Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。
我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。
我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文 参考訳(メタデータ) (2024-08-19T19:10:38Z) - Review-LLM: Harnessing Large Language Models for Personalized Review Generation [8.898103706804616]
大規模言語モデル(LLM)は、優れたテキストモデリングと生成能力を示している。
パーソナライズされたレビュー生成のためのLLMをカスタマイズするReview-LLMを提案する。
論文 参考訳(メタデータ) (2024-07-10T09:22:19Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - A Closer Look into Automatic Evaluation Using Large Language Models [75.49360351036773]
評価プロセスの細部が、LLMが与える評価と人間の評価との相関性をどのように変化させるかについて議論する。
G-Evalで使用されるAuto Chain-of-Thought (CoT)は、必ずしもG-Evalを人間の評価に適合させるものではない。
また、LLMにG-Evalのように、数値評価のみを出力させることが、最適以下であることも示している。
論文 参考訳(メタデータ) (2023-10-09T12:12:55Z) - GPT as a Baseline for Recommendation Explanation Texts [29.162214516432876]
参加者は映画間で有意なランク付けをしておらず、また、これまで見たことのない映画レビューに対して、個々の品質スコアが著しく異なることもわかりました。
また、参加者が各品質に重要視する映画レビューテキストの特定の側面についても検討する。
論文 参考訳(メタデータ) (2023-09-16T00:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。