論文の概要: Evaluating LLM Story Generation through Large-scale Network Analysis of Social Structures
- arxiv url: http://arxiv.org/abs/2510.18932v1
- Date: Tue, 21 Oct 2025 15:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.327153
- Title: Evaluating LLM Story Generation through Large-scale Network Analysis of Social Structures
- Title(参考訳): 社会構造の大規模ネットワーク解析によるLLMストーリー生成の評価
- Authors: Hiroshi Nonaka, K. E. Perry,
- Abstract要約: 複雑なタスクにおける大規模言語モデル(LLM)の創造的能力を評価するには、スケールが難しい人間の評価が必要となることが多い。
我々は,物語の基盤となる社会構造を署名されたキャラクターネットワークとして分析することにより,LLMストーリー生成を評価するための,新しい,スケーラブルな手法を提案する。
我々の研究結果は、密度、クラスタリング、および符号付きエッジウェイトといったネットワーク特性に基づいて、LCMの生成したストーリーは、密に結びついたポジティブな関係に対して、常に強いバイアスを示すことを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the creative capabilities of large language models (LLMs) in complex tasks often requires human assessments that are difficult to scale. We introduce a novel, scalable methodology for evaluating LLM story generation by analyzing underlying social structures in narratives as signed character networks. To demonstrate its effectiveness, we conduct a large-scale comparative analysis using networks from over 1,200 stories, generated by four leading LLMs (GPT-4o, GPT-4o mini, Gemini 1.5 Pro, and Gemini 1.5 Flash) and a human-written corpus. Our findings, based on network properties like density, clustering, and signed edge weights, show that LLM-generated stories consistently exhibit a strong bias toward tightly-knit, positive relationships, which aligns with findings from prior research using human assessment. Our proposed approach provides a valuable tool for evaluating limitations and tendencies in the creative storytelling of current and future LLMs.
- Abstract(参考訳): 複雑なタスクにおける大規模言語モデル(LLM)の創造的能力を評価するには、スケールが難しい人間の評価が必要となることが多い。
我々は,物語の基盤となる社会構造を署名されたキャラクターネットワークとして分析することにより,LLMストーリー生成を評価するための,新しい,スケーラブルな手法を提案する。
提案手法の有効性を示すため,1200ストーリー以上のネットワークを用いて大規模に比較分析を行い,GPT-4o, GPT-4o mini, Gemini 1.5 Pro, Gemini 1.5 Flashの4つの主要なLCMと人手によるコーパスを作成した。
我々の研究結果は、密度、クラスタリング、署名付きエッジウェイトといったネットワーク特性に基づいて、LLM生成ストーリーは、人間の評価を用いた以前の研究結果と整合して、密に結びついた肯定的な関係に対して、常に強い偏見を示すことを示している。
提案手法は,現在および将来のLLMの創造的ストーリーテリングにおける限界と傾向を評価するための貴重なツールを提供する。
関連論文リスト
- Unveiling the Merits and Defects of LLMs in Automatic Review Generation for Scientific Papers [4.455306283717651]
科学論文の急増は、従来のピアレビュープロセスに緊張を増している。
本稿では,意味的類似性分析と構造化知識グラフメトリクスを統合した総合評価フレームワークを提案する。
ICLRとNeurIPSによる1,683の論文と6,495の専門家レビューのベンチマークを数年間にわたって構築し、5つの大きな言語モデルを用いてレビューを生成する。
論文 参考訳(メタデータ) (2025-09-13T19:15:22Z) - Large Language Models Penetration in Scholarly Writing and Peer Review [43.600778691549706]
学術的な視点と次元にまたがる大規模言語モデルの浸透を評価する。
本実験は,学術的プロセスにおけるLLMの役割の増大を明らかにするために,textttLLMetricaの有効性を実証した。
これらの知見は、学術的信頼性を維持するために、LLMの使用における透明性、説明責任、倫理的実践の必要性を強調した。
論文 参考訳(メタデータ) (2025-02-16T16:37:34Z) - The Lay Person's Guide to Biomedicine: Orchestrating Large Language
Models [38.8292168447796]
大規模言語モデル(LLM)は、テキストの単純化、背景情報生成、テキスト評価において顕著な能力を示した。
我々は,LLMを利用して高品質なバックグラウンド知識を生成する,新しいtextitExplain-then-Summarise LSフレームワークを提案する。
また,複数の視点からレイネスを評価する2つの新しいLS評価指標を提案する。
論文 参考訳(メタデータ) (2024-02-21T03:21:14Z) - Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。
BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文 参考訳(メタデータ) (2023-11-07T06:36:39Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。