論文の概要: Capabilities and Evaluation Biases of Large Language Models in Classical Chinese Poetry Generation: A Case Study on Tang Poetry
- arxiv url: http://arxiv.org/abs/2510.15313v1
- Date: Fri, 17 Oct 2025 05:00:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.477324
- Title: Capabilities and Evaluation Biases of Large Language Models in Classical Chinese Poetry Generation: A Case Study on Tang Poetry
- Title(参考訳): 古典的漢詩生成における大規模言語モデルの能力と評価バイアス--唐詩を事例として
- Authors: Bolei Ma, Yina Yao, Anna-Carolina Haensch,
- Abstract要約: 大規模言語モデル(LLM)は、創造的領域にますます適用されつつあるが、古典中国語の詩生成や評価において、その性能はいまだによく分かっていない。
本稿では,計算量,LCM-as-a-judgeアセスメント,人間専門家による検証を組み合わせた3段階評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.720025219010595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly applied to creative domains, yet their performance in classical Chinese poetry generation and evaluation remains poorly understood. We propose a three-step evaluation framework that combines computational metrics, LLM-as-a-judge assessment, and human expert validation. Using this framework, we evaluate six state-of-the-art LLMs across multiple dimensions of poetic quality, including themes, emotions, imagery, form, and style. Our analysis reveals systematic generation and evaluation biases: LLMs exhibit "echo chamber" effects when assessing creative quality, often converging on flawed standards that diverge from human judgments. These findings highlight both the potential and limitations of current capabilities of LLMs as proxy for literacy generation and the limited evaluation practices, thereby demonstrating the continued need of hybrid validation from both humans and models in culturally and technically complex creative tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、創造的領域にますます適用されつつあるが、古典中国語の詩生成や評価において、その性能はいまだによく分かっていない。
本稿では,計算量,LCM-as-a-judgeアセスメント,人間専門家による検証を組み合わせた3段階評価フレームワークを提案する。
この枠組みを用いて、テーマ、感情、イメージ、形態、スタイルを含む、多次元の詩的品質の6つの最先端LCMを評価する。
LLMは創造的品質を評価する際に「エチョチェンバー」効果を示し、しばしば人間の判断から逸脱する欠陥のある基準に収束する。
これらの知見は、リテラシー生成のプロキシとしてのLLMの現在の能力の可能性と限界と、限られた評価プラクティスの両方を強調し、文化的、技術的に複雑な創造的なタスクにおいて、人間とモデルの両方からのハイブリッド検証が継続的に必要であることを示す。
関連論文リスト
- Learning to Judge: LLMs Designing and Applying Evaluation Rubrics [18.936553687978087]
大規模言語モデル (LLM) は、自然言語生成のための評価器としてますます使われている。
GER-Evalを導入し,LLMが独自の評価ルーブリックを設計および適用できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-02-09T13:56:06Z) - Evaluating the Creativity of LLMs in Persian Literary Text Generation [5.067768639196139]
我々は、20の多様なトピックにまたがるユーザー生成ペルシア文学のデータセットを構築した。
創造的思考のTorrance Testsを適応させることにより、創造性、流布性、柔軟性、実験の4つの側面に沿ったモデル出力を評価する。
論文 参考訳(メタデータ) (2025-09-22T20:32:56Z) - Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。
言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文 参考訳(メタデータ) (2025-05-30T14:25:45Z) - Multi-Agent LLM Judge: automatic personalized LLM judge design for evaluating natural language generation applications [0.0]
大規模言語モデル(LLM)は、さまざまなドメインにまたがって素晴らしいパフォーマンスを示しているが、ドメイン固有の知識の不足、バイアス、幻覚といった問題に直面している。
単語重複やテキスト埋め込みに依存する従来の評価手法は、動的でオープンなテキスト生成を評価するのに必要なニュアンスドセマンティック情報を取得するには不十分である。
本稿では,様々な自然言語生成アプリケーション向けにパーソナライズされたLLM判断器を自動設計する動的マルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-04-01T09:36:56Z) - A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。
LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。
その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (2025-01-25T09:11:15Z) - Large Language Models for Automated Literature Review: An Evaluation of Reference Generation, Abstract Writing, and Review Composition [2.048226951354646]
大規模言語モデル(LLM)は、文学レビューを書くことに関わる複雑なプロセスを自動化するための潜在的な解決策として登場した。
本研究は,文学書記の3つの重要な課題において,LLMの性能を自動評価する枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-18T08:42:25Z) - Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models [47.545382591646565]
大きな言語モデル(LLM)は、言語理解と人間レベルのテキストの生成に優れています。
LLMは、悪意のあるユーザーがモデルに望ましくないテキストを生成するよう促す敵攻撃の影響を受けやすい。
本研究では,対象のLSMから偏りのある応答を抽出する逆方向のプロンプトを自動生成するモデルを訓練する。
論文 参考訳(メタデータ) (2024-08-07T17:11:34Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - UHGEval: Benchmarking the Hallucination of Chinese Large Language Models via Unconstrained Generation [18.22773343923806]
大規模言語モデル (LLM) は、現代の自然言語処理において重要な貢献者となっている。
LLMは幻覚テキストをしばしば生成し、その実用性を専門的な文脈で実現している。
最小限の制約で生成した出力をコンパイルするアンコントラスト型幻覚生成評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2023-11-26T13:42:56Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。