論文の概要: PoeTone: A Framework for Constrained Generation of Structured Chinese Songci with LLMs
- arxiv url: http://arxiv.org/abs/2508.02515v1
- Date: Mon, 04 Aug 2025 15:19:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.402551
- Title: PoeTone: A Framework for Constrained Generation of Structured Chinese Songci with LLMs
- Title(参考訳): PoeTone: LLMを用いた構造化中国語Songciの制約生成フレームワーク
- Authors: Zhan Qu, Shuzhou Yuan, Michael Färber,
- Abstract要約: 本稿では,大言語モデル(LLM)のSongci生成における制約付き生成能力について,体系的に検討する。
まず, (i) 形式適合度スコア, (ii) LLMを用いた自動品質評価, (iii) 人的評価, (iv) 分類に基づく探索タスクを含む包括的多面的評価フレームワークを開発する。
本稿では,評価フレームワークが自動批評家として機能するジェネレート・クリティカルアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 10.74636407144071
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents a systematic investigation into the constrained generation capabilities of large language models (LLMs) in producing Songci, a classical Chinese poetry form characterized by strict structural, tonal, and rhyme constraints defined by Cipai templates. We first develop a comprehensive, multi-faceted evaluation framework that includes: (i) a formal conformity score, (ii) automated quality assessment using LLMs, (iii) human evaluation, and (iv) classification-based probing tasks. Using this framework, we evaluate the generative performance of 18 LLMs, including 3 proprietary models and 15 open-source models across four families, under five prompting strategies: zero-shot, one-shot, completion-based, instruction-tuned, and chain-of-thought. Finally, we propose a Generate-Critic architecture in which the evaluation framework functions as an automated critic. Leveraging the critic's feedback as a reward signal, we fine-tune three lightweight open-source LLMs via supervised fine-tuning (SFT), resulting in improvements of up to 5.88% in formal conformity. Our findings offer new insights into the generative strengths and limitations of LLMs in producing culturally significant and formally constrained literary texts.
- Abstract(参考訳): 本稿では,Cipaiテンプレートで定義された厳格な構造,音調,韻律の制約を特徴とする古典中国語の詩形式であるSongciを,大規模言語モデル(LLM)の制約付き生成能力について,体系的に検討する。
まず、包括的で多面的な評価フレームワークを開発します。
(i)形式的適合点
(II)LLMを用いた自動品質評価
(三)人間の評価、及び
(4)分類に基づく探索課題。
この枠組みを用いて, ゼロショット, ワンショット, コンプリートベース, インストラクションチューニング, チェーン・オブ・シントという5つの戦略により, プロプライエタリな3つのモデルと4つのファミリーにわたる15のオープンソースモデルを含む18のLLMの生成性能を評価する。
最後に,評価フレームワークが自動批評家として機能するジェネレート・クリティカルアーキテクチャを提案する。
批評家のフィードバックを報奨信号として活用し、教師付き微調整(SFT)により3つの軽量オープンソースLCMを微調整し、形式整合性は最大5.88%向上した。
本研究は, 文化的に重大かつ形式的に制約された文学テキストの作成において, LLMの生成的強みと限界について, 新たな知見を提供するものである。
関連論文リスト
- LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。
このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文 参考訳(メタデータ) (2025-03-07T08:56:20Z) - Argument Summarization and its Evaluation in the Era of Large Language Models [20.198211475656176]
大規模言語モデル(LLM)は、Argument Summarization(ArgSum)を含む様々な自然言語生成(NLG)タスクに革命をもたらした。
本稿では,ArgSum への最先端 LLM の統合について検討し,その評価を行った。
論文 参考訳(メタデータ) (2025-03-02T10:49:10Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - KGPA: Robustness Evaluation for Large Language Models via Cross-Domain Knowledge Graphs [5.798411590796167]
本稿では,敵対的攻撃シナリオ下での大規模言語モデルの堅牢性を体系的に評価する枠組みを提案する。
筆者らの枠組みは知識グラフの三つ子から独自のプロンプトを生成し,毒殺によって敵のプロンプトを生成する。
GPT-4-turbo > GPT-4o > GPT-3.5-turbo としてChatGPTファミリーの対角的ロバスト性が評価された。
論文 参考訳(メタデータ) (2024-06-16T04:48:43Z) - A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks [30.54635848057259]
本稿では、よく知られた高性能な大規模言語モデル(LLM)の包括的な評価を行う。
対話生成とテキスト要約を含む英語と中国語のデータセットを選択する。
本研究は, 詳細な分析を伴って, 両自動検査の結果を報告する。
論文 参考訳(メタデータ) (2024-05-16T16:56:54Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。
BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文 参考訳(メタデータ) (2023-11-07T06:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。