論文の概要: CoKe: Customizable Fine-Grained Story Evaluation via Chain-of-Keyword Rationalization
- arxiv url: http://arxiv.org/abs/2503.17136v1
- Date: Fri, 21 Mar 2025 13:37:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:18.913327
- Title: CoKe: Customizable Fine-Grained Story Evaluation via Chain-of-Keyword Rationalization
- Title(参考訳): CoKe: チェーン・オブ・キーワードの合理化によるカスタマイズ可能な微粒化ストーリー評価
- Authors: Brihi Joshi, Sriram Venkatapathy, Mohit Bansal, Nanyun Peng, Haw-Shiuan Chang,
- Abstract要約: 思考の連鎖(CoT)は、モデルの予測を導くのに役立つ自由テキストの説明を生成する。
自己一貫性(SC: Self-Consistency)は、複数の生成された説明に対する予測を疎外する。
我々は、$textbfC$hain-$textbfo$f-$textbfKe$ywords (CoKe)を提案する。
- 参考スコア(独自算出の注目度): 90.15027447565427
- License:
- Abstract: Evaluating creative text such as human-written stories using language models has always been a challenging task -- owing to the subjectivity of multi-annotator ratings. To mimic the thinking process of humans, chain of thought (CoT) generates free-text explanations that help guide a model's predictions and Self-Consistency (SC) marginalizes predictions over multiple generated explanations. In this study, we discover that the widely-used self-consistency reasoning methods cause suboptimal results due to an objective mismatch between generating 'fluent-looking' explanations vs. actually leading to a good rating prediction for an aspect of a story. To overcome this challenge, we propose $\textbf{C}$hain-$\textbf{o}$f-$\textbf{Ke}$ywords (CoKe), that generates a sequence of keywords $\textit{before}$ generating a free-text rationale, that guide the rating prediction of our evaluation language model. Then, we generate a diverse set of such keywords, and aggregate the scores corresponding to these generations. On the StoryER dataset, CoKe based on our small fine-tuned evaluation models not only reach human-level performance and significantly outperform GPT-4 with a 2x boost in correlation with human annotators, but also requires drastically less number of parameters.
- Abstract(参考訳): 言語モデルを用いた人書きストーリなどの創造的なテキストの評価は、マルチアノテーション評価の主観性のため、常に難しい作業でした。
人間の思考過程を模倣するために、思考連鎖(CoT)は、モデルの予測をガイドする自由テキストの説明を生成し、自己整合性(SC)は複数の生成された説明に対する予測を疎外する。
本研究では,広く使用されている自己整合性推論手法が,「流動的な」説明の生成と,物語の側面に対する良好な評価の予測との客観的なミスマッチによって,最適以下の結果をもたらすことを明らかにする。
この課題を克服するために、我々は、キーワード列を生成する$\textbf{C}$hain-$\textbf{o}$f-$\textbf{Ke}$ywords (CoKe)を提案する。
そして、このようなキーワードの多様な集合を生成し、これらの世代に対応するスコアを集約する。
StoryERデータセットでは、私たちの小さな微調整評価モデルに基づくCoKeは、人間のレベルパフォーマンスに到達し、人間のアノテータとの相関が2倍向上したGPT-4を著しく上回るだけでなく、パラメータの大幅な削減も必要としています。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Concept-Guided Chain-of-Thought Prompting for Pairwise Comparison Scoring of Texts with Large Language Models [3.656114607436271]
既存のテキストスコアリング手法では、大きなコーパス、短いテキストとの競合、手書きのデータが必要である。
生成的大言語モデル(LLM)を利用したテキストスコアリングフレームワークを開発した。
本稿では、Twitter上の特定の政党への反感を反映したスピーチをよりよく理解するために、このアプローチを適用する。
論文 参考訳(メタデータ) (2023-10-18T15:34:37Z) - Automatic Counterfactual Augmentation for Robust Text Classification
Based on Word-Group Search [12.894936637198471]
一般に、ラベルと表面的関連を生じると、キーワードはショートカットと見なされ、結果として誤った予測となる。
キーワードの組み合わせの因果効果を捉え,予測に最も影響を与える組み合わせを注文する,新しいWord-Groupマイニング手法を提案する。
提案手法は,効率的なポストホック解析とビームサーチに基づいて,マイニング効果の確保と複雑さの低減を図っている。
論文 参考訳(メタデータ) (2023-07-01T02:26:34Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Towards Document-Level Paraphrase Generation with Sentence Rewriting and
Reordering [88.08581016329398]
文書レベルのパラフレーズ生成のためのCoRPG(Coherence Relation Guided Paraphrase Generation)を提案する。
グラフGRUを用いて、コヒーレンス関係グラフを符号化し、各文のコヒーレンス対応表現を得る。
我々のモデルは、より多様性とセマンティックな保存を伴う文書パラフレーズを生成することができる。
論文 参考訳(メタデータ) (2021-09-15T05:53:40Z) - Keyphrase Generation with Fine-Grained Evaluation-Guided Reinforcement
Learning [30.09715149060206]
キーフレーズ生成(KG)は、ある文書から中心的なアイデアを取得するための古典的なタスクである。
本稿では,異なる粒度を考慮した新しい粒度評価指標を提案する。
より不規則な言語パターンを学習するために、予測キーフレーズとターゲットキーフレーズの連続的な類似度スコアを計算するために、事前訓練されたモデル(例えばBERT)を用いる。
論文 参考訳(メタデータ) (2021-04-18T10:13:46Z) - Plot-guided Adversarial Example Construction for Evaluating Open-domain
Story Generation [23.646133241521614]
学習可能な評価指標は、人間の判断との相関性を高めることで、より正確な評価を約束しています。
以前の作品は、可能なシステムの欠点を模倣するために、テキスト理論的に操作可能な実例に依存していた。
本研究では,ストーリー生成に使用する制御可能な要因の構造化された表現であるエムプロットを用いて,より包括的でわかりにくいストーリーの集合を生成することで,これらの課題に対処することを提案する。
論文 参考訳(メタデータ) (2021-04-12T20:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。