論文の概要: Curiosity-Driven LLM-as-a-judge for Personalized Creative Judgment
- arxiv url: http://arxiv.org/abs/2510.05135v1
- Date: Wed, 01 Oct 2025 04:29:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.839395
- Title: Curiosity-Driven LLM-as-a-judge for Personalized Creative Judgment
- Title(参考訳): パーソナライズされた創造判断のための好奇心駆動型LCM-as-a-judge
- Authors: Vanya Bannihatti Kumar, Divyanshu Goyal, Akhil Eppa, Neel Bhandari,
- Abstract要約: 本稿では,創造的文章評価のための新しい好奇心駆動型LCM-as-a-judgeを提案する。
本手法は,全アノテータが互いに一致しない主観評価において特に有用である。
- 参考スコア(独自算出の注目度): 4.334576480811837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models (LLMs) excel at objective tasks such as evaluating mathematical reasoning and factual accuracy, yet they falter when faced with the nuanced, subjective nature of assessing creativity. In this work, we propose a novel curiosity-driven LLM-as-a-judge for evaluating creative writing which is personlized to each individual's creative judgments. We use the Torrance Test of Creative Thinking(TTCW) benchmark introduced in Chakrabarty et al. (2024), which has stories annotated by expert humans across various subjective dimensions like Originality, to test our hypothesis. We show that our method enables models across various sizes, to learn the nuanced creative judgments of different individuals, by showing improvements over baseline supervised finetuning(SFT) method across various evaluation metrics like Pearson correlation, Cohen's and F1 values. Our method is especially useful in subjective evaluations where not all the annotators agree with each other.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、数学的推論や事実的正確性を評価するといった客観的なタスクに優れるが、創造性を評価するという微妙で主観的な性質に直面すると混乱する。
本研究では,創造的文章を創造的判断にパーソナライズする新しい好奇心駆動型LSM-as-a-judgeを提案する。
我々は、Chakrabarty et al (2024)で導入されたTorrance Test of Creative Thinking(TTCW)ベンチマークを用いて、原性のような様々な主観的な次元の専門家によって注釈付けされたストーリーを、仮説をテストする。
本研究では,Pearson相関,Cohen's,F1値など,さまざまな評価指標に対するベースライン教師付き微調整(SFT)法の改善を示すことにより,さまざまなサイズのモデルの実現,異なる個人によるニュアンスな創造的判断の学習を可能にした。
本手法は,全アノテータが互いに一致しない主観評価において特に有用である。
関連論文リスト
- Reward Modeling for Scientific Writing Evaluation [50.33952894976367]
多様なオープンエンドの科学的記述タスクを評価するために、確実にデプロイできるモデルを開発することが重要である。
本稿では,科学的執筆評価に適した費用効率の高いオープンソース報酬モデルを提案する。
論文 参考訳(メタデータ) (2026-01-16T15:32:58Z) - Simple Lines, Big Ideas: Towards Interpretable Assessment of Human Creativity from Drawings [18.09092203643732]
図面からの自動的かつ解釈可能な創造性評価のためのデータ駆動型フレームワークを提案する。
6]で提案された認知的エビデンスにより、創造性は、引き出されたもの(コンテンツ)と引き出されたもの(スタイル)の両方から生ずることができ、創造性スコアをこれら2つの相補的な次元の関数として再解釈する。
論文 参考訳(メタデータ) (2025-11-17T02:16:01Z) - CreativityPrism: A Holistic Benchmark for Large Language Model Creativity [64.18257552903151]
創造性はしばしば人間の知能の目印と見なされる。
さまざまなシナリオにまたがってクリエイティビティを評価するための総合的なフレームワークはまだ存在しません。
本稿では,創造性を質,新規性,多様性の3次元に分解する評価分析フレームワークであるCreativePrismを提案する。
論文 参考訳(メタデータ) (2025-10-23T00:22:10Z) - Rethinking Creativity Evaluation: A Critical Analysis of Existing Creativity Evaluations [48.57816792550401]
クリエイティビティ指標,パープレキシティ,構文テンプレート,LCM-as-a-Judgeなどのクリエイティビティ指標について検討した。
分析の結果、これらの指標は限定的な一貫性を示し、創造性の異なる次元を捉えていることがわかった。
論文 参考訳(メタデータ) (2025-08-07T15:11:48Z) - Automated Creativity Evaluation for Large Language Models: A Reference-Based Approach [32.654673913638426]
本稿では,創造性を製品として評価するTorance Test of Creative Writing (TTCW)に基づく自動評価手法を提案する。
提案手法は、高品質な参照テキストに対して生成されたクリエイティブテキストをスコアリングする参照ベースのLikertスタイルのアプローチを用いる。
論文 参考訳(メタデータ) (2025-04-22T10:52:23Z) - Leveraging Large Models to Evaluate Novel Content: A Case Study on Advertisement Creativity [25.460598990334077]
ビジュアル広告の創造性を非定型性と独創性に分解しようと試みる。
このような主観的な問題に特化して,一連のタスクを提案する。
また,提案したベンチマークを用いて,最先端(SoTA)ビジョン言語モデル(VLM)と人間との整合性を評価する。
論文 参考訳(メタデータ) (2025-02-26T04:28:03Z) - How do Humans and Language Models Reason About Creativity? A Comparative Analysis [12.398832289718703]
評価を用いた例を含む2つの実験が創造性評価にどのように影響するかを検討した。
研究1では、フォーマルな科学や工学のトレーニングで72人の専門家の創造性評価を分析した。
研究2では、最先端のLCMを用いた並列解析により、モデルが独創性を評価する際に、アイデアの非日常性と遠隔性を優先していることが判明した。
論文 参考訳(メタデータ) (2025-02-05T15:08:43Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Art or Artifice? Large Language Models and the False Promise of
Creativity [53.04834589006685]
本稿では,創造性を製品として評価するTorrance Test of Creative Writing (TTCW)を提案する。
TTCWは14のバイナリテストで構成されており、Fluency、Flexibility、Originality、Elaborationの3次元に分かれている。
分析の結果,LPM生成したストーリーはプロのストーリーよりもTTCWが3~10倍少ないことが判明した。
論文 参考訳(メタデータ) (2023-09-25T22:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。