論文の概要: Evaluating Large Language Model Creativity from a Literary Perspective
- arxiv url: http://arxiv.org/abs/2312.03746v1
- Date: Thu, 30 Nov 2023 16:46:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 02:56:03.338614
- Title: Evaluating Large Language Model Creativity from a Literary Perspective
- Title(参考訳): 文学的視点による大規模言語モデルの創造性評価
- Authors: Murray Shanahan and Catherine Clarke
- Abstract要約: 本稿では,大規模言語モデルが創造的記述プロセスにおいて補助ツールとして機能する可能性を評価する。
我々は,背景記述をインターリーブする対話的かつ多声的なプロンプト戦略,構成を案内する指示,対象スタイルのテキストのサンプル,与えられたサンプルの批判的議論を開発する。
- 参考スコア(独自算出の注目度): 13.672268920902187
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper assesses the potential for large language models (LLMs) to serve
as assistive tools in the creative writing process, by means of a single,
in-depth case study. In the course of the study, we develop interactive and
multi-voice prompting strategies that interleave background descriptions (scene
setting, plot elements), instructions that guide composition, samples of text
in the target style, and critical discussion of the given samples. We
qualitatively evaluate the results from a literary critical perspective, as
well as from the standpoint of computational creativity (a sub-field of
artificial intelligence). Our findings lend support to the view that the
sophistication of the results that can be achieved with an LLM mirrors the
sophistication of the prompting.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) が創造的記述プロセスにおける補助的ツールとして機能する可能性について,単一のケーススタディを用いて評価する。
研究の過程で,背景記述(シーン設定,プロット要素)をインターリーブする対話的・多声的促進戦略,構成を案内する指示,ターゲットスタイルのテキストのサンプル,与えられたサンプルの批判的議論を行う。
我々は、計算創造性(人工知能のサブフィールド)の観点からも、文学的批判的な観点からの結果を定性的に評価する。
LLMで達成できる結果の高度化は,プロンプトの高度化を反映している,という見解を裏付けるものである。
関連論文リスト
- The (R)Evolution of Multimodal Large Language Models: A Survey [48.61135328255951]
MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティを、入力と出力の両方としてシームレスに統合することができる。
本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
論文 参考訳(メタデータ) (2024-02-19T19:01:01Z) - Exploring Precision and Recall to assess the quality and diversity of
LLMs [86.33540332994781]
本稿では,Llama-2やMistralといった大規模言語モデル(LLM)の新たな評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Neural Authorship Attribution: Stylometric Analysis on Large Language
Models [16.63955074133222]
GPT-4、PaLM、Llamaのような大規模言語モデル(LLM)は、AIによるテキスト生成を著しく推進している。
誤用の可能性に対する懸念が高まっているため、AI生成テキストの鑑識の必要性が高まっている。
論文 参考訳(メタデータ) (2023-08-14T17:46:52Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z) - On the Hidden Mystery of OCR in Large Multimodal Models [133.09809647230475]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
我々の研究は29のデータセットを含んでおり、最も包括的なOCR評価ベンチマークが利用可能になっている。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。