論文の概要: GPT-4 as an Effective Zero-Shot Evaluator for Scientific Figure Captions
- arxiv url: http://arxiv.org/abs/2310.15405v1
- Date: Mon, 23 Oct 2023 23:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 21:23:10.045936
- Title: GPT-4 as an Effective Zero-Shot Evaluator for Scientific Figure Captions
- Title(参考訳): gpt-4 科学図形キャプションのための効果的なゼロショットエバブリエータ
- Authors: Ting-Yao Hsu, Chieh-Yang Huang, Ryan Rossi, Sungchul Kim, C. Lee Giles
and Ting-Hao K. Huang
- Abstract要約: 本稿では,大言語モデル(LLM)をコスト効率のよい参照不要な図形キャプション評価手法として用いた。
SCICAP-EVALは3,600の科学的図形キャプションに対する人間の判断を含む人間の評価データセットである。
次に,GPT-4 や GPT-3 などの LLM に各キャプション (1-6) のスコアを誘導した。
- 参考スコア(独自算出の注目度): 22.181665641802468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is growing interest in systems that generate captions for scientific
figures. However, assessing these systems output poses a significant challenge.
Human evaluation requires academic expertise and is costly, while automatic
evaluation depends on often low-quality author-written captions. This paper
investigates using large language models (LLMs) as a cost-effective,
reference-free method for evaluating figure captions. We first constructed
SCICAP-EVAL, a human evaluation dataset that contains human judgments for 3,600
scientific figure captions, both original and machine-made, for 600 arXiv
figures. We then prompted LLMs like GPT-4 and GPT-3 to score (1-6) each caption
based on its potential to aid reader understanding, given relevant context such
as figure-mentioning paragraphs. Results show that GPT-4, used as a zero-shot
evaluator, outperformed all other models and even surpassed assessments made by
Computer Science and Informatics undergraduates, achieving a Kendall
correlation score of 0.401 with Ph.D. students rankings
- Abstract(参考訳): 科学的な数字のキャプションを生成するシステムへの関心が高まっている。
しかし、これらのシステムの出力を評価することは大きな課題となる。
人格評価は学術的な専門知識を必要とし、費用がかかるが、自動評価はしばしば低品質の著者によるキャプションに依存する。
本稿では,大言語モデル(LLM)をコスト効率のよい参照不要な図形キャプション評価手法として用いた。
最初にscicap-evalを構築した。scicap-evalは、人間による評価データセットで、3600の科学的な数字のキャプション、オリジナルとマシンによるキャプション、600のarxivの数字を含む。
gpt-4 や gpt-3 といった llm に各字幕のスコア (1-6) を付けて, 読者の理解を支援する。
gpt-4はゼロショット・エバブリエーターとして使われ、コンピュータサイエンスとインフォマティクスの学部生が行った評価を上回り、ph.d.の学生ランキングで0.401のケンドール相関スコアを達成した。
関連論文リスト
- SciCapenter: Supporting Caption Composition for Scientific Figures with Machine-Generated Captions and Ratings [28.973082312034343]
本稿では,科学的な図形キャプションのための最先端AI技術を統合する対話型システムであるSciCapenterを紹介する。
SciCapenterは学術論文で各人物の様々なキャプションを生成し、キャプションの品質を評価するためのスコアと包括的なチェックリストを提供する。
Ph.D.の学生によるユーザスタディによると、SciCapenterは字幕作成の認知負荷を著しく低下させる。
論文 参考訳(メタデータ) (2024-03-26T15:16:14Z) - A Chain-of-Thought Prompting Approach with LLMs for Evaluating Students' Formative Assessment Responses in Science [3.124884279860061]
本研究では,中学生の地球科学における自動評価にGPT-4を活用することに焦点を当てた。
提案手法のプロスとコンスのシステマティック解析により,自動階調向上のためのヒト・イン・ザ・ループ技術の可能性に光を当てる。
論文 参考訳(メタデータ) (2024-03-21T17:09:08Z) - VIEScore: Towards Explainable Metrics for Conditional Image Synthesis Evaluation [39.88401703956412]
VIEScoreは、条件付き画像生成タスクを評価するためのVisual Instruction-Guided Explainableメトリックである。
VIEScore (GPT4-o) は人間の評価と0.4のスピアマン相関を達成し, 人と人の相関は0.45である。
VIEScore (オープンソースMLLM) は合成画像の評価において GPT-4o や GPT-4v よりもかなり弱い。
論文 参考訳(メタデータ) (2023-12-22T17:45:19Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - SciCap+: A Knowledge Augmented Dataset to Study the Challenges of
Scientific Figure Captioning [18.94446071846939]
図のキャプション生成は、科学文書のモデル理解をテキストを超えて移動させるのに役立つ。
大規模なSciCapデータセットを拡張し、参照パラグラフ(図を参照するパラグラフ)とOCRトークンを含む。
以上の結果から,参照パラグラフが文脈知識として機能し,画像の自動キャプション評価スコアが大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-06-06T08:16:16Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - SciCap: Generating Captions for Scientific Figures [20.696070723932866]
SCICAPは,2010年から2020年にかけて発行されたコンピュータサイエンスarXiv論文をベースとした大規模フィギュアキャプションデータセットである。
前処理後、SCICAPは290,000件以上の論文から200万件以上を抽出した。
グラフプロットをキャプションするベースラインモデルを構築した(19.2%)。
論文 参考訳(メタデータ) (2021-10-22T07:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。