論文の概要: GPT-4 as an Effective Zero-Shot Evaluator for Scientific Figure Captions
- arxiv url: http://arxiv.org/abs/2310.15405v1
- Date: Mon, 23 Oct 2023 23:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 21:23:10.045936
- Title: GPT-4 as an Effective Zero-Shot Evaluator for Scientific Figure Captions
- Title(参考訳): gpt-4 科学図形キャプションのための効果的なゼロショットエバブリエータ
- Authors: Ting-Yao Hsu, Chieh-Yang Huang, Ryan Rossi, Sungchul Kim, C. Lee Giles
and Ting-Hao K. Huang
- Abstract要約: 本稿では,大言語モデル(LLM)をコスト効率のよい参照不要な図形キャプション評価手法として用いた。
SCICAP-EVALは3,600の科学的図形キャプションに対する人間の判断を含む人間の評価データセットである。
次に,GPT-4 や GPT-3 などの LLM に各キャプション (1-6) のスコアを誘導した。
- 参考スコア(独自算出の注目度): 22.181665641802468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is growing interest in systems that generate captions for scientific
figures. However, assessing these systems output poses a significant challenge.
Human evaluation requires academic expertise and is costly, while automatic
evaluation depends on often low-quality author-written captions. This paper
investigates using large language models (LLMs) as a cost-effective,
reference-free method for evaluating figure captions. We first constructed
SCICAP-EVAL, a human evaluation dataset that contains human judgments for 3,600
scientific figure captions, both original and machine-made, for 600 arXiv
figures. We then prompted LLMs like GPT-4 and GPT-3 to score (1-6) each caption
based on its potential to aid reader understanding, given relevant context such
as figure-mentioning paragraphs. Results show that GPT-4, used as a zero-shot
evaluator, outperformed all other models and even surpassed assessments made by
Computer Science and Informatics undergraduates, achieving a Kendall
correlation score of 0.401 with Ph.D. students rankings
- Abstract(参考訳): 科学的な数字のキャプションを生成するシステムへの関心が高まっている。
しかし、これらのシステムの出力を評価することは大きな課題となる。
人格評価は学術的な専門知識を必要とし、費用がかかるが、自動評価はしばしば低品質の著者によるキャプションに依存する。
本稿では,大言語モデル(LLM)をコスト効率のよい参照不要な図形キャプション評価手法として用いた。
最初にscicap-evalを構築した。scicap-evalは、人間による評価データセットで、3600の科学的な数字のキャプション、オリジナルとマシンによるキャプション、600のarxivの数字を含む。
gpt-4 や gpt-3 といった llm に各字幕のスコア (1-6) を付けて, 読者の理解を支援する。
gpt-4はゼロショット・エバブリエーターとして使われ、コンピュータサイエンスとインフォマティクスの学部生が行った評価を上回り、ph.d.の学生ランキングで0.401のケンドール相関スコアを達成した。
関連論文リスト
- GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - JaSPICE: Automatic Evaluation Metric Using Predicate-Argument Structures
for Image Captioning Models [1.534667887016089]
本稿では,シーングラフに基づく日本語字幕評価を行うJaSPICEという自動評価指標を提案する。
実験では,STAIRキャプションとPFN-PICで訓練した10の画像キャプションモデルを用いて,103,170人の評価を含む七味データセットを構築した。
論文 参考訳(メタデータ) (2023-11-07T18:33:34Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - Comparative Analysis of GPT-4 and Human Graders in Evaluating Praise
Given to Students in Synthetic Dialogues [2.3361634876233817]
AIチャットボットChatGPTのような大規模な言語モデルは、実践的な設定で家庭教師に建設的なフィードバックを提供する可能性を秘めている。
AIが生成したフィードバックの正確性はまだ不明であり、ChatGPTのようなモデルが効果的なフィードバックを提供する能力について研究している。
論文 参考訳(メタデータ) (2023-07-05T04:14:01Z) - SciCap+: A Knowledge Augmented Dataset to Study the Challenges of
Scientific Figure Captioning [18.94446071846939]
図のキャプション生成は、科学文書のモデル理解をテキストを超えて移動させるのに役立つ。
大規模なSciCapデータセットを拡張し、参照パラグラフ(図を参照するパラグラフ)とOCRトークンを含む。
以上の結果から,参照パラグラフが文脈知識として機能し,画像の自動キャプション評価スコアが大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-06-06T08:16:16Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - SciCap: Generating Captions for Scientific Figures [20.696070723932866]
SCICAPは,2010年から2020年にかけて発行されたコンピュータサイエンスarXiv論文をベースとした大規模フィギュアキャプションデータセットである。
前処理後、SCICAPは290,000件以上の論文から200万件以上を抽出した。
グラフプロットをキャプションするベースラインモデルを構築した(19.2%)。
論文 参考訳(メタデータ) (2021-10-22T07:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。