論文の概要: Five Years of SciCap: What We Learned and Future Directions for Scientific Figure Captioning
- arxiv url: http://arxiv.org/abs/2512.21789v1
- Date: Thu, 25 Dec 2025 21:39:10 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:53:20.878239
- Title: Five Years of SciCap: What We Learned and Future Directions for Scientific Figure Captioning
- Title(参考訳): SciCapの5年 - 私たちが学んだことと科学的フィギュアキャプションの今後の方向性
- Authors: Ting-Hao K. Huang, Ryan A. Rossi, Sungchul Kim, Tong Yu, Ting-Yao E. Hsu, Ho Yin, Ng, C. Lee Giles,
- Abstract要約: SciCapプロジェクトは、ペンシルバニア州の小さなシード資金によるアイデアから、科学的なフィギュアキャプションの風景を形作る中心的な取り組みへと成長した。
この5年間で、我々はarXivの論文から大量のフィギュア・キャプション・ペアを収集し、リリースし、継続的に更新した。
SciCapの最初の5年間を振り返って、私たちが学んだ重要な技術的、方法論的な教訓を要約します。
- 参考スコア(独自算出の注目度): 47.682237295499306
- License:
- Abstract: Between 2021 and 2025, the SciCap project grew from a small seed-funded idea at The Pennsylvania State University (Penn State) into one of the central efforts shaping the scientific figure-captioning landscape. Supported by a Penn State seed grant, Adobe, and the Alfred P. Sloan Foundation, what began as our attempt to test whether domain-specific training, which was successful in text models like SciBERT, could also work for figure captions expanded into a multi-institution collaboration. Over these five years, we curated, released, and continually updated a large collection of figure-caption pairs from arXiv papers, conducted extensive automatic and human evaluations on both generated and author-written captions, navigated the rapid rise of large language models (LLMs), launched annual challenges, and built interactive systems that help scientists write better captions. In this piece, we look back at the first five years of SciCap and summarize the key technical and methodological lessons we learned. We then outline five major unsolved challenges and propose directions for the next phase of research in scientific figure captioning.
- Abstract(参考訳): 2021年から2025年の間、SciCapプロジェクトはペンシルバニア州立大学(ペンシルベニア州立大学)の小さなシード資金によるアイデアから、科学的な人物像の風景を形作る中心的な取り組みの1つへと成長した。
ペンシルバニア州のシード助成金、Adobe、およびAlfred P. Sloan Foundationの支援を受けて、SciBERTのようなテキストモデルで成功したドメイン固有のトレーニングが、複数の機関のコラボレーションに拡張されたフィギュアキャプションでも機能するかどうかをテストするために始まった。
この5年間で、我々は、arXiv論文から大量のフィギュア・キャプション・ペアを収集、リリースし、継続的に更新し、生成されたキャプションと著者によるキャプションの両方に対して、広範囲に自動的および人為的評価を行い、大規模言語モデル(LLM)の急激な台頭をナビゲートし、年次課題を打ち出し、科学者がより良いキャプションを書くのに役立つインタラクティブなシステムを構築しました。
この記事では、SciCapの最初の5年間を振り返り、私たちが学んだ重要な技術と方法論の教訓を要約します。
次に,5つの未解決課題について概説し,科学図のキャプションにおける次の研究の方向性を提案する。
関連論文リスト
- SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines [112.78540935201558]
我々は、自然言語と異質な科学的表現を整合させる科学的推論基盤モデルを提案する。
このモデルは、科学的なテキスト、純粋なシーケンス、シーケンスとテキストのペアにまたがる206Bのコーパスで事前訓練され、4000万の命令でSFTを介してアライメントされる。
i) テキストと科学形式間の忠実な翻訳、(ii) テキスト/知識抽出、(iii) プロパティの予測、(iv) プロパティの分類、(v) 条件なしおよび条件付きシーケンスの生成と設計。
論文 参考訳(メタデータ) (2025-09-25T17:52:06Z) - Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SciCap Challenge 2023 [33.089795292870186]
2023年、初のSciCap Challengeが開催され、世界中のチームがSciCapデータセットを使用して、さまざまな学術分野のさまざまなフィギュアタイプをキャプションするモデルを開発するよう呼びかけた。
本稿では,第1回SciCap Challengeの概要を述べるとともに,そのデータ上での各種モデルの性能について詳述し,フィールド状態のスナップショットを撮影する。
プロの編集者は、GPT-4Vが生成した文字キャプションを他の全てのモデルや著者のオリジナルのキャプションよりも圧倒的に好んだ。
論文 参考訳(メタデータ) (2025-01-31T18:02:19Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [97.31347312130119]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning)は、トレーニングと評価のための137K命令フォローインスタンスのデータセットで、54のタスクをカバーする。
これらのタスクは、情報抽出、要約、質問応答、クレーム検証、分類の5つの中核的な科学文献理解能力にまたがる。
SciRIFFは、さまざまな科学分野にわたる研究文献から情報を抽出し、合成するための、完全に専門家によって書かれた高品質な命令追跡データセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - SciCap+: A Knowledge Augmented Dataset to Study the Challenges of
Scientific Figure Captioning [18.94446071846939]
図のキャプション生成は、科学文書のモデル理解をテキストを超えて移動させるのに役立つ。
大規模なSciCapデータセットを拡張し、参照パラグラフ(図を参照するパラグラフ)とOCRトークンを含む。
以上の結果から,参照パラグラフが文脈知識として機能し,画像の自動キャプション評価スコアが大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-06-06T08:16:16Z) - The Semantic Scholar Open Data Platform [92.2948743167744]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - SciCap: Generating Captions for Scientific Figures [20.696070723932866]
SCICAPは,2010年から2020年にかけて発行されたコンピュータサイエンスarXiv論文をベースとした大規模フィギュアキャプションデータセットである。
前処理後、SCICAPは290,000件以上の論文から200万件以上を抽出した。
グラフプロットをキャプションするベースラインモデルを構築した(19.2%)。
論文 参考訳(メタデータ) (2021-10-22T07:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。