論文の概要: Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SciCap Challenge 2023
- arxiv url: http://arxiv.org/abs/2501.19353v3
- Date: Tue, 18 Feb 2025 18:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:04:55.051974
- Title: Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SciCap Challenge 2023
- Title(参考訳): 大規模マルチモーダルモデルによる科学的図形キャプション生成は可能か? : SciCap Challenge 2023から学ぶ
- Authors: Ting-Yao E. Hsu, Yi-Li Hsu, Shaurya Rohatgi, Chieh-Yang Huang, Ho Yin Sam Ng, Ryan Rossi, Sungchul Kim, Tong Yu, Lun-Wei Ku, C. Lee Giles, Ting-Hao K. Huang,
- Abstract要約: 2023年、初のSciCap Challengeが開催され、世界中のチームがSciCapデータセットを使用して、さまざまな学術分野のさまざまなフィギュアタイプをキャプションするモデルを開発するよう呼びかけた。
本稿では,第1回SciCap Challengeの概要を述べるとともに,そのデータ上での各種モデルの性能について詳述し,フィールド状態のスナップショットを撮影する。
プロの編集者は、GPT-4Vが生成した文字キャプションを他の全てのモデルや著者のオリジナルのキャプションよりも圧倒的に好んだ。
- 参考スコア(独自算出の注目度): 33.089795292870186
- License:
- Abstract: Since the SciCap datasets launch in 2021, the research community has made significant progress in generating captions for scientific figures in scholarly articles. In 2023, the first SciCap Challenge took place, inviting global teams to use an expanded SciCap dataset to develop models for captioning diverse figure types across various academic fields. At the same time, text generation models advanced quickly, with many powerful pre-trained large multimodal models (LMMs) emerging that showed impressive capabilities in various vision-and-language tasks. This paper presents an overview of the first SciCap Challenge and details the performance of various models on its data, capturing a snapshot of the fields state. We found that professional editors overwhelmingly preferred figure captions generated by GPT-4V over those from all other models and even the original captions written by authors. Following this key finding, we conducted detailed analyses to answer this question: Have advanced LMMs solved the task of generating captions for scientific figures?
- Abstract(参考訳): 2021年にSciCapデータセットがローンチされて以来、研究コミュニティは学術論文に科学的な人物のキャプションを生成することに大きく進歩してきた。
2023年、初のSciCap Challengeが開催され、世界中のチームがSciCapデータセットを使用して、さまざまな学術分野のさまざまなフィギュアタイプをキャプションするモデルを開発するよう呼びかけた。
同時に、テキスト生成モデルは急速に進歩し、様々な視覚・言語タスクにおいて印象的な機能を示す多くの強力な事前訓練された大規模マルチモーダルモデル(LMM)が出現した。
本稿では,第1回SciCap Challengeの概要と,そのデータ上での各種モデルの性能について概説し,フィールド状態のスナップショットをキャプチャする。
プロの編集者は、GPT-4Vが生成した文字キャプションを他の全てのモデルや著者のオリジナルのキャプションよりも圧倒的に好んだ。
先進的なLMMは、科学的な数字のキャプションを生成するタスクを解きましたか?
関連論文リスト
- Capturing research literature attitude towards Sustainable Development Goals: an LLM-based topic modeling approach [0.7806050661713976]
持続可能な開発目標は2015年に国連によって策定され、2030年までにこれらの世界的な課題に対処した。
自然言語処理技術は、研究文献の中のSDGに関する議論を明らかにするのに役立つ。
我々は,Scopusデータベースからコンテンツを取り出し,SDGの5つのグループ専用のデータセットを作成する,完全に自動化されたパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:37:23Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - CapsFusion: Rethinking Image-Text Data at Scale [32.334143749598766]
本稿では,ウェブベースの画像テキストペアと合成キャプションの両方から情報を統合・洗練するためのCapsFusionを提案する。
実験の結果,CapsFusionキャプションはモデル性能において既存のキャプションよりも圧倒的に優れていた。
論文 参考訳(メタデータ) (2023-10-31T15:31:39Z) - SciCap+: A Knowledge Augmented Dataset to Study the Challenges of
Scientific Figure Captioning [18.94446071846939]
図のキャプション生成は、科学文書のモデル理解をテキストを超えて移動させるのに役立つ。
大規模なSciCapデータセットを拡張し、参照パラグラフ(図を参照するパラグラフ)とOCRトークンを含む。
以上の結果から,参照パラグラフが文脈知識として機能し,画像の自動キャプション評価スコアが大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-06-06T08:16:16Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・
次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - Using Large Language Models to Generate Engaging Captions for Data
Visualizations [51.98253121636079]
大規模言語モデル(LLM)は、高度なディープラーニング技術を用いて人間のような散文を生成する。
主な課題は、プロンプトエンジニアリングと呼ばれるLLMの最も効果的なプロンプトを設計することである。
我々は,LLM GPT-3を用いた最初の実験について報告し,いくつかの有望な結果を得た。
論文 参考訳(メタデータ) (2022-12-27T23:56:57Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - SciCap: Generating Captions for Scientific Figures [20.696070723932866]
SCICAPは,2010年から2020年にかけて発行されたコンピュータサイエンスarXiv論文をベースとした大規模フィギュアキャプションデータセットである。
前処理後、SCICAPは290,000件以上の論文から200万件以上を抽出した。
グラフプロットをキャプションするベースラインモデルを構築した(19.2%)。
論文 参考訳(メタデータ) (2021-10-22T07:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。