論文の概要: SciCap+: A Knowledge Augmented Dataset to Study the Challenges of
Scientific Figure Captioning
- arxiv url: http://arxiv.org/abs/2306.03491v1
- Date: Tue, 6 Jun 2023 08:16:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 16:43:57.651933
- Title: SciCap+: A Knowledge Augmented Dataset to Study the Challenges of
Scientific Figure Captioning
- Title(参考訳): SciCap+:科学的フィギュアキャプションの課題を研究するための知識強化データセット
- Authors: Zhishen Yang, Raj Dabre, Hideki Tanaka, Naoaki Okazaki
- Abstract要約: 図のキャプション生成は、科学文書のモデル理解をテキストを超えて移動させるのに役立つ。
大規模なSciCapデータセットを拡張し、参照パラグラフ(図を参照するパラグラフ)とOCRトークンを含む。
以上の結果から,参照パラグラフが文脈知識として機能し,画像の自動キャプション評価スコアが大幅に向上することが示唆された。
- 参考スコア(独自算出の注目度): 18.94446071846939
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In scholarly documents, figures provide a straightforward way of
communicating scientific findings to readers. Automating figure caption
generation helps move model understandings of scientific documents beyond text
and will help authors write informative captions that facilitate communicating
scientific findings. Unlike previous studies, we reframe scientific figure
captioning as a knowledge-augmented image captioning task that models need to
utilize knowledge embedded across modalities for caption generation. To this
end, we extended the large-scale SciCap
dataset~\cite{hsu-etal-2021-scicap-generating} to SciCap+ which includes
mention-paragraphs (paragraphs mentioning figures) and OCR tokens. Then, we
conduct experiments with the M4C-Captioner (a multimodal transformer-based
model with a pointer network) as a baseline for our study. Our results indicate
that mention-paragraphs serves as additional context knowledge, which
significantly boosts the automatic standard image caption evaluation scores
compared to the figure-only baselines. Human evaluations further reveal the
challenges of generating figure captions that are informative to readers. The
code and SciCap+ dataset will be publicly available at
https://github.com/ZhishenYang/scientific_figure_captioning_dataset
- Abstract(参考訳): 学術文献では、数字は科学的な発見を読者に伝える直接的な方法を提供する。
図キャプション生成の自動化は、科学文書のモデル理解をテキストを超えて移動させ、著者が科学的な発見を伝えるのに役立つ情報キャプションを書くのに役立つ。
従来の研究とは異なり、モデルがキャプション生成のためにモダリティに埋め込まれた知識を活用すべき知識提示画像キャプションタスクとして、科学的な図形キャプションを再構成する。
この目的のために、大規模なSciCapデータセット~\cite{hsu-etal-2021-scicap-generating}をSciCap+に拡張した。
そこで本研究では,M4C-Captioner(ポインタネットワークを持つマルチモーダルトランスフォーマーモデル)をベースラインとして実験を行った。
その結果,参照パラグラフは付加的な文脈知識として機能し,図形のみのベースラインと比較すると,画像の自動キャプション評価スコアが大幅に向上することがわかった。
人間の評価は、読者に有益な図形キャプションを生成するという課題をさらに明らかにする。
codeとSciCap+データセットはhttps://github.com/ZhishenYang/scientific_figure_captioning_datasetで公開される。
関連論文リスト
- Figuring out Figures: Using Textual References to Caption Scientific Figures [3.358364892753541]
フィギュアキャプションを自動的に生成する以前の作業は、ほとんど失敗し、単一層LSTMを使うことがデフォルトになっている。
我々の研究では、Hsuらによって計算されたSciCapデータセットを使用し、CLIP+GPT-2エンコーダデコーダモデルの変種を用いて、画像上に条件付きキャプションを生成する。
論文 参考訳(メタデータ) (2024-06-25T21:49:21Z) - Text-only Synthesis for Image Captioning [26.774411180980994]
画像キャプション(ToCa)のためのテキストのみの合成法を提案する。
我々は字幕テキストを構造と語彙の単語に分解する。
様々な語彙のパターンを含む大量のキャプションが生成される。
論文 参考訳(メタデータ) (2024-05-28T15:11:17Z) - SciCapenter: Supporting Caption Composition for Scientific Figures with Machine-Generated Captions and Ratings [28.973082312034343]
本稿では,科学的な図形キャプションのための最先端AI技術を統合する対話型システムであるSciCapenterを紹介する。
SciCapenterは学術論文で各人物の様々なキャプションを生成し、キャプションの品質を評価するためのスコアと包括的なチェックリストを提供する。
Ph.D.の学生によるユーザスタディによると、SciCapenterは字幕作成の認知負荷を著しく低下させる。
論文 参考訳(メタデータ) (2024-03-26T15:16:14Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Summaries as Captions: Generating Figure Captions for Scientific
Documents with Automated Text Summarization [31.619379039184263]
図文キャプション生成は、科学文書におけるテキスト要約タスクとして、より効果的に取り組むことができる。
図式参照段落を具体的に要約するために,事前学習した抽象要約モデルであるPEGを微調整した。
大規模arXiv図を用いた実験により,本手法は,自動評価と人的評価の両方において,先行視覚法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-02-23T20:39:06Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - SciCap: Generating Captions for Scientific Figures [20.696070723932866]
SCICAPは,2010年から2020年にかけて発行されたコンピュータサイエンスarXiv論文をベースとした大規模フィギュアキャプションデータセットである。
前処理後、SCICAPは290,000件以上の論文から200万件以上を抽出した。
グラフプロットをキャプションするベースラインモデルを構築した(19.2%)。
論文 参考訳(メタデータ) (2021-10-22T07:10:41Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。