論文の概要: SCICAP: Generating Captions for Scientific Figures
- arxiv url: http://arxiv.org/abs/2110.11624v1
- Date: Fri, 22 Oct 2021 07:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 13:17:55.818575
- Title: SCICAP: Generating Captions for Scientific Figures
- Title(参考訳): SCICAP:科学図のためのキャプションの生成
- Authors: Ting-Yao (Edward) Hsu, C. Lee Giles, Ting-Hao 'Kenneth' Huang
- Abstract要約: SCICAPは,2010年から2020年にかけて発行されたコンピュータサイエンスarXiv論文をベースとした大規模フィギュアキャプションデータセットである。
前処理後、SCICAPは290,000件以上の論文から200万件以上を抽出した。
グラフプロットをキャプションするベースラインモデルを構築した(19.2%)。
- 参考スコア(独自算出の注目度): 17.688121665381335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Researchers use figures to communicate rich, complex information in
scientific papers. The captions of these figures are critical to conveying
effective messages. However, low-quality figure captions commonly occur in
scientific articles and may decrease understanding. In this paper, we propose
an end-to-end neural framework to automatically generate informative,
high-quality captions for scientific figures. To this end, we introduce SCICAP,
a large-scale figure-caption dataset based on computer science arXiv papers
published between 2010 and 2020. After pre-processing - including figure-type
classification, sub-figure identification, text normalization, and caption text
selection - SCICAP contained more than two million figures extracted from over
290,000 papers. We then established baseline models that caption graph plots,
the dominant (19.2%) figure type. The experimental results showed both
opportunities and steep challenges of generating captions for scientific
figures.
- Abstract(参考訳): 研究者は、科学論文でリッチで複雑な情報を伝えるために数字を使う。
これらの数字のキャプションは効果的なメッセージを伝えるのに不可欠である。
しかし、低品質の字幕は科学記事によく現れ、理解を減少させる可能性がある。
本稿では,科学的人物に対する情報的,高品質なキャプションを自動生成するエンドツーエンドのニューラルネットワークフレームワークを提案する。
この目的のために,2010年から2020年にかけて発行されたコンピュータサイエンスarXiv論文に基づく大規模フィギュアキャプチャーデータセットであるSCICAPを紹介する。
フィギュアタイプ分類、サブフィギュア識別、テキスト正規化、キャプションテキスト選択を含む前処理の後、SCICAPは290,000以上の論文から200万以上の数字を抽出した。
次に、主観的な(19.2%)図型であるキャプショングラフプロットのベースラインモデルを構築した。
実験結果から, 科学的数字のキャプション生成の機会と急激な課題が示された。
関連論文リスト
- Figuring out Figures: Using Textual References to Caption Scientific Figures [3.358364892753541]
フィギュアキャプションを自動的に生成する以前の作業は、ほとんど失敗し、単一層LSTMを使うことがデフォルトになっている。
我々の研究では、Hsuらによって計算されたSciCapデータセットを使用し、CLIP+GPT-2エンコーダデコーダモデルの変種を用いて、画像上に条件付きキャプションを生成する。
論文 参考訳(メタデータ) (2024-06-25T21:49:21Z) - SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。
コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文 参考訳(メタデータ) (2024-06-20T22:03:21Z) - SciCapenter: Supporting Caption Composition for Scientific Figures with Machine-Generated Captions and Ratings [28.973082312034343]
本稿では,科学的な図形キャプションのための最先端AI技術を統合する対話型システムであるSciCapenterを紹介する。
SciCapenterは学術論文で各人物の様々なキャプションを生成し、キャプションの品質を評価するためのスコアと包括的なチェックリストを提供する。
Ph.D.の学生によるユーザスタディによると、SciCapenterは字幕作成の認知負荷を著しく低下させる。
論文 参考訳(メタデータ) (2024-03-26T15:16:14Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - SciCap+: A Knowledge Augmented Dataset to Study the Challenges of
Scientific Figure Captioning [18.94446071846939]
図のキャプション生成は、科学文書のモデル理解をテキストを超えて移動させるのに役立つ。
大規模なSciCapデータセットを拡張し、参照パラグラフ(図を参照するパラグラフ)とOCRトークンを含む。
以上の結果から,参照パラグラフが文脈知識として機能し,画像の自動キャプション評価スコアが大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-06-06T08:16:16Z) - Summaries as Captions: Generating Figure Captions for Scientific
Documents with Automated Text Summarization [31.619379039184263]
図文キャプション生成は、科学文書におけるテキスト要約タスクとして、より効果的に取り組むことができる。
図式参照段落を具体的に要約するために,事前学習した抽象要約モデルであるPEGを微調整した。
大規模arXiv図を用いた実験により,本手法は,自動評価と人的評価の両方において,先行視覚法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-02-23T20:39:06Z) - ACL-Fig: A Dataset for Scientific Figure Classification [15.241086410108512]
科学文献から図形と表を抽出するパイプラインと、視覚的特徴を用いて科学的図形を分類するディープラーニングベースのフレームワークを開発する。
ACLアンソロジーにおける56K研究論文から抽出された112,052の科学的資料からなる,最初の大規模自動注釈コーパスであるACL-Figを構築した。
ACL-Fig-Pilotデータセットには、19のカテゴリに属する1,671の科学的数字が含まれている。
論文 参考訳(メタデータ) (2023-01-28T20:27:35Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - MedICaT: A Dataset of Medical Images, Captions, and Textual References [71.3960667004975]
以前の研究は、画像がテキストにどのように関係しているかを理解するのではなく、図形コンテンツを分類することに焦点を当てていた。
MedICaTは131Kのオープンアクセスバイオメディカルペーパーから217Kの画像で構成されている。
MedICaTを用いて,複合図形におけるサブフィギュアとサブキャプションアライメントの課題を紹介する。
論文 参考訳(メタデータ) (2020-10-12T19:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。