論文の概要: Figuring out Figures: Using Textual References to Caption Scientific Figures
- arxiv url: http://arxiv.org/abs/2407.11008v1
- Date: Tue, 25 Jun 2024 21:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 12:29:47.746698
- Title: Figuring out Figures: Using Textual References to Caption Scientific Figures
- Title(参考訳): 図の解法--字幕科学図へのテキスト参照を用いた
- Authors: Stanley Cao, Kevin Liu,
- Abstract要約: フィギュアキャプションを自動的に生成する以前の作業は、ほとんど失敗し、単一層LSTMを使うことがデフォルトになっている。
我々の研究では、Hsuらによって計算されたSciCapデータセットを使用し、CLIP+GPT-2エンコーダデコーダモデルの変種を用いて、画像上に条件付きキャプションを生成する。
- 参考スコア(独自算出の注目度): 3.358364892753541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Figures are essential channels for densely communicating complex ideas in scientific papers. Previous work in automatically generating figure captions has been largely unsuccessful and has defaulted to using single-layer LSTMs, which no longer achieve state-of-the-art performance. In our work, we use the SciCap datasets curated by Hsu et al. and use a variant of a CLIP+GPT-2 encoder-decoder model with cross-attention to generate captions conditioned on the image. Furthermore, we augment our training pipeline by creating a new dataset MetaSciCap that incorporates textual metadata from the original paper relevant to the figure, such as the title, abstract, and in-text references. We use SciBERT to encode the textual metadata and use this encoding alongside the figure embedding. In our experimentation with different models, we found that the CLIP+GPT-2 model performs better when it receives all textual metadata from the SciBERT encoder in addition to the figure, but employing a SciBERT+GPT2 model that uses only the textual metadata achieved optimal performance.
- Abstract(参考訳): 図は、科学論文の中で複雑なアイデアを密に伝達するのに必須のチャネルである。
フィギュアキャプションを自動生成する以前の作業は、ほとんど失敗し、既定では、最先端のパフォーマンスを達成できない単一層LSTMを使用するようになった。
我々の研究では、Hsuらによって計算されたSciCapデータセットを使用し、CLIP+GPT-2エンコーダデコーダモデルの変種を用いて、画像上に条件付きキャプションを生成する。
さらに、タイトル、抽象、テキスト内参照など、図に関連する元の論文のテキストメタデータを組み込んだ、新しいデータセットのMetaSciCapを作成することで、トレーニングパイプラインを強化しています。
我々は、SciBERTを使ってテキストメタデータをエンコードし、フィギュア埋め込みと一緒にこのエンコーディングを使用する。
異なるモデルを用いて実験したところ,CLIP+GPT-2モデルでは,図形に加えてSciBERTエンコーダからすべてのテキストメタデータを受信するのに対して,テキストメタデータのみを使用するSciBERT+GPT2モデルを用いることで最適な性能が得られることがわかった。
関連論文リスト
- Retrieval Enhanced Zero-Shot Video Captioning [69.96136689829778]
一般的な映像理解モデルXCLIP,一般画像理解モデルCLIP,テキスト生成モデルGPT-2の3つの主要なモデルを用いて映像とテキストをブリッジする。
そこで本研究では,凍結したGPT-2と凍結したXCLIPとの間の通信媒体として,学習可能なトークンを提案する。
実験では、従来の最先端の手法と比較して、主要な測定基準であるCIDErが4%から20%改善されている。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - SciCap+: A Knowledge Augmented Dataset to Study the Challenges of
Scientific Figure Captioning [18.94446071846939]
図のキャプション生成は、科学文書のモデル理解をテキストを超えて移動させるのに役立つ。
大規模なSciCapデータセットを拡張し、参照パラグラフ(図を参照するパラグラフ)とOCRトークンを含む。
以上の結果から,参照パラグラフが文脈知識として機能し,画像の自動キャプション評価スコアが大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-06-06T08:16:16Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text
Retrieval [142.047662926209]
本稿では,StyleGAN2モデルの隠れセマンティック情報を明らかにすることによって,ペアデータ拡張のための新しいフレームワークを提案する。
ランダムなトークン置換によって拡張テキストを生成し、拡張テキストを潜在空間アライメントモジュールに渡す。
我々は,2つのパブリックなクロスモーダル検索データセットに対する拡張データアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-07-29T01:21:54Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。