論文の概要: Summaries as Captions: Generating Figure Captions for Scientific
Documents with Automated Text Summarization
- arxiv url: http://arxiv.org/abs/2302.12324v3
- Date: Sat, 12 Aug 2023 03:00:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 22:26:55.904025
- Title: Summaries as Captions: Generating Figure Captions for Scientific
Documents with Automated Text Summarization
- Title(参考訳): キャプションとしての要約:自動テキスト要約による科学文書のフィギュアキャプションの生成
- Authors: Chieh-Yang Huang, Ting-Yao Hsu, Ryan Rossi, Ani Nenkova, Sungchul Kim,
Gromit Yeuk-Yin Chan, Eunyee Koh, Clyde Lee Giles, Ting-Hao 'Kenneth' Huang
- Abstract要約: 図文キャプション生成は、科学文書におけるテキスト要約タスクとして、より効果的に取り組むことができる。
図式参照段落を具体的に要約するために,事前学習した抽象要約モデルであるPEGを微調整した。
大規模arXiv図を用いた実験により,本手法は,自動評価と人的評価の両方において,先行視覚法よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 31.619379039184263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Good figure captions help paper readers understand complex scientific
figures. Unfortunately, even published papers often have poorly written
captions. Automatic caption generation could aid paper writers by providing
good starting captions that can be refined for better quality. Prior work often
treated figure caption generation as a vision-to-language task. In this paper,
we show that it can be more effectively tackled as a text summarization task in
scientific documents. We fine-tuned PEGASUS, a pre-trained abstractive
summarization model, to specifically summarize figure-referencing paragraphs
(e.g., "Figure 3 shows...") into figure captions. Experiments on large-scale
arXiv figures show that our method outperforms prior vision methods in both
automatic and human evaluations. We further conducted an in-depth investigation
focused on two key challenges: (i) the common presence of low-quality
author-written captions and (ii) the lack of clear standards for good captions.
Our code and data are available at:
https://github.com/Crowd-AI-Lab/Generating-Figure-Captions-as-a-Text-Summarization-Task.
- Abstract(参考訳): 優れたフィギュアキャプションは、紙の読者が複雑な科学的な数字を理解するのに役立つ。
残念ながら、刊行された論文でさえ、しばしば字幕が不足している。
自動キャプション生成は、より良い品質のために洗練された開始キャプションを提供することで、紙の書き手を助けることができる。
先行研究は、しばしば視覚から言語へのタスクとして、字幕生成を扱った。
本稿では,学術文書におけるテキスト要約タスクとして,より効果的に取り組むことができることを示す。
事前学習した抽象要約モデルであるPEGASUSを微調整し、図式参照段落(図3の表示など)を図形キャプションに要約した。
大規模arXiv図を用いた実験により, 自動評価と人的評価の両方において, 従来の視覚法よりも優れていた。
さらに,2つの課題に焦点をあてた詳細な調査を行った。
(i)低品質の著者による字幕・字幕の共通存在
(二)優れたキャプションの明確な基準がないこと。
私たちのコードとデータは、https://github.com/Crowd-AI-Lab/Generating-Figure-Captions-as-a-Text-Summarization-Task.comで利用可能です。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - SciCapenter: Supporting Caption Composition for Scientific Figures with Machine-Generated Captions and Ratings [28.973082312034343]
本稿では,科学的な図形キャプションのための最先端AI技術を統合する対話型システムであるSciCapenterを紹介する。
SciCapenterは学術論文で各人物の様々なキャプションを生成し、キャプションの品質を評価するためのスコアと包括的なチェックリストを提供する。
Ph.D.の学生によるユーザスタディによると、SciCapenterは字幕作成の認知負荷を著しく低下させる。
論文 参考訳(メタデータ) (2024-03-26T15:16:14Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - SciCap+: A Knowledge Augmented Dataset to Study the Challenges of
Scientific Figure Captioning [18.94446071846939]
図のキャプション生成は、科学文書のモデル理解をテキストを超えて移動させるのに役立つ。
大規模なSciCapデータセットを拡張し、参照パラグラフ(図を参照するパラグラフ)とOCRトークンを含む。
以上の結果から,参照パラグラフが文脈知識として機能し,画像の自動キャプション評価スコアが大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-06-06T08:16:16Z) - SciCap: Generating Captions for Scientific Figures [20.696070723932866]
SCICAPは,2010年から2020年にかけて発行されたコンピュータサイエンスarXiv論文をベースとした大規模フィギュアキャプションデータセットである。
前処理後、SCICAPは290,000件以上の論文から200万件以上を抽出した。
グラフプロットをキャプションするベースラインモデルを構築した(19.2%)。
論文 参考訳(メタデータ) (2021-10-22T07:10:41Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。