論文の概要: Summaries as Captions: Generating Figure Captions for Scientific
Documents with Automated Text Summarization
- arxiv url: http://arxiv.org/abs/2302.12324v1
- Date: Thu, 23 Feb 2023 20:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 15:18:08.320993
- Title: Summaries as Captions: Generating Figure Captions for Scientific
Documents with Automated Text Summarization
- Title(参考訳): キャプションとしての要約:自動テキスト要約による科学文書のフィギュアキャプションの生成
- Authors: Chieh-Yang Huang, Ting-Yao Hsu, Ryan Rossi, Ani Nenkova, Sungchul Kim,
Gromit Yeuk-Yin Chan, Eunyee Koh, Clyde Lee Giles, Ting-Hao 'Kenneth' Huang
- Abstract要約: 本稿では, テキスト要約手法を用いて, 科学的文書に文字キャプションを生成する手法を提案する。
提案手法では,対象の図形を参照した文を抽出し,簡潔なキャプションに要約する。
その結果,従来のキャプションを無害と評価したキャプションを改良し,30個以上のキャプションでトレーニングしたモデルで高品質キャプションを生成できることがわかった。
- 参考スコア(独自算出の注目度): 36.495159779709674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective figure captions are crucial for clear comprehension of scientific
figures, yet poor caption writing remains a common issue in scientific
articles. Our study of arXiv cs.CL papers found that 53.88% of captions were
rated as unhelpful or worse by domain experts, showing the need for better
caption generation. Previous efforts in figure caption generation treated it as
a vision task, aimed at creating a model to understand visual content and
complex contextual information. Our findings, however, demonstrate that over
75% of figure captions' tokens align with corresponding figure-mentioning
paragraphs, indicating great potential for language technology to solve this
task. In this paper, we present a novel approach for generating figure captions
in scientific documents using text summarization techniques. Our approach
extracts sentences referencing the target figure, then summarizes them into a
concise caption. In the experiments on real-world arXiv papers (81.2% were
published at academic conferences), our method, using only text data,
outperformed previous approaches in both automatic and human evaluations. We
further conducted data-driven investigations into the two core challenges: (i)
low-quality author-written captions and (ii) the absence of a standard for good
captions. We found that our models could generate improved captions for figures
with original captions rated as unhelpful, and the model trained on captions
with more than 30 tokens produced higher-quality captions. We also found that
good captions often include the high-level takeaway of the figure. Our work
proves the effectiveness of text summarization in generating figure captions
for scholarly articles, outperforming prior vision-based approaches. Our
findings have practical implications for future figure captioning systems,
improving scientific communication clarity.
- Abstract(参考訳): 効果的なフィギュアキャプションは、科学的な人物の明確な理解には不可欠であるが、科学的な記事ではよくある問題である。
arXiv cs.CL論文の研究では、53.88%のキャプションが、ドメインの専門家によって不愉快または悪く評価され、より良いキャプション生成の必要性が示された。
以前の図キャプション生成の取り組みでは、視覚コンテンツと複雑な文脈情報を理解するモデルを作成することを目的としたビジョンタスクとして扱われていた。
しかし,本研究では,75%以上の文字キャプションのトークンが対応する文字キャプションの段落と一致していることが示され,言語技術がこの課題を解決できる可能性が示唆された。
本稿では,テキスト要約手法を用いて,科学的文書に文字キャプションを生成する手法を提案する。
提案手法は,対象図形を参照する文を抽出し,簡潔なキャプションに要約する。
実世界のarXiv論文(81.2%が学術会議で発表された)の実験では,テキストデータのみを用いた手法が,自動評価と人的評価の両方において従来の手法よりも優れていた。
データ駆動による2つの課題の調査も実施しました。
(i)質の低い作者書きのキャプション
(二 優れたキャプションの基準がないこと。)
その結果,従来のキャプションを無害と評価したキャプションを改良し,30個以上のキャプションでトレーニングしたモデルで高品質キャプションを生成できることがわかった。
また、良いキャプションには、しばしばその図の高レベルなテイクアウトが含まれていることもわかりました。
本研究は,学術論文の字幕生成におけるテキスト要約の有効性を証明し,先行するビジョンベースアプローチを上回っている。
我々の発見は、将来の人物キャプションシステムに実際的な意味を持ち、科学的コミュニケーションの明確さを向上させる。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - SciCapenter: Supporting Caption Composition for Scientific Figures with Machine-Generated Captions and Ratings [28.973082312034343]
本稿では,科学的な図形キャプションのための最先端AI技術を統合する対話型システムであるSciCapenterを紹介する。
SciCapenterは学術論文で各人物の様々なキャプションを生成し、キャプションの品質を評価するためのスコアと包括的なチェックリストを提供する。
Ph.D.の学生によるユーザスタディによると、SciCapenterは字幕作成の認知負荷を著しく低下させる。
論文 参考訳(メタデータ) (2024-03-26T15:16:14Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - SciCap+: A Knowledge Augmented Dataset to Study the Challenges of
Scientific Figure Captioning [18.94446071846939]
図のキャプション生成は、科学文書のモデル理解をテキストを超えて移動させるのに役立つ。
大規模なSciCapデータセットを拡張し、参照パラグラフ(図を参照するパラグラフ)とOCRトークンを含む。
以上の結果から,参照パラグラフが文脈知識として機能し,画像の自動キャプション評価スコアが大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-06-06T08:16:16Z) - SciCap: Generating Captions for Scientific Figures [20.696070723932866]
SCICAPは,2010年から2020年にかけて発行されたコンピュータサイエンスarXiv論文をベースとした大規模フィギュアキャプションデータセットである。
前処理後、SCICAPは290,000件以上の論文から200万件以上を抽出した。
グラフプロットをキャプションするベースラインモデルを構築した(19.2%)。
論文 参考訳(メタデータ) (2021-10-22T07:10:41Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。