論文の概要: SciCapenter: Supporting Caption Composition for Scientific Figures with Machine-Generated Captions and Ratings
- arxiv url: http://arxiv.org/abs/2403.17784v1
- Date: Tue, 26 Mar 2024 15:16:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 14:58:20.252731
- Title: SciCapenter: Supporting Caption Composition for Scientific Figures with Machine-Generated Captions and Ratings
- Title(参考訳): SciCapenter: 機械生成キャプションとレーティングによる科学フィギュアのキャプション構成のサポート
- Authors: Ting-Yao Hsu, Chieh-Yang Huang, Shih-Hong Huang, Ryan Rossi, Sungchul Kim, Tong Yu, C. Lee Giles, Ting-Hao K. Huang,
- Abstract要約: 本稿では,科学的な図形キャプションのための最先端AI技術を統合する対話型システムであるSciCapenterを紹介する。
SciCapenterは学術論文で各人物の様々なキャプションを生成し、キャプションの品質を評価するためのスコアと包括的なチェックリストを提供する。
Ph.D.の学生によるユーザスタディによると、SciCapenterは字幕作成の認知負荷を著しく低下させる。
- 参考スコア(独自算出の注目度): 28.973082312034343
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Crafting effective captions for figures is important. Readers heavily depend on these captions to grasp the figure's message. However, despite a well-developed set of AI technologies for figures and captions, these have rarely been tested for usefulness in aiding caption writing. This paper introduces SciCapenter, an interactive system that puts together cutting-edge AI technologies for scientific figure captions to aid caption composition. SciCapenter generates a variety of captions for each figure in a scholarly article, providing scores and a comprehensive checklist to assess caption quality across multiple critical aspects, such as helpfulness, OCR mention, key takeaways, and visual properties reference. Users can directly edit captions in SciCapenter, resubmit for revised evaluations, and iteratively refine them. A user study with Ph.D. students indicates that SciCapenter significantly lowers the cognitive load of caption writing. Participants' feedback further offers valuable design insights for future systems aiming to enhance caption writing.
- Abstract(参考訳): フィギュアの効果的なキャプションを作るのが重要だ。
読者はこれらのキャプションに大きく依存し、人物のメッセージを把握する。
しかし、フィギュアやキャプションのためのAI技術が十分に開発されているにもかかわらず、これらはキャプション作成を支援するためにテストされることはめったにない。
本稿では,科学的な図形キャプションのための最先端AI技術を組み合わせた対話型システムであるSciCapenterを紹介する。
SciCapenterは学術論文で各人物に対する様々なキャプションを生成し、有用な点、OCR言及、キーテイクアウト、ビジュアルプロパティ参照など、複数の重要な側面にわたるキャプション品質を評価するためのスコアと包括的なチェックリストを提供する。
ユーザーは、SciCapenterのキャプションを直接編集し、修正された評価のために再送信し、繰り返し修正することができる。
Ph.D.の学生によるユーザスタディによると、SciCapenterは字幕作成の認知負荷を著しく低下させる。
参加者のフィードバックは、キャプションの書き方を強化することを目的とした将来のシステムに価値ある設計上の洞察を提供する。
関連論文リスト
- What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - SciCap+: A Knowledge Augmented Dataset to Study the Challenges of
Scientific Figure Captioning [18.94446071846939]
図のキャプション生成は、科学文書のモデル理解をテキストを超えて移動させるのに役立つ。
大規模なSciCapデータセットを拡張し、参照パラグラフ(図を参照するパラグラフ)とOCRトークンを含む。
以上の結果から,参照パラグラフが文脈知識として機能し,画像の自動キャプション評価スコアが大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-06-06T08:16:16Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Summaries as Captions: Generating Figure Captions for Scientific
Documents with Automated Text Summarization [31.619379039184263]
図文キャプション生成は、科学文書におけるテキスト要約タスクとして、より効果的に取り組むことができる。
図式参照段落を具体的に要約するために,事前学習した抽象要約モデルであるPEGを微調整した。
大規模arXiv図を用いた実験により,本手法は,自動評価と人的評価の両方において,先行視覚法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-02-23T20:39:06Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - SciCap: Generating Captions for Scientific Figures [20.696070723932866]
SCICAPは,2010年から2020年にかけて発行されたコンピュータサイエンスarXiv論文をベースとした大規模フィギュアキャプションデータセットである。
前処理後、SCICAPは290,000件以上の論文から200万件以上を抽出した。
グラフプロットをキャプションするベースラインモデルを構築した(19.2%)。
論文 参考訳(メタデータ) (2021-10-22T07:10:41Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。