論文の概要: Leveraging Author-Specific Context for Scientific Figure Caption Generation: 3rd SciCap Challenge
- arxiv url: http://arxiv.org/abs/2510.07993v1
- Date: Thu, 09 Oct 2025 09:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.986446
- Title: Leveraging Author-Specific Context for Scientific Figure Caption Generation: 3rd SciCap Challenge
- Title(参考訳): サイエンスフィギュアキャプション生成のための著者特化コンテキストの活用:第3回SciCapチャレンジ
- Authors: Watcharapong Timklaypachara, Monrada Chiewhawan, Nopporn Lekuthai, Titipat Achakulvisut,
- Abstract要約: 第3回SciCapチャレンジのためのドメイン固有のキャプション生成システムを提案する。
本稿では,LMP-Capデータセットを用いて,図形関連テキストコンテキストと著者固有の書体スタイルを統合する。
- 参考スコア(独自算出の注目度): 1.7499351967216341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific figure captions require both accuracy and stylistic consistency to convey visual information. Here, we present a domain-specific caption generation system for the 3rd SciCap Challenge that integrates figure-related textual context with author-specific writing styles using the LaMP-Cap dataset. Our approach uses a two-stage pipeline: Stage 1 combines context filtering, category-specific prompt optimization via DSPy's MIPROv2 and SIMBA, and caption candidate selection; Stage 2 applies few-shot prompting with profile figures for stylistic refinement. Our experiments demonstrate that category-specific prompts outperform both zero-shot and general optimized approaches, improving ROUGE-1 recall by +8.3\% while limiting precision loss to -2.8\% and BLEU-4 reduction to -10.9\%. Profile-informed stylistic refinement yields 40--48\% gains in BLEU scores and 25--27\% in ROUGE. Overall, our system demonstrates that combining contextual understanding with author-specific stylistic adaptation can generate captions that are both scientifically accurate and stylistically faithful to the source paper.
- Abstract(参考訳): 科学的フィギュアキャプションは、視覚情報を伝えるために正確さと整合性の両方を必要とする。
本稿では,第3回SciCap Challengeのドメイン固有キャプション生成システムについて述べる。
DSPy の MIPROv2 と SIMBA による文脈フィルタリング,カテゴリ固有のプロンプト最適化,キャプション候補選択を併用する。
実験の結果, カテゴリ固有のプロンプトはゼロショットと一般最適化の両方に優れ, ROUGE-1リコールを+8.3 %改善し, 精度損失を-2.8 %, BLEU-4 を -10.9 % に制限した。
プロファイルインフォームド・スタイリスティック・リファインメントはBLEUスコアで40--48\%、ROUGEで25--27\%上昇する。
本システムでは,文脈理解と著者固有の文体適応を組み合わせることで,科学的に正確で文体に忠実な字幕を生成できることを実証する。
関連論文リスト
- ReCap: Event-Aware Image Captioning with Article Retrieval and Semantic Gaussian Normalization [9.914251544971686]
ReCapは、イベント強化された画像検索とキャプションのための新しいパイプラインである。
関連する記事からより広い文脈情報を取り入れ、物語に富んだキャプションを生成する。
我々のアプローチは、標準的な視覚言語モデルの限界に対処する。
論文 参考訳(メタデータ) (2025-09-01T08:48:33Z) - Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - FigCaps-HF: A Figure-to-Caption Generative Framework and Benchmark with Human Feedback [69.4639239117551]
FigCaps-HFは、新しいフィギュアキャプション生成フレームワークである。
本フレームワークは,1) 図形選択ペアの品質を評価するための自動手法,2) 人物フィードバックを用いた新しい強化学習(RLHF) により,読取者の好みに応じて生成図形選択モデルを最適化する。
論文 参考訳(メタデータ) (2023-07-20T13:40:22Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。