論文の概要: FigEx2: Visual-Conditioned Panel Detection and Captioning for Scientific Compound Figures
- arxiv url: http://arxiv.org/abs/2601.08026v1
- Date: Mon, 12 Jan 2026 21:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.962726
- Title: FigEx2: Visual-Conditioned Panel Detection and Captioning for Scientific Compound Figures
- Title(参考訳): FigEx2: 科学複合図のためのビジュアルコンディションパネル検出とキャプション
- Authors: Jifeng Song, Arun Das, Pan Wang, Hui Ji, Kun Zhao, Yufei Huang,
- Abstract要約: FigEx2は、パネルをローカライズし、複合図形から直接パネルワイズキャプションを生成する視覚条件付きフレームワークである。
FigEx2 は検出に優れた 0.726 mAP@0.5:0.95 を達成し、Qwen3-VL-8B を METEOR で 0.51 、BERTScore で 0.24 で大幅に上回っている。
- 参考スコア(独自算出の注目度): 24.537079909096168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific compound figures combine multiple labeled panels into a single image, but captions in real pipelines are often missing or only provide figure-level summaries, making panel-level understanding difficult. In this paper, we propose FigEx2, visual-conditioned framework that localizes panels and generates panel-wise captions directly from the compound figure. To mitigate the impact of diverse phrasing in open-ended captioning, we introduce a noise-aware gated fusion module that adaptively filters token-level features to stabilize the detection query space. Furthermore, we employ a staged optimization strategy combining supervised learning with reinforcement learning (RL), utilizing CLIP-based alignment and BERTScore-based semantic rewards to enforce strict multimodal consistency. To support high-quality supervision, we curate BioSci-Fig-Cap, a refined benchmark for panel-level grounding, alongside cross-disciplinary test suites in physics and chemistry. Experimental results demonstrate that FigEx2 achieves a superior 0.726 mAP@0.5:0.95 for detection and significantly outperforms Qwen3-VL-8B by 0.51 in METEOR and 0.24 in BERTScore. Notably, FigEx2 exhibits remarkable zero-shot transferability to out-of-distribution scientific domains without any fine-tuning.
- Abstract(参考訳): 科学的な複合図形は複数のラベル付きパネルを1つのイメージにまとめるが、実際のパイプラインのキャプションは欠落しているか、図面レベルの要約しか提供していないため、パネルレベルの理解は困難である。
本稿では、パネルをローカライズし、複合図形から直接パネルワイズキャプションを生成する、視覚条件付きFigEx2を提案する。
オープンエンドキャプションにおける多様なフレーズ表現の影響を軽減するために,トークンレベルの特徴を適応的にフィルタリングして検出クエリ空間を安定化するノイズ対応ゲート融合モジュールを導入する。
さらに、教師付き学習と強化学習(RL)を組み合わせて、CLIPベースのアライメントとBERTScoreベースのセマンティック報酬を利用して、厳密なマルチモーダル一貫性を実現する。
高品質な監視を支援するため、我々は、物理と化学の学際的なテストスイートとともに、パネルレベルの接地のための洗練されたベンチマークであるBioSci-Fig-Capをキュレートした。
実験の結果、FigEx2 は検出に優れた 0.726 mAP@0.5:0.95 を達成し、Qwen3-VL-8B を METEOR で 0.51 、BERTScore で 0.24 で大幅に上回った。
特に、FigEx2は微調整をせずに、分配外の科学領域に顕著なゼロショット転送性を示す。
関連論文リスト
- CLIP-Joint-Detect: End-to-End Joint Training of Object Detectors with Contrastive Vision-Language Supervision [0.08699280339422537]
CLIP-Joint-Detectは,エンドツーエンドのジョイントトレーニングを通じて,CLIPスタイルのコントラスト的視覚言語指導を統合するフレームワークである。
軽量並列ヘッドは、CLIP埋め込み空間に領域やグリッドを投影し、InfoNCEの対照的な損失と補助的なクロスエントロピー項を通じて学習可能なクラス固有のテキスト埋め込みと整列する。
我々は、Faster R-CNNを用いたPascal VOC 2007+2012と、最新のYOLO検出器(YOLOv11)を用いた大規模MS 2017ベンチマークでこれを検証した。
論文 参考訳(メタデータ) (2025-12-28T15:21:20Z) - From Panel to Pixel: Zoom-In Vision-Language Pretraining from Biomedical Scientific Literature [86.7745150269054]
パネル2パッチ(Panel2Patch)は、既存のバイオメディカル科学文献から階層構造をマイニングする新しいデータパイプラインである。
科学的数字とキャプションが与えられた場合、Panel2Patchはレイアウト、パネル、ビジュアルマーカーを解析し、フィギュア、パネル、パッチレベルにおいて階層的に協調した視覚言語ペアを構築する。
我々は,不均一な目的を粗いドクティックな記述から細かな領域に焦点を絞ったフレーズに統一する,粒度を考慮した事前学習戦略を開発した。
論文 参考訳(メタデータ) (2025-12-02T09:37:51Z) - BATR-FST: Bi-Level Adaptive Token Refinement for Few-Shot Transformers [2.5680214354539803]
半ショット変換器(BATR-FST)の両レベル適応型トケリファインメントを提案する。
BATR-FSTはトークン表現を徐々に改善し、数ショット分類のための頑健な帰納バイアスを維持している。
1ショットと5ショットの両方のシナリオで優れた結果が得られ、トランスフォーマーによる数ショットの分類が改善される。
論文 参考訳(メタデータ) (2025-09-16T07:33:21Z) - Harnessing Group-Oriented Consistency Constraints for Semi-Supervised Semantic Segmentation in CdZnTe Semiconductors [71.44213719783703]
ICAF(Intra-group Consistency Augmentation Framework)は、CdZnTe(Cadmium Zinc Telluride)半導体画像にラベルを付けるために開発された。
ICAF は View Augmentation Module (VAM) と View Correction Module (VCM) の2つの重要なモジュールで構成されている。
ICAFは、CdZnTeデータセット上の70.6% mIoUを2つのグループアノテートデータのみを用いて達成する。
論文 参考訳(メタデータ) (2025-08-18T09:40:36Z) - Power Battery Detection [91.99787495748218]
電力電池は、内部構造欠陥が深刻な安全リスクを生じさせる電気自動車において必須の部品である。
我々は,X線画像から陰極および陽極板の密集端を局所化し,品質検査を行うことを目的として,電力電池検出(PBD)に関する総合的研究を行った。
PBD5Kは,9種類のバッテリタイプから5,000枚のX線画像と8種類の実世界の視覚的干渉を含む,このタスクのための最初の大規模ベンチマークである。
論文 参考訳(メタデータ) (2025-08-11T09:35:25Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。