論文の概要: The Solution for the ICCV 2023 1st Scientific Figure Captioning Challenge
- arxiv url: http://arxiv.org/abs/2403.17342v1
- Date: Tue, 26 Mar 2024 03:03:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 16:55:40.554594
- Title: The Solution for the ICCV 2023 1st Scientific Figure Captioning Challenge
- Title(参考訳): ICCV 2023第1回科学フィギュアキャプションチャレンジの解法
- Authors: Dian Chao, Xin Song, Shupeng Zhong, Boyuan Wang, Xiangyu Wu, Chen Zhu, Yang Yang,
- Abstract要約: 本稿では,紙の数字に対して生成されたキャプションの品質を改善するためのソリューションを提案する。
最終テストでは4.49点で1位にランクインした。
- 参考スコア(独自算出の注目度): 19.339645217996235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a solution for improving the quality of captions generated for figures in papers. We adopt the approach of summarizing the textual content in the paper to generate image captions. Throughout our study, we encounter discrepancies in the OCR information provided in the official dataset. To rectify this, we employ the PaddleOCR toolkit to extract OCR information from all images. Moreover, we observe that certain textual content in the official paper pertains to images that are not relevant for captioning, thereby introducing noise during caption generation. To mitigate this issue, we leverage LLaMA to extract image-specific information by querying the textual content based on image mentions, effectively filtering out extraneous information. Additionally, we recognize a discrepancy between the primary use of maximum likelihood estimation during text generation and the evaluation metrics such as ROUGE employed to assess the quality of generated captions. To bridge this gap, we integrate the BRIO model framework, enabling a more coherent alignment between the generation and evaluation processes. Our approach ranked first in the final test with a score of 4.49.
- Abstract(参考訳): 本稿では,紙の数字に対して生成されたキャプションの品質を向上する手法を提案する。
画像キャプションを生成するために,論文中のテキスト内容を要約するアプローチを採用する。
本研究を通じて,オペレーショナルデータセットに提供されるOCR情報の相違点に遭遇した。
そこで我々はPaddleOCRツールキットを用いて全画像からOCR情報を抽出する。
さらに, 公式論文のテキスト内容は, キャプションに関係のない画像に関係しており, キャプション生成時にノイズが発生することが観察された。
この問題を軽減するため、LLaMAを利用して画像参照に基づいてテキストコンテンツをクエリし、外部情報を効果的にフィルタリングすることで、画像固有情報を抽出する。
さらに、テキスト生成における最大推定の一次利用と、生成されたキャプションの品質を評価するために使用されるROUGEなどの評価指標との相違も認識する。
このギャップを埋めるため、BRIOモデルフレームワークを統合し、生成プロセスと評価プロセスの間により一貫性のあるアライメントを可能にする。
最終テストでは4.49点で1位にランクインした。
関連論文リスト
- What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - The Solution for the CVPR2024 NICE Image Captioning Challenge [2.614188906122931]
本報告では,2024 NICEのトピック1ゼロショット画像キャプションに対する解法について紹介する。
論文 参考訳(メタデータ) (2024-04-19T09:32:16Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - InfoMetIC: An Informative Metric for Reference-free Image Caption
Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。
画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。
また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文 参考訳(メタデータ) (2023-05-10T09:22:44Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Robust Image Captioning [3.20603058999901]
本研究では, 対向的ロバストカットアルゴリズムを用いて, 対象関係を利用する。
本研究は,画像キャプションのための提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2020-12-06T00:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。