論文の概要: No Detail Left Behind: Revisiting Self-Retrieval for Fine-Grained Image Captioning
- arxiv url: http://arxiv.org/abs/2409.03025v1
- Date: Wed, 4 Sep 2024 18:32:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 00:59:44.085746
- Title: No Detail Left Behind: Revisiting Self-Retrieval for Fine-Grained Image Captioning
- Title(参考訳): 細かな画像のキャプションのための自己検索の再考
- Authors: Manu Gaur, Darshan Singh S, Makarand Tapaswi,
- Abstract要約: 画像キャプションシステムは、ノイズ(alt-text)またはジェネリック(ヒューマンアノテーション)のいずれかのデータに基づいて訓練されるため、きめ細かいキャプションを生成することができない
それまでの研究では、自己検索(SR)報酬で微調整されたキャプタによって、この制限に対処しようと試みてきた。
SRファインチューニングは, キャプションの忠実度を低下させ, 幻覚までも減少させる傾向にある。
本稿では,(1)人間のアノテーションに固定されたままの画像キャプションデータセットに細粒度を注入する新しいフレームワークであるビジュアルキャプションブースティング,(2)より最適に活用する慎重に設計されたトレーニングカリキュラムであるBagCurriについて述べる。
- 参考スコア(独自算出の注目度): 13.311411816150551
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image captioning systems are unable to generate fine-grained captions as they are trained on data that is either noisy (alt-text) or generic (human annotations). This is further exacerbated by maximum likelihood training that encourages generation of frequently occurring phrases. Previous works have tried to address this limitation by fine-tuning captioners with a self-retrieval (SR) reward. However, we find that SR fine-tuning has a tendency to reduce caption faithfulness and even hallucinate. In this work, we circumvent this bottleneck by improving the MLE initialization of the captioning system and designing a curriculum for the SR fine-tuning process. To this extent, we present (1) Visual Caption Boosting, a novel framework to instill fine-grainedness in generic image captioning datasets while remaining anchored in human annotations; and (2) BagCurri, a carefully designed training curriculum that more optimally leverages the contrastive nature of the self-retrieval reward. Jointly, they enable the captioner to describe fine-grained aspects in the image while preserving faithfulness to ground-truth captions. Our approach outperforms previous work by +8.9% on SR against 99 random distractors (RD100) (Dessi et al., 2023); and +7.6% on ImageCoDe. Additionally, existing metrics to evaluate captioning systems fail to reward diversity or evaluate a model's fine-grained understanding ability. Our third contribution addresses this by proposing self-retrieval from the lens of evaluation. We introduce TrueMatch, a benchmark comprising bags of highly similar images that uses SR to assess the captioner's ability to capture subtle visual distinctions. We evaluate and compare several state-of-the-art open-source MLLMs on TrueMatch, and find that our SR approach outperforms them all by a significant margin (e.g. +4.8% - 7.1% over Cambrian) while having 1-2 orders of magnitude fewer parameters.
- Abstract(参考訳): 画像キャプションシステムは、ノイズ(alt-text)またはジェネリック( Human Annotation)のいずれかのデータに基づいて訓練されているため、きめ細かいキャプションを生成することができない。
これは、頻発するフレーズの生成を促進する最大限の訓練によってさらに悪化する。
それまでの研究では、自己検索(SR)報酬による微調整キャプタによって、この制限に対処しようと試みてきた。
しかし,SRファインチューニングは,字幕の忠実度を低下させ,幻覚までも減少させる傾向があることが判明した。
本研究では,このボトルネックを回避するために,キャプションシステムのMLE初期化を改善し,SR微調整プロセスのカリキュラムを設計する。
そこで本研究では,(1)人間のアノテーションに固定されたまま,一般的な画像キャプションデータセットに細粒度を注入する新しいフレームワークであるビジュアルキャプションブースティング,(2)自己検索報酬の対照的な性質をより最適に活用する,慎重に設計されたトレーニングカリキュラムであるBagCurriを提案する。
共同で、キャプタは画像のきめ細かい面を記述でき、また、地味なキャプタへの忠実さを保っている。
提案手法は, SR において 99 個の乱発散器 (RD100) に対して+8.9% , ImageCoDe では+7.6% で, 従来よりも性能が向上した。
さらに、キャプションシステムを評価する既存のメトリクスは、多様性に報いるか、モデルのきめ細かい理解能力を評価するのに失敗する。
第3のコントリビューションでは、評価レンズから自己検索を提案することで、この問題に対処しています。
SRを用いて視覚的な微妙な特徴を捉えたキャプタの能力を評価する,非常に類似した画像の袋からなるベンチマークであるTrueMatchを紹介する。
我々はTrueMatch上で、最先端のオープンソースMLLMを評価し、比較し、我々のSRアプローチが、桁違いに少ないパラメータの1-2桁で、大きなマージン(例えば、カンブリアの4.8%から7.1%)でそれらを上回ります。
関連論文リスト
- Fluent and Accurate Image Captioning with a Self-Trained Reward Model [47.213906345208315]
本稿では,自己生成陰性に基づく学習可能な報酬モデルに基づくキャプション手法であるSelf-Capを提案する。
我々の識別器は、字幕の正しさを促進するために訓練された微調整されたコントラスト画像テキストモデルである。
論文 参考訳(メタデータ) (2024-08-29T18:00:03Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - Guiding Image Captioning Models Toward More Specific Captions [32.36062034676917]
トレーニングプロセスに最小限の変更を加えることで,より具体的なキャプションを生成することが可能であることを示す。
本研究では, 自動回帰キャプションモデルに対して, キャプション上の条件分布と非条件分布の両方を微調整することで, 分類器レスガイダンスを実装した。
論文 参考訳(メタデータ) (2023-07-31T14:00:12Z) - Exploring Annotation-free Image Captioning with Retrieval-augmented Pseudo Sentence Generation [21.54093527562344]
本稿では,大規模事前学習モデル (LPM) からの事前知識を蒸留し, 監視として活用する新たな戦略を提案する。
具体的には,Retrieval-augmented Pseudo Sentence Generation (RaPSG)を導入する。
実験結果から,SOTAキャプションの精度は様々な設定で優れていた。
論文 参考訳(メタデータ) (2023-07-27T10:16:13Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Simple Token-Level Confidence Improves Caption Correctness [117.33497608933169]
Token-Level Confidence(TLC)は、字幕の正確さを評価するシンプルな方法であるが、驚くほど効果的である。
画像キャプションに関する視覚言語モデルを微調整し、画像と提案されたキャプションをモデルに入力し、単語やシーケンスに対するトークンの信頼度を集計し、画像キャプションの一貫性を推定する。
論文 参考訳(メタデータ) (2023-05-11T17:58:17Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。