論文の概要: The Devil is in the EOS: Sequence Training for Detailed Image Captioning
- arxiv url: http://arxiv.org/abs/2507.20077v1
- Date: Sat, 26 Jul 2025 23:00:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.868657
- Title: The Devil is in the EOS: Sequence Training for Detailed Image Captioning
- Title(参考訳): EOSのデビル:詳細な画像キャプションのためのシークエンストレーニング
- Authors: Abdelrahman Mohamed, Yova Kementchedjhieva,
- Abstract要約: シーケンス終端トークンに対するバイアスは、クロスエントロピートレーニング中に導入される。
本稿では,EOSトークンを早期に予測するモデルの傾向を劣化させる教師なし手法を提案する。
その結果, 幻覚率の上昇は期待できるものの, キャプション長と関連する詳細が有意に増加したことが示唆された。
- 参考スコア(独自算出の注目度): 23.507574666352486
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite significant advances in vision-language models (VLMs), image captioning often suffers from a lack of detail, with base models producing short, generic captions. This limitation persists even though VLMs are equipped with strong vision and language backbones. While supervised data and complex reward functions have been proposed to improve detailed image captioning, we identify a simpler underlying issue: a bias towards the end-of-sequence (EOS) token, which is introduced during cross-entropy training. We propose an unsupervised method to debias the model's tendency to predict the EOS token prematurely. By reducing this bias, we encourage the generation of longer, more detailed captions without the need for intricate reward functions or supervision. Our approach is straightforward, effective, and easily applicable to any pretrained model. We demonstrate its effectiveness through experiments with three VLMs and on three detailed captioning benchmarks. Our results show a substantial increase in caption length and relevant details, albeit with an expected increase in the rate of hallucinations.
- Abstract(参考訳): 視覚言語モデル(VLM)の大幅な進歩にもかかわらず、画像キャプションは細部が不足することが多く、ベースモデルは短い一般的なキャプションを生成する。
この制限は、VLMには強力なビジョンと言語バックボーンが備わっているにもかかわらず持続する。
詳細な画像キャプションを改善するために、教師付きデータと複雑な報酬関数が提案されているが、より単純な根本的な問題として、クロスエントロピートレーニング中に導入されたEOSトークンへのバイアスがある。
本稿では,EOSトークンを早期に予測するモデルの傾向を劣化させる教師なし手法を提案する。
このバイアスを減らすことで、複雑な報酬機能や監督を必要とせず、より長い詳細なキャプションの生成を奨励します。
我々のアプローチは単純で効果的で、どんな事前訓練されたモデルにも容易に適用できます。
3つのVLMと3つの詳細なキャプションベンチマークを用いて,その有効性を示す。
その結果, 幻覚率の上昇は期待できるものの, キャプション長と関連する詳細が有意に増加したことが示唆された。
関連論文リスト
- Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning [56.31096024472269]
我々はDeCapBenchと、詳細なキャプションタスク用に特別に設計された新しいメトリックであるDCScoreを紹介する。
DCScoreは、反応を最小の自己充足単位に分解することで、幻覚ときめ細かい包括性を評価する。
DeCapBenchは、視覚言語モデルの既存のベンチマークを上回り、記述タスクにおけるVLMアリーナの結果と高い相関を示す。
論文 参考訳(メタデータ) (2025-03-10T22:53:56Z) - LoTLIP: Improving Language-Image Pre-training for Long Text Understanding [71.04947115945349]
データを長いキャプションで再現するが、それを直接学習することで、短い文章の理解においてパフォーマンスが低下する可能性がある。
そして、モデルが元の短いテキスト理解レベルに追いつくのを手助けしますが、長いテキスト理解の能力を大幅に向上させます。
本手法は,長文画像検索タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-07T17:52:56Z) - CI w/o TN: Context Injection without Task Name for Procedure Planning [4.004155037293416]
指導ビデオにおけるプロシージャ計画には、ビデオからの視覚的なスタートとゴール観察に基づいて、ゴール指向のプランを作成することが含まれる。
従来の研究では、中間的な視覚観察や言語指導からタスククラスの監督に至るまで、徐々に訓練の監督を弱めることでこの問題に対処してきた。
既存の大規模言語モデルでは解決不可能なタスク名を監視対象として含まない,はるかに弱い設定を提案する。
論文 参考訳(メタデータ) (2024-02-23T19:34:47Z) - Pro-Cap: Leveraging a Frozen Vision-Language Model for Hateful Meme
Detection [17.182722268446604]
本稿では,PVLMをゼロショット視覚質問応答(VQA)方式で活用するための探索型キャプション手法を提案する。
具体的には、ヘイトなコンテンツ関連質問をし、その回答を画像キャプションとして用いることで、凍結PVLMを誘導する。
Pro-Capを用いた3つのベンチマークによるモデルの性能評価により,提案手法の有効性と一般化が検証された。
論文 参考訳(メタデータ) (2023-08-16T01:38:49Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - The EOS Decision and Length Extrapolation [103.7271774593922]
未知の配列長への外挿は、言語のニューラル生成モデルの課題である。
本研究では,EOS(+EOS)予測のために訓練されたネットワークと,訓練されていないネットワーク(-EOS)を比較検討する。
例えば、ブラケットのクローズタスクにおいて、トレーニング時に見られるものより10倍長い長さで外挿するなど、EOSは+EOSよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-10-14T15:46:17Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。