論文の概要: From Descriptive Richness to Bias: Unveiling the Dark Side of Generative Image Caption Enrichment
- arxiv url: http://arxiv.org/abs/2406.13912v1
- Date: Thu, 20 Jun 2024 01:03:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 17:46:37.890861
- Title: From Descriptive Richness to Bias: Unveiling the Dark Side of Generative Image Caption Enrichment
- Title(参考訳): 表現豊かさからバイアスへ - 生成的画像キャプチャー強化の暗面から
- Authors: Yusuke Hirota, Ryo Hachiuma, Chao-Han Huck Yang, Yuta Nakashima,
- Abstract要約: 大型言語モデル(LLM)は視覚テキストをキャプションする視覚言語モデルの能力を高めた。
豊かな字幕は性差と幻覚の増大に悩まされている。
本研究は、記述的キャプションをより記述的とする傾向に対して注意を喚起するものである。
- 参考スコア(独自算出の注目度): 26.211648382676856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have enhanced the capacity of vision-language models to caption visual text. This generative approach to image caption enrichment further makes textual captions more descriptive, improving alignment with the visual context. However, while many studies focus on benefits of generative caption enrichment (GCE), are there any negative side effects? We compare standard-format captions and recent GCE processes from the perspectives of "gender bias" and "hallucination", showing that enriched captions suffer from increased gender bias and hallucination. Furthermore, models trained on these enriched captions amplify gender bias by an average of 30.9% and increase hallucination by 59.5%. This study serves as a caution against the trend of making captions more descriptive.
- Abstract(参考訳): 大型言語モデル(LLM)は視覚テキストをキャプションする視覚言語モデルの能力を高めた。
画像キャプションのリッチ化に対するこの生成的アプローチは、テキストキャプションをより記述的にし、視覚的コンテキストとの整合性を改善する。
しかし、多くの研究は、生成キャプションエンリッチメント(GCE)の利点に焦点を当てているが、否定的な副作用はあるのか?
ジェンダーバイアス」と「ハロシン化」の観点から、標準形式キャプションと近年のGCEプロセスを比較し、豊かなキャプションはジェンダーバイアスと幻覚の増大に悩まされていることを示す。
さらに、これらの豊かなキャプションで訓練されたモデルは、平均30.9%の性別バイアスを増幅し、幻覚を59.5%増加させる。
この研究は、キャプションをより説明力のあるものにする傾向に対して注意を払っている。
関連論文リスト
- Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。
提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:50:53Z) - What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Inserting Faces inside Captions: Image Captioning with Attention Guided Merging [0.0]
画像キャプションタスク用のデータセットであるAstroCaptionsを紹介する。
キャプション内に識別された人物の名前を挿入するための新しいポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2024-03-20T08:38:25Z) - Mitigating Open-Vocabulary Caption Hallucinations [33.960405731583656]
オープン語彙設定における画像キャプションにおける幻覚に対処する枠組みを提案する。
我々のフレームワークには、生成基盤モデルを利用してオープン語彙オブジェクト幻覚を評価する新しいベンチマークであるOpenCHAIRが含まれている。
閉じたオブジェクトリストを使わずにオープン語彙の幻覚を緩和するために,MOCHaを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:28:03Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Simple Token-Level Confidence Improves Caption Correctness [117.33497608933169]
Token-Level Confidence(TLC)は、字幕の正確さを評価するシンプルな方法であるが、驚くほど効果的である。
画像キャプションに関する視覚言語モデルを微調整し、画像と提案されたキャプションをモデルに入力し、単語やシーケンスに対するトークンの信頼度を集計し、画像キャプションの一貫性を推定する。
論文 参考訳(メタデータ) (2023-05-11T17:58:17Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z) - Understanding and Evaluating Racial Biases in Image Captioning [18.184279793253634]
画像キャプション内のバイアス伝搬経路について検討し,特にCOCOデータセットに着目した。
より軽い人と暗い肌の人の画像のキャプション性能,感情,言葉選択の差異を示す。
論文 参考訳(メタデータ) (2021-06-16T01:07:24Z) - Structural and Functional Decomposition for Personality Image Captioning
in a Communication Game [53.74847926974122]
パーソナリティ画像キャプション(PIC)は、性格特性が与えられた自然言語キャプションを持つ画像を記述することを目的としている。
本稿では,話者とリスナーのコミュニケーションゲームに基づくPICの新しい定式化を提案する。
論文 参考訳(メタデータ) (2020-11-17T10:19:27Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。