論文の概要: Let there be a clock on the beach: Reducing Object Hallucination in
Image Captioning
- arxiv url: http://arxiv.org/abs/2110.01705v1
- Date: Mon, 4 Oct 2021 20:25:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 01:49:59.782562
- Title: Let there be a clock on the beach: Reducing Object Hallucination in
Image Captioning
- Title(参考訳): ビーチに時計を置きましょう:画像キャプチャーにおける物体の幻覚を減らす
- Authors: Ali Furkan Biten, Lluis Gomez, Dimosthenis Karatzas
- Abstract要約: 画像キャプションにおいて、存在しない、または存在しないオブジェクトで画像を記述することは、オブジェクトバイアス(hallucination)として知られている。
この行動は、人間には望ましいものではない最先端のキャプションモデルで非常に一般的である。
本稿では,新たなトレーニングデータやモデルサイズの増大を必要としない文に対する,シンプルで効率的な3つのトレーニング拡張手法を提案する。
- 参考スコア(独自算出の注目度): 12.354076490479516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explaining an image with missing or non-existent objects is known as object
bias (hallucination) in image captioning. This behaviour is quite common in the
state-of-the-art captioning models which is not desirable by humans. To
decrease the object hallucination in captioning, we propose three simple yet
efficient training augmentation method for sentences which requires no new
training data or increase in the model size. By extensive analysis, we show
that the proposed methods can significantly diminish our models' object bias on
hallucination metrics. Moreover, we experimentally demonstrate that our methods
decrease the dependency on the visual features. All of our code, configuration
files and model weights will be made public.
- Abstract(参考訳): 画像キャプションにおいて、存在しない、または存在しないオブジェクトで画像を記述することは、オブジェクトバイアス(hallucination)として知られている。
この行動は、人間には望ましいものではない最先端のキャプションモデルで非常に一般的である。
キャプションにおける物体の幻覚を低減するために,新たな訓練データやモデルサイズの増大を必要としない文に対する3つの簡易かつ効率的な訓練拡張法を提案する。
広範に分析した結果,提案手法は幻覚測定値に対するモデル対象バイアスを著しく低減できることがわかった。
さらに,本手法が視覚特性への依存性を減少させることを示す。
すべてのコード、構成ファイル、モデルの重み付けが公開されます。
関連論文リスト
- Evaluating and Mitigating Number Hallucinations in Large Vision-Language
Models: A Consistency Perspective [64.5433181220184]
本稿では,画像中の物体の量を正確に識別できない場合を例示する,新しい幻覚,特に数幻覚と呼ばれるものに焦点を当てる。
本研究では,このような幻覚を緩和する手段としての一貫性トレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Less is More: Mitigating Multimodal Hallucination from an EOS Decision
Perspective [62.284452344672125]
大規模なマルチモーダルモデル(LMM)は、視覚的な入力に存在しないコンテンツを生成するため、しばしば多モーダル幻覚に悩まされる。
本稿では,モデルが生成をタイムリーに終了する能力を阻害する,過度に詳細なトレーニングデータについて検討する。
生成したテキストと画像を比較し,シーケンス全体の完全性を評価する。
論文 参考訳(メタデータ) (2024-02-22T13:33:13Z) - EFUF: Efficient Fine-grained Unlearning Framework for Mitigating
Hallucinations in Multimodal Large Language Models [28.871461053464362]
ペア化データなしで幻覚を除去する,効率的な粒度の未学習フレームワーク(EFUF)を提案する。
本手法は, 高い計算オーバーヘッドで生成品質を保ちながら, 幻覚を常に低減する。
論文 参考訳(メタデータ) (2024-02-15T08:58:03Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Mitigating Open-Vocabulary Caption Hallucinations [36.43428388918294]
オープン語彙設定における画像キャプションにおける幻覚に対処する枠組みを提案する。
当社のOpenCHAIRベンチマークでは,生成基盤モデルを用いて,開語彙キャプションの幻覚を評価する。
強化学習の進歩を生かしたMOCHaを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:28:03Z) - Tackling Hallucinations in Neural Chart Summarization [9.09194288859985]
テキスト生成における幻覚は、システムが入力に基づかないテキストを生成するときに起こる。
本研究では,学習データの事前処理を行う自然言語推論(NLI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-01T09:26:40Z) - Reducing Hallucinations in Neural Machine Translation with Feature
Attribution [54.46113444757899]
本研究は,NMTにおける幻覚の軽減を目的としたモデル理解と正規化に着目したケーススタディである。
まず,幻覚を発生させるNMTモデルの振る舞いを研究するために,特徴帰属法を用いる。
次に、これらの手法を利用して、幻覚の低減に大きく貢献し、ゼロからモデルを再訓練する必要のない新しい損失関数を提案する。
論文 参考訳(メタデータ) (2022-11-17T20:33:56Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。