Fugu-MT 論文翻訳(概要): Mitigating Open-Vocabulary Caption Hallucinations

論文の概要: Mitigating Open-Vocabulary Caption Hallucinations

arxiv url: http://arxiv.org/abs/2312.03631v2
Date: Wed, 21 Feb 2024 15:04:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 18:09:06.999145
Title: Mitigating Open-Vocabulary Caption Hallucinations
Title（参考訳）: Open-Vocabulary Caption Hallucinations の誤用
Authors: Assaf Ben-Kish, Moran Yanuka, Morris Alper, Raja Giryes, Hadar Averbuch-Elor
Abstract要約: オープン語彙設定における画像キャプションにおける幻覚に対処する枠組みを提案する。当社のOpenCHAIRベンチマークでは,生成基盤モデルを用いて,開語彙キャプションの幻覚を評価する。強化学習の進歩を生かしたMOCHaを提案する。
参考スコア（独自算出の注目度）: 36.43428388918294
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: While recent years have seen rapid progress in image-conditioned text generation, image captioning still suffers from the fundamental issue of hallucinations, namely, the generation of spurious details that cannot be inferred from the given image. Existing methods largely use closed-vocabulary object lists to mitigate or evaluate hallucinations in image captioning, ignoring most types of hallucinations that occur in practice. To this end, we propose a framework for addressing hallucinations in image captioning in the open-vocabulary setting, including quantifying their presence and optimizing to mitigate such hallucinations. Our OpenCHAIR benchmark leverages generative foundation models to evaluate open-vocabulary caption hallucinations, surpassing the popular CHAIR benchmark in both diversity and accuracy. To mitigate open-vocabulary hallucinations at the sequence level, we propose MOCHa, an approach harnessing advancements in reinforcement learning. Our multi-objective reward function explicitly targets the trade-off between fidelity and adequacy in generations without requiring any strong supervision. MOCHa improves a large variety of image captioning models, as captured by our OpenCHAIR benchmark and other existing metrics. We will release our code and models.
Abstract（参考訳）: 近年,イメージコンディショルドテキスト生成が急速に進展しているが,画像キャプションは依然として幻覚の根本的な問題,すなわち与えられた画像から推測できないスプリアス詳細の生成に苦しめられている。既存の方法は、画像キャプションにおける幻覚を緩和または評価するために、主に閉語彙オブジェクトリストを使用しており、実際に発生するほとんどの種類の幻覚を無視している。この目的のために,開語彙設定における画像キャプションにおける幻覚に対処する枠組みを提案し,その存在を定量化し,その幻覚を緩和する。弊社のOpenCHAIRベンチマークは、生成基礎モデルを利用して、オープン語彙キャプション幻覚の評価を行い、CHAIRベンチマークを多様性と精度の両方で上回っている。開語彙の幻覚をシーケンスレベルで緩和するために,強化学習の進歩を生かしたMOCHaを提案する。当社の多目的報酬機能は,厳格な監督を必要とせずに,世代間の忠実性と妥当性のトレードオフを明示的に目標としています。 MOCHaは、OpenCHAIRベンチマークやその他の既存のメトリクスによってキャプチャされるように、さまざまなイメージキャプションモデルを改善します。コードとモデルをリリースします。

関連論文リスト

SAVER: Mitigating Hallucinations in Large Vision-Language Models via Style-Aware Visual Early Revision [59.61988843996952]
Style-Aware Visual Early Revision SAVERはトークンレベルの視覚的注意パターンに基づいてLVLMの最終出力を動的に調整する新しいメカニズムである。我々は,SAVERが様々なモデル,データセット,タスクの幻覚緩和において,最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2025-08-05T07:41:25Z)
Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文参考訳（メタデータ） (2025-04-17T17:59:22Z)
PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。 HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。 PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文参考訳（メタデータ） (2025-03-09T07:07:03Z)
Mitigating Hallucinations in Large Vision-Language Models by Adaptively Constraining Information Flow [32.039946174953236]
大きな視覚言語モデルは、人間の言語を通して視覚情報を理解する大きな可能性を示している。それらは、物体の幻覚に苦しむ傾向があり、すなわち、生成された画像記述には、画像の中に存在しない物体が含まれている。本稿では,幻覚雑音の導入による過信を軽減するため,変分情報ボトルネック(VIB)を提案する。
論文参考訳（メタデータ） (2025-02-28T05:56:23Z)
Exploring Causes and Mitigation of Hallucinations in Large Vision Language Models [24.241691571850403]
Large Vision-Language Models (LVLM)は、画像エンコーダとLarge Language Models (LLM)を統合し、マルチモーダル入力を処理し、複雑な視覚タスクを実行する。それらはしばしば、既存のオブジェクトや属性を記述することによって幻覚を生じさせ、その信頼性を損なう。本研究では、画像キャプションにおける幻覚パターンを分析し、生成過程における全てのトークンが画像入力の影響を受けないことを示す。
論文参考訳（メタデータ） (2025-02-24T05:00:52Z)
Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文参考訳（メタデータ） (2025-02-10T03:43:55Z)
VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において顕著な機能を示す。彼らはしばしば、幻覚として知られる視覚的内容が正確に反映されていないように思われる応答を生成する。近年のアプローチでは、推論段階における復号化戦略を調整することで幻覚を緩和するための訓練不要な手法が導入されている。 textbfVisutextbfal textbfLayer Fustextbfion textbfD
論文参考訳（メタデータ） (2024-11-24T13:42:02Z)
HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding [36.360171373963716]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示している。これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。本稿では、この問題に対処するために、視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。
論文参考訳（メタデータ） (2024-09-30T15:52:05Z)
Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文参考訳（メタデータ） (2024-05-21T18:02:07Z)
Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文参考訳（メタデータ） (2024-04-22T14:46:10Z)
ALOHa: A New Measure for Hallucination in Captioning Models [61.007542765171586]
既存の物体幻覚の計量であるCHAIRは、MS COCOオブジェクトとシノニムの固定セットに限られる。そこで我々は,大規模言語モデル(LLM)を利用して物体の幻覚を測定する,最新のオープン語彙メトリックALOHaを提案する。 ALOHaはHAT上のCHAIRよりも13.6%多くの幻覚物質を正しく同定することを示す。
論文参考訳（メタデータ） (2024-04-03T17:59:36Z)
ESREAL: Exploiting Semantic Reconstruction to Mitigate Hallucinations in Vision-Language Models [6.014286500397164]
視覚言語モデルにおける幻覚は、特に長いキャプションの生成において、その信頼性に重大な課題をもたらす。本研究では,幻覚の正確な局在化と罰則化による幻覚の発生抑制を目的とした,新しい教師なし学習フレームワークであるESREALを紹介する。 LLaVA, InstructBLIP, mPLUG-Owl2の幻覚を32.81%, 27.08%, 7.46%減少させる。
論文参考訳（メタデータ） (2024-03-24T14:21:06Z)
EFUF: Efficient Fine-grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large Language Models [27.679307570206937]
ペア化データなしで幻覚を除去する,効率的な粒度の未学習フレームワーク(EFUF)を提案する。本手法は, 高い計算オーバーヘッドで生成品質を保ちながら, 幻覚を常に低減する。
論文参考訳（メタデータ） (2024-02-15T08:58:03Z)
CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。 CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文参考訳（メタデータ） (2023-10-15T07:20:22Z)
Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文参考訳（メタデータ） (2022-10-14T10:27:22Z)
Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。 COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文参考訳（メタデータ） (2022-07-26T19:35:49Z)
Let there be a clock on the beach: Reducing Object Hallucination in Image Captioning [12.354076490479516]
画像キャプションにおいて、存在しない、または存在しないオブジェクトで画像を記述することは、オブジェクトバイアス(hallucination)として知られている。この行動は、人間には望ましいものではない最先端のキャプションモデルで非常に一般的である。本稿では,新たなトレーニングデータやモデルサイズの増大を必要としない文に対する,シンプルで効率的な3つのトレーニング拡張手法を提案する。
論文参考訳（メタデータ） (2021-10-04T20:25:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。