論文の概要: See or Guess: Counterfactually Regularized Image Captioning
- arxiv url: http://arxiv.org/abs/2408.16809v1
- Date: Thu, 29 Aug 2024 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 17:18:55.815635
- Title: See or Guess: Counterfactually Regularized Image Captioning
- Title(参考訳): See or Guess: 事実上の正規化イメージキャプション
- Authors: Qian Cao, Xu Chen, Ruihua Song, Xiting Wang, Xinting Huang, Yuchen Ren,
- Abstract要約: 本稿では、因果推論を利用して、既存のモデルを介入作業に役立てる汎用画像キャプションフレームワークを提案する。
本手法は幻覚を効果的に低減し,画像への忠実さを向上し,小型および大規模の画像・テキスト・モデル間で高い可搬性を示す。
- 参考スコア(独自算出の注目度): 32.82695612178604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning, which generates natural language descriptions of the visual information in an image, is a crucial task in vision-language research. Previous models have typically addressed this task by aligning the generative capabilities of machines with human intelligence through statistical fitting of existing datasets. While effective for normal images, they may struggle to accurately describe those where certain parts of the image are obscured or edited, unlike humans who excel in such cases. These weaknesses they exhibit, including hallucinations and limited interpretability, often hinder performance in scenarios with shifted association patterns. In this paper, we present a generic image captioning framework that employs causal inference to make existing models more capable of interventional tasks, and counterfactually explainable. Our approach includes two variants leveraging either total effect or natural direct effect. Integrating them into the training process enables models to handle counterfactual scenarios, increasing their generalizability. Extensive experiments on various datasets show that our method effectively reduces hallucinations and improves the model's faithfulness to images, demonstrating high portability across both small-scale and large-scale image-to-text models. The code is available at https://github.com/Aman-4-Real/See-or-Guess.
- Abstract(参考訳): 画像中の視覚情報の自然言語記述を生成する画像キャプションは、視覚言語研究において重要な課題である。
従来のモデルでは、既存のデータセットを統計的に適合させることで、機械の生成能力を人間の知性と整合させることで、この課題に対処してきた。
通常の画像には有効だが、画像の特定の部分が隠されたり、編集されたりする部分を記述するのに苦労するかもしれない。
幻覚や限定的な解釈可能性を含むこれらの弱点は、しばしば、変化した関連パターンを持つシナリオのパフォーマンスを妨げる。
本稿では、因果推論を用いて、既存のモデルに介入作業がより可能で、かつ、事実的に説明可能な、汎用的な画像キャプションフレームワークを提案する。
我々のアプローチには、トータル効果と自然な直接効果のどちらかを利用する2つの変種が含まれている。
トレーニングプロセスに統合することで、モデルが反現実的なシナリオを処理し、一般化可能性を高めることができる。
各種データセットに対する大規模な実験により,本手法は幻覚を効果的に低減し,画像への忠実度を向上させるとともに,小型・大規模画像・テキストモデル間の高可搬性を示す。
コードはhttps://github.com/Aman-4-Real/See-or-Guessで入手できる。
関連論文リスト
- Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。
提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:50:53Z) - Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - Few-shot Domain-Adaptive Visually-fused Event Detection from Text [13.189886554546929]
本稿では、いくつかのラベル付き画像テキストペアデータポイントでトレーニング可能な、ドメイン適応型視覚融合イベント検出手法を提案する。
具体的には,視覚的文脈がない場合にテキストから画像を生成する視覚的イマジネータ手法を提案する。
我々のモデルは、事前学習された視覚言語モデルの能力を活用でき、数ショットで訓練することができる。
論文 参考訳(メタデータ) (2023-05-04T00:10:57Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Dependent Multi-Task Learning with Causal Intervention for Image
Captioning [10.6405791176668]
本稿では、因果的介入(DMTCI)を伴う依存型マルチタスク学習フレームワークを提案する。
まず、中間タスク、カテゴリの袋生成、最終タスクの前に、画像キャプションを伴います。
次に、pearlのdo-calculusをモデルに適用し、視覚的特徴と共同設立者のつながりを取り除きます。
最後に,エンド・ツー・エンドのトレーニングを可能にし,タスク間エラーの蓄積を低減するために,マルチエージェント強化学習戦略を用いる。
論文 参考訳(メタデータ) (2021-05-18T14:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。