論文の概要: Deconfounded Image Captioning: A Causal Retrospect
- arxiv url: http://arxiv.org/abs/2003.03923v1
- Date: Mon, 9 Mar 2020 04:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 09:02:42.649727
- Title: Deconfounded Image Captioning: A Causal Retrospect
- Title(参考訳): 画像キャプションの廃止:因果的考察
- Authors: Xu Yang, Hanwang Zhang, Jianfei Cai
- Abstract要約: 画像キャプションにおけるバイアスの原因を把握し,近代的なニューラルイメージキャプタを振り返り,最後にDICフレームワークDICv1.0を提案する。
DICv1.0は因果推論に基づいており、バックドアとフロントドアの調整という2つの原則は、我々が以前の研究をレビューし、効果的なモデルを設計するのに役立ちます。
特に、DICv1.0は2つの一般的なキャプションモデルを強化し、シングルモデル130.7 CIDEr-Dと128.4 C40 CIDEr-D on Karpathyの分割とオンライン化を実現している。
- 参考スコア(独自算出の注目度): 88.28298219472669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dataset bias in vision-language tasks is becoming one of the main
problems that hinder the progress of our community. However, recent studies
lack a principled analysis of the bias. In this paper, we present a novel
perspective: Deconfounded Image Captioning (DIC), to find out the cause of the
bias in image captioning, then retrospect modern neural image captioners, and
finally propose a DIC framework: DICv1.0. DIC is based on causal inference,
whose two principles: the backdoor and front-door adjustments, help us to
review previous works and design the effective models. In particular, we
showcase that DICv1.0 can strengthen two prevailing captioning models and
achieves a single-model 130.7 CIDEr-D and 128.4 c40 CIDEr-D on Karpathy split
and online split of the challenging MS-COCO dataset, respectively. Last but not
least, DICv1.0 is merely a natural derivation from our causal retrospect, which
opens a promising direction for image captioning.
- Abstract(参考訳): ビジョン言語タスクにおけるデータセットバイアスは、コミュニティの進歩を妨げる主要な問題のひとつになっています。
しかし、近年の研究はバイアスの原理的な分析を欠いている。
本稿では, 画像キャプションのバイアスの原因を解明し, 最新のニューラルイメージキャプタを反映してDICフレームワークであるDICv1.0を提案する。
DICは因果推論に基づいており、バックドアとフロントドアの調整という2つの原則は、過去の作業のレビューと効果的なモデルの設計に役立つ。
特に、DICv1.0は2つの一般的なキャプションモデルを強化し、1つのモデル130.7 CIDEr-Dと128.4 C40 CIDEr-Dのカーパシー分割と課題であるMS-COCOデータセットのオンライン分割を実現する。
最後に、DICv1.0は、画像キャプションの有望な方向を開く因果関係からの自然な派生である。
関連論文リスト
- Towards Deconfounded Image-Text Matching with Causal Inference [36.739004282369656]
本稿では、画像テキストマッチングタスクのための革新的なDecon founded Causal Inference Network(DCIN)を提案する。
DCINは、モダル内およびモダル間共同創設者を分解し、それらを視覚的およびテキスト的特徴のエンコーディングステージに組み込む。
データセットバイアスによって引き起こされる刺激的な相関ではなく、因果関係を学ぶことができる。
論文 参考訳(メタデータ) (2024-08-22T11:04:28Z) - Images Speak Louder than Words: Understanding and Mitigating Bias in Vision-Language Model from a Causal Mediation Perspective [13.486497323758226]
広範囲なデータセットで事前訓練された視覚言語モデルは、性情報とオブジェクトやシナリオを関連付けることによって、必然的にバイアスを学習することができる。
本稿では,因果媒介分析を取り入れた枠組みを提案し,バイアス発生と伝播の経路を計測・マッピングする。
論文 参考訳(メタデータ) (2024-07-03T05:19:45Z) - DRStageNet: Deep Learning for Diabetic Retinopathy Staging from Fundus
Images [3.4456298317539313]
タイムリーな識別は視覚障害を抑制するために重要である。
モデルは、モデルがトレーニングされたソースドメインと、それがデプロイされたターゲットドメインの間の分散シフトのために、一般化に失敗することが多い。
この課題を軽減するために設計されたディープラーニングモデルであるDRStageNetを紹介します。
論文 参考訳(メタデータ) (2023-12-22T18:09:20Z) - Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning [90.13978453378768]
生成したチャートキャプションに事実誤りを包括的に分類する。
大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。
分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
論文 参考訳(メタデータ) (2023-12-15T19:16:21Z) - Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - Uncurated Image-Text Datasets: Shedding Light on Demographic Bias [21.421722941901123]
MSCOCOのような小さいが手動で注釈付けされたデータセットでさえ、社会的バイアスの影響を受けている。
最初のコントリビューションは、ビジョンと言語モデルのトレーニングに広く使用されている、Google Conceptual Captionsデータセットの一部に注釈を付けることです。
第2の貢献は、アノテーションの包括的な分析を行うことであり、どのように異なる人口集団が表現されるかに焦点を当てている。
第3の貢献は3つの一般的な視覚・言語タスクを評価することであり、社会的バイアスはそれらすべてにおいて永続的な問題であることを示している。
論文 参考訳(メタデータ) (2023-04-06T02:33:51Z) - HIVE: Harnessing Human Feedback for Instructional Visual Editing [127.29436858998064]
本稿では,ヒューマンフィードバックを利用した指導視覚編集(HIVE)のための新しいフレームワークを提案する。
具体的には、編集された画像に対する人間のフィードバックを収集し、報酬関数を学習して、基礎となるユーザの好みをキャプチャする。
次に、推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデル微調整手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T19:47:41Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z) - Fully Unsupervised Diversity Denoising with Convolutional Variational
Autoencoders [81.30960319178725]
完全畳み込み変分オートエンコーダ(VAE)に基づく復調手法であるDivNoisingを提案する。
まず, 撮像ノイズモデルをデコーダに明示的に組み込むことにより, 教師なしの雑音発生問題をVAEフレームワーク内に定式化する手法を提案する。
このようなノイズモデルは、ノイズの多いデータから測定したり、ブートストラップしたり、トレーニング中に共同学習したりすることが可能である。
論文 参考訳(メタデータ) (2020-06-10T21:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。