論文の概要: Towards reporting bias in visual-language datasets: bimodal augmentation
by decoupling object-attribute association
- arxiv url: http://arxiv.org/abs/2310.01330v1
- Date: Mon, 2 Oct 2023 16:48:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 20:51:10.260572
- Title: Towards reporting bias in visual-language datasets: bimodal augmentation
by decoupling object-attribute association
- Title(参考訳): 視覚言語データセットにおけるバイアスの報告に向けて--オブジェクト-属性関係の分離によるバイモーダル強化
- Authors: Qiyu Wu, Mengjie Zhao, Yutong He, Lang Huang, Junya Ono, Hiromi
Wakaki, Yuki Mitsufuji
- Abstract要約: 視覚言語データセットにおけるレポートバイアスの存在に焦点をあてる。
このバイアスを軽減するために,バイモーダル拡張(BiAug)アプローチを提案する。
BiAugは、リッチなオブジェクト-属性のペアリングで視覚言語例を合成し、クロスモーダルなハードネガティブを構築する。
- 参考スコア(独自算出の注目度): 23.06058982328083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reporting bias arises when people assume that some knowledge is universally
understood and hence, do not necessitate explicit elaboration. In this paper,
we focus on the wide existence of reporting bias in visual-language datasets,
embodied as the object-attribute association, which can subsequentially degrade
models trained on them. To mitigate this bias, we propose a bimodal
augmentation (BiAug) approach through object-attribute decoupling to flexibly
synthesize visual-language examples with a rich array of object-attribute
pairing and construct cross-modal hard negatives. We employ large language
models (LLMs) in conjunction with a grounding object detector to extract target
objects. Subsequently, the LLM generates a detailed attribute description for
each object and produces a corresponding hard negative counterpart. An
inpainting model is then used to create images based on these detailed object
descriptions. By doing so, the synthesized examples explicitly complement
omitted objects and attributes to learn, and the hard negative pairs steer the
model to distinguish object attributes. Our experiments demonstrated that BiAug
is superior in object-attribute understanding. In addition, BiAug also improves
the performance on zero-shot retrieval tasks on general benchmarks like MSCOCO
and Flickr30K. BiAug refines the way of collecting text-image datasets.
Mitigating the reporting bias helps models achieve a deeper understanding of
visual-language phenomena, expanding beyond mere frequent patterns to encompass
the richness and diversity of real-world scenarios.
- Abstract(参考訳): バイアスの報告は、ある知識が普遍的に理解されていると仮定し、それゆえ、明示的な推論を必要としないときに生じる。
本稿では、オブジェクト属性アソシエーションとして具体化された視覚言語データセットにおけるレポートバイアスの存在を広く強調する。
このバイアスを緩和するために、オブジェクト属性分離によるbimodal augmentation(biaug)アプローチを提案し、オブジェクト属性ペアリングの豊富な配列で視覚的な例を柔軟に合成し、クロスモーダルハードネガティブを構築する。
対象対象物を抽出するために,大規模言語モデル(LLM)と接地対象検出器を併用する。
その後、LCMは各オブジェクトの詳細な属性記述を生成し、対応するハード負の相手を生成する。
次に、インペインティングモデルを使用して、これらの詳細なオブジェクト記述に基づいてイメージを作成する。
そうすることで、合成されたサンプルは、学習するために省略されたオブジェクトと属性を明示的に補完し、ハードネガティブペアは、オブジェクト属性を識別するためにモデルを制御します。
実験の結果,BiAugはオブジェクト属性理解に優れていた。
さらに、BiAugは、MSCOCOやFlickr30Kといった一般的なベンチマークでのゼロショット検索タスクのパフォーマンスも改善している。
BiAugはテキストイメージデータセットの収集方法を洗練する。
レポートバイアスの緩和は、モデルが視覚言語現象をより深く理解し、現実のシナリオの豊かさと多様性を包含する、単なる頻繁なパターンを越えて拡張するのに役立つ。
関連論文リスト
- Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Object Attribute Matters in Visual Question Answering [15.705504296316576]
本稿では,オブジェクト属性の活用の観点から,新しいVQAアプローチを提案する。
属性融合モジュールはマルチモーダルグラフニューラルネットワークを構築し、メッセージパッシングを通じて属性と視覚的特徴を融合する。
オブジェクトレベルの視覚言語アライメントの改善により、マルチモーダルシーンの理解が容易になり、モデルの堅牢性が改善される。
論文 参考訳(メタデータ) (2023-12-20T12:46:30Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Learning Dynamic Attribute-factored World Models for Efficient
Multi-object Reinforcement Learning [6.447052211404121]
多くの強化学習タスクでは、エージェントは異なるタイプの多くのオブジェクトと対話し、目に見えない組み合わせやオブジェクト数に一般化する必要がある。
最近の研究は、サンプル効率を改善するために、オブジェクト指向表現と階層的抽象化の利点を示している。
本稿では、動的属性FacTored RL(DAFT-RL)フレームワークを導入し、オブジェクト属性の係数化の利点を利用する。
論文 参考訳(メタデータ) (2023-07-18T12:41:28Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Disentangling Visual Embeddings for Attributes and Objects [38.27308243429424]
オブジェクト属性認識における合成ゼロショット学習の問題点について検討する。
以前の作業では、オブジェクト分類のために事前訓練されたバックボーンネットワークで抽出された視覚的特徴を使用する。
視覚空間における属性とオブジェクトの特徴をアンタングルできる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-05-17T17:59:36Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Learning to Infer Unseen Attribute-Object Compositions [55.58107964602103]
単一属性と多属性オブジェクトの両方を柔軟に認識できるグラフベースモデルを提案する。
我々は116,099の画像と8,030の合成カテゴリを持つ大規模マルチ属性データセットを構築した。
論文 参考訳(メタデータ) (2020-10-27T14:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。