論文の概要: Generating Enhanced Negatives for Training Language-Based Object
Detectors
- arxiv url: http://arxiv.org/abs/2401.00094v1
- Date: Fri, 29 Dec 2023 23:04:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 18:52:19.523572
- Title: Generating Enhanced Negatives for Training Language-Based Object
Detectors
- Title(参考訳): 言語に基づく物体検出訓練のための強化否定値の生成
- Authors: Shiyu Zhao, Long Zhao, Vijay Kumar B.G, Yumin Suh, Dimitris N.
Metaxas, Manmohan Chandraker, Samuel Schulter
- Abstract要約: 我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のある負を自動で構築することを提案する。
具体的には、大言語モデルを用いて、負のテキスト記述を生成するとともに、テキスト間拡散モデルを用いて、対応する負の画像を生成する。
- 参考スコア(独自算出の注目度): 89.9037039320539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent progress in language-based open-vocabulary object detection can be
largely attributed to finding better ways of leveraging large-scale data with
free-form text annotations. Training such models with a discriminative
objective function has proven successful, but requires good positive and
negative samples. However, the free-form nature and the open vocabulary of
object descriptions make the space of negatives extremely large. Prior works
randomly sample negatives or use rule-based techniques to build them. In
contrast, we propose to leverage the vast knowledge built into modern
generative models to automatically build negatives that are more relevant to
the original data. Specifically, we use large-language-models to generate
negative text descriptions, and text-to-image diffusion models to also generate
corresponding negative images. Our experimental analysis confirms the relevance
of the generated negative data, and its use in language-based detectors
improves performance on two complex benchmarks.
- Abstract(参考訳): 言語ベースのopen-vocabulary object detectionの最近の進歩は、フリーフォームのテキストアノテーションで大規模データを活用するより良い方法を見つけることに起因する。
このようなモデルを識別的目的関数で訓練することは成功したが、良い正と負のサンプルを必要とする。
しかし、自由形式の性質と対象記述の開語彙は、負の空間を極端に大きくする。
事前の作業はランダムに負をサンプリングするか、ルールベースのテクニックを使って構築する。
対照的に、我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のあるネガティブを自動構築することを提案する。
具体的には,大きな言語モデルを用いて負のテキスト記述を生成し,テキストから画像への拡散モデルを用いて対応する負のイメージを生成する。
実験分析により,生成した負データとの関連性が確認され,言語ベースの検出器での利用により,2つの複雑なベンチマークの性能が向上した。
関連論文リスト
- Large, Small or Both: A Novel Data Augmentation Framework Based on Language Models for Debiasing Opinion Summarization [32.814792889137145]
現在の意見要約アプローチは、負のテキストの入力から負の要約を生成するのに消極的である。
本稿では,大小の言語モデルと大小の言語モデルに基づく新しいデータ拡張フレームワークを提案する。
我々のフレームワークは、大きなモデルだけでなく、より経済的にも、感情バイアスを効果的に軽減することができる。
論文 参考訳(メタデータ) (2024-03-12T14:37:03Z) - Enhancing Multimodal Compositional Reasoning of Visual Language Models
with Generative Negative Mining [58.379339799777064]
大規模視覚言語モデル(VLM)は、強力な表現能力を示し、画像およびテキスト理解タスクを強化するためにユビキタスである。
両方向のマイニングだけでなく,両方向の否定的なサンプルを生成するフレームワークを提案する。
私たちのコードとデータセットはhttps://ugorsahin.github.io/enhancing-multimodal-compositional-reasoning-of-vlm.htmlで公開されています。
論文 参考訳(メタデータ) (2023-11-07T13:05:47Z) - Can large language models generate salient negative statements? [18.577880767789097]
本研究では,大規模言語モデルによる実世界の実体に関する健全な(興味深い)ネガティブなステートメントを生成する能力について検討する。
我々はゼロショットとkショットの制約のないプローブを用いてLSMを探索し、従来の否定生成法と比較した。
異なる領域の被写体に関する生成したリストの正しさと正当性を測定する。
論文 参考訳(メタデータ) (2023-05-26T09:13:59Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Robust Contrastive Learning Using Negative Samples with Diminished
Semantics [23.38896719740166]
慎重に設計された負のサンプルを生成することで、コントラスト学習がより堅牢な表現を学習できることが示される。
我々は, テクスチャベースとパッチベースの拡張という2つの手法を開発し, 負のサンプルを生成する。
また,本手法と生成したテクスチャベースサンプルを分析し,特定のイメージネットクラスを分類するにはテクスチャの特徴が不可欠であることを示す。
論文 参考訳(メタデータ) (2021-10-27T05:38:00Z) - Contrastive Learning with Adversarial Perturbations for Conditional Text
Generation [49.055659008469284]
seq2seqモデルのコントラスト学習のための正負のサンプルを生成する原則的な方法を提案する。
具体的には、入力シーケンスに小さな摂動を加えることで、条件付き可能性を最小限に抑えるネガティブな例を生成します。
提案手法は,3つのテキスト生成タスクにおけるSeq2seqの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-12-14T06:20:27Z) - Detecting and Exorcising Statistical Demons from Language Models with
Anti-Models of Negative Data [13.392212395386933]
モデルファミリー内では、パラメータの数、訓練エポック数、データセットのサイズが増加するため、モデルが負のn-gramデータに一般化する能力がある。
本稿では,このような望ましくない信号を正のデータから自動的に学習した負のデータ分布で減衰させる帰納バイアスの形式を提案する。
論文 参考訳(メタデータ) (2020-10-22T16:45:32Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Reinforced Negative Sampling over Knowledge Graph for Recommendation [106.07209348727564]
我々は、高品質なネガティブを探索する強化学習エージェントとして機能する新しい負サンプリングモデル、知識グラフポリシーネットワーク(kgPolicy)を開発した。
kgPolicyは、ターゲットのポジティブなインタラクションからナビゲートし、知識を意識したネガティブなシグナルを適応的に受信し、最終的にはリコメンダをトレーニングする潜在的なネガティブなアイテムを生成する。
論文 参考訳(メタデータ) (2020-03-12T12:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。