論文の概要: Overcoming Statistical Shortcuts for Open-ended Visual Counting
- arxiv url: http://arxiv.org/abs/2006.10079v2
- Date: Wed, 1 Jul 2020 11:04:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 19:08:19.053087
- Title: Overcoming Statistical Shortcuts for Open-ended Visual Counting
- Title(参考訳): オープンエンドビジュアルカウントのための統計的ショートカットの克服
- Authors: Corentin Dancette and Remi Cadene and Xinlei Chen and Matthieu Cord
- Abstract要約: 出力ラベルに関係なく、カウントする適切なメカニズムを学習するモデルを開発することを目的としている。
まず,統計的ショートカットに過度に依存するモデルを罰するModifying Count Distributionプロトコルを提案する。
第2に、視覚分析と自然言語質問に基づく数え上げを専門とする空間カウントネットワーク(SCN)を導入する。
- 参考スコア(独自算出の注目度): 54.858754825838865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning models tend to over-rely on statistical shortcuts. These
spurious correlations between parts of the input and the output labels does not
hold in real-world settings. We target this issue on the recent open-ended
visual counting task which is well suited to study statistical shortcuts. We
aim to develop models that learn a proper mechanism of counting regardless of
the output label. First, we propose the Modifying Count Distribution (MCD)
protocol, which penalizes models that over-rely on statistical shortcuts. It is
based on pairs of training and testing sets that do not follow the same count
label distribution such as the odd-even sets. Intuitively, models that have
learned a proper mechanism of counting on odd numbers should perform well on
even numbers. Secondly, we introduce the Spatial Counting Network (SCN), which
is dedicated to visual analysis and counting based on natural language
questions. Our model selects relevant image regions, scores them with fusion
and self-attention mechanisms, and provides a final counting score. We apply
our protocol on the recent dataset, TallyQA, and show superior performances
compared to state-of-the-art models. We also demonstrate the ability of our
model to select the correct instances to count in the image. Code and datasets
are available: https://github.com/cdancette/spatial-counting-network
- Abstract(参考訳): 機械学習モデルは統計的ショートカットに過剰に依存する傾向がある。
これらの入力の一部と出力ラベルの間のスプリアス相関は、現実世界の設定では保持されない。
本課題は,統計的近道の研究に好適な最近オープンエンドビジュアルカウントタスクを対象とする。
出力ラベルに関係なく、カウントする適切なメカニズムを学ぶモデルを開発することを目指している。
まず,統計ショートカットに過度に依存するモデルをペナライズするmodifieding count distribution (mcd)プロトコルを提案する。
これはトレーニングセットとテストセットのペアに基づいており、奇数偶数集合のような同じカウントラベル分布に従わない。
直観的には、奇数にカウントする適切なメカニズムを学習したモデルは偶数に対してうまく機能する。
第2に、視覚分析と自然言語質問に基づく数え上げに特化した空間カウントネットワーク(SCN)を導入する。
本モデルでは, 画像領域を選択し, 融合と自己認識機構でスコアし, 最終的なカウントスコアを提供する。
このプロトコルを最近のデータセットであるTallyQAに適用し、最先端モデルと比較して優れた性能を示す。
また、モデルが画像にカウントする正しいインスタンスを選択する能力も示しています。
コードとデータセット: https://github.com/cdancette/spatial-counting-network
関連論文リスト
- Bound Tightening Network for Robust Crowd Counting [0.3626013617212667]
本稿では,ロバスト・クラウド・カウンティングのためのバウンド・タイニング・ネットワーク(BTN)を提案する。
ベースモデル、スムーズな正規化モジュール、有界モジュールの3つの部分で構成されている。
測定のための異なるベンチマークデータセットの実験では、BTNの有効性と効率が示されている。
論文 参考訳(メタデータ) (2024-09-27T21:18:31Z) - Active Statistical Inference [14.00987234726578]
方法論は、どのデータポイントがラベルにとって最も有益かを特定するために、機械学習モデルを使用する。
既存のベースラインよりもはるかに少ないサンプルで、同じレベルの精度を達成する。
論文 参考訳(メタデータ) (2024-03-05T18:46:50Z) - Confidence-Based Model Selection: When to Take Shortcuts for
Subpopulation Shifts [119.22672589020394]
モデル信頼度がモデル選択を効果的に導くことができるConfidence-based Model Selection (CosMoS)を提案する。
我々はCosMoSを,データ分散シフトのレベルが異なる複数のテストセットを持つ4つのデータセットで評価した。
論文 参考訳(メタデータ) (2023-06-19T18:48:15Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Improving Zero-Shot Models with Label Distribution Priors [33.51714665243138]
本稿では,ゼロショットモデルを適用した新しいアプローチであるCLIPPRを提案する。
UTK年齢回帰作業における平均絶対誤差は平均28%改善した。
また、分類ベンチマークの有望な結果を示し、ラベルを使わずにImageNetデータセットの分類精度を2.83%改善した。
論文 参考訳(メタデータ) (2022-12-01T18:59:03Z) - Leveraging Instance Features for Label Aggregation in Programmatic Weak
Supervision [75.1860418333995]
Programmatic Weak Supervision (PWS) は、トレーニングラベルを効率的に合成するための広く普及したパラダイムとして登場した。
PWSのコアコンポーネントはラベルモデルであり、複数のノイズ管理ソースの出力をラベル関数として集約することで、真のラベルを推論する。
既存の統計ラベルモデルは一般的にLFの出力のみに依存し、基礎となる生成過程をモデル化する際のインスタンスの特徴を無視している。
論文 参考訳(メタデータ) (2022-10-06T07:28:53Z) - Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition [98.25592165484737]
CMPL(Cross-Model Pseudo-Labeling)と呼ばれる,より効果的な擬似ラベル方式を提案する。
CMPLは、それぞれRGBモダリティとラベル付きデータのみを使用して、Kinetics-400とUCF-101のTop-1の精度を17.6%と25.1%で達成している。
論文 参考訳(メタデータ) (2021-12-17T18:59:41Z) - Pre and Post Counting for Scalable Statistical-Relational Model
Discovery [19.18886406228943]
統計的関係モデル発見は、関係データに統計的に関連のあるパターンを見つけることを目的としている。
命題的(非リレーショナル)なグラフィカルモデルと同様に、モデル発見における大きなスケーラビリティのボトルネックは、インスタンス数を計算することである。
本稿では,リレーショナル学習における事前集計とポストカウント戦略間のメモリとスピードのトレードオフを詳細に検討する。
論文 参考訳(メタデータ) (2021-10-19T07:03:35Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。