論文の概要: Perceptual Score: What Data Modalities Does Your Model Perceive?
- arxiv url: http://arxiv.org/abs/2110.14375v1
- Date: Wed, 27 Oct 2021 12:19:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 22:53:00.866130
- Title: Perceptual Score: What Data Modalities Does Your Model Perceive?
- Title(参考訳): 知覚スコア:あなたのモデルはどんなデータモダリティを知覚しますか。
- Authors: Itai Gat, Idan Schwartz, Alexander Schwing
- Abstract要約: モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
- 参考スコア(独自算出の注目度): 73.75255606437808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning advances in the last decade have relied significantly on
large-scale datasets that continue to grow in size. Increasingly, those
datasets also contain different data modalities. However, large multi-modal
datasets are hard to annotate, and annotations may contain biases that we are
often unaware of. Deep-net-based classifiers, in turn, are prone to exploit
those biases and to find shortcuts. To study and quantify this concern, we
introduce the perceptual score, a metric that assesses the degree to which a
model relies on the different subsets of the input features, i.e., modalities.
Using the perceptual score, we find a surprisingly consistent trend across four
popular datasets: recent, more accurate state-of-the-art multi-modal models for
visual question-answering or visual dialog tend to perceive the visual data
less than their predecessors. This trend is concerning as answers are hence
increasingly inferred from textual cues only. Using the perceptual score also
helps to analyze model biases by decomposing the score into data subset
contributions. We hope to spur a discussion on the perceptiveness of
multi-modal models and also hope to encourage the community working on
multi-modal classifiers to start quantifying perceptiveness via the proposed
perceptual score.
- Abstract(参考訳): 過去10年間の機械学習の進歩は、拡大を続ける大規模なデータセットに大きく依存している。
これらのデータセットには、さまざまなデータモダリティも含まれている。
しかし、大規模なマルチモーダルデータセットはアノテーションが難しいので、アノテーションにはよく知らないバイアスが含まれます。
ディープネットベースの分類器は、それらのバイアスを利用してショートカットを見つける傾向がある。
この問題を研究・定量化するために、モデルが入力特徴の異なる部分集合、すなわちモダリティに依存する度合いを評価する指標である知覚スコア(Perceptual score)を導入する。
視覚的質問回答や視覚的ダイアログのための最新の、より正確なマルチモーダルモデルでは、前者よりも視覚的データを知覚する傾向があります。
この傾向は、回答がテキストのみから推測されるようになっているため、関係している。
知覚スコアを使用すると、スコアをデータサブセットのコントリビュートに分割することで、モデルのバイアスを分析するのに役立つ。
我々は,マルチモーダルモデルの知覚性に関する議論を促すとともに,コミュニティがマルチモーダル分類器に取り組み,提案する知覚スコアを通じて知覚性を定量化することを促すことを望んでいる。
関連論文リスト
- Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。
ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。
これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文 参考訳(メタデータ) (2023-11-28T16:46:14Z) - What If the TV Was Off? Examining Counterfactual Reasoning Abilities of Multi-modal Language Models [22.0839948292609]
我々は,現代言語モデルの対実的推論能力をテストするために,新しいデータセットC-VQAを導入する。
このデータセットは、数値クエリや対語クエリなど、さまざまなタイプでオリジナルの質問を注入することで構築される。
このデータセットを用いた現代の視覚モデルの評価では、性能低下が顕著であり、いくつかのモデルでは40%まで低下している。
論文 参考訳(メタデータ) (2023-10-10T13:45:59Z) - The Trade-off between Universality and Label Efficiency of
Representations from Contrastive Learning [32.15608637930748]
2つのデシダラタの間にはトレードオフがあることを示し、同時に両方を達成できない可能性があることを示す。
我々は、理論データモデルを用いて分析を行い、より多様な事前学習データにより、異なるタスクに対してより多様な機能が得られる一方で、タスク固有の機能に重点を置いていないことを示す。
論文 参考訳(メタデータ) (2023-02-28T22:14:33Z) - Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis [20.316056261749946]
本稿では,明示的な知識グラフを取り入れたエンドツーエンドのビジョンと言語モデルを提案する。
また,暗黙的ネットワーク演算子を用いた対話型アウト・オブ・ディストリビューション・レイヤを導入する。
実際に,視覚的質問応答,視覚的推論,画像テキスト検索など,複数の視覚および言語下流タスクにモデルを適用した。
論文 参考訳(メタデータ) (2023-02-11T05:46:21Z) - A Graph-Enhanced Click Model for Web Search [67.27218481132185]
ウェブ検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。
セッション内情報とセッション間情報の両方を、スパーシリティ問題とコールドスタート問題に活用する。
論文 参考訳(メタデータ) (2022-06-17T08:32:43Z) - Visualising Deep Network's Time-Series Representations [93.73198973454944]
機械学習モデルの普及にもかかわらず、多くの場合、モデルの内部で起きていることに関する洞察のないブラックボックスとして運用される。
本稿では,多次元時系列データの可視化に着目し,この問題に対処する手法を提案する。
高周波在庫市場データセットの実験は、この方法が迅速かつ識別可能な可視化を提供することを示しています。
論文 参考訳(メタデータ) (2021-03-12T09:53:34Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。