Fugu-MT 論文翻訳(概要): What could go wrong? Discovering and describing failure modes in computer vision

論文の概要: What could go wrong? Discovering and describing failure modes in computer vision

arxiv url: http://arxiv.org/abs/2408.04471v2
Date: Tue, 24 Sep 2024 09:58:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 12:11:36.781704
Title: What could go wrong? Discovering and describing failure modes in computer vision
Title（参考訳）: コンピュータービジョンにおける障害モードの発見と説明
Authors: Gabriela Csurka, Tyler L. Hayes, Diane Larlus, Riccardo Volpi,
Abstract要約: 言語に基づく誤り説明可能性(LBEE)の問題を定式化する。我々は,共同視覚・言語埋め込み空間で機能するソリューションを提案する。提案手法は,特定の誤りの原因に関連する非自明な文を分離する。
参考スコア（独自算出の注目度）: 27.6114923305978
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning models are effective, yet brittle. Even carefully trained, their behavior tends to be hard to predict when confronted with out-of-distribution samples. In this work, our goal is to propose a simple yet effective solution to predict and describe via natural language potential failure modes of computer vision models. Given a pretrained model and a set of samples, our aim is to find sentences that accurately describe the visual conditions in which the model underperforms. In order to study this important topic and foster future research on it, we formalize the problem of Language-Based Error Explainability (LBEE) and propose a set of metrics to evaluate and compare different methods for this task. We propose solutions that operate in a joint vision-and-language embedding space, and can characterize through language descriptions model failures caused, e.g., by objects unseen during training or adverse visual conditions. We experiment with different tasks, such as classification under the presence of dataset bias and semantic segmentation in unseen environments, and show that the proposed methodology isolates nontrivial sentences associated with specific error causes. We hope our work will help practitioners better understand the behavior of models, increasing their overall safety and interpretability.
Abstract（参考訳）: ディープラーニングモデルは効率的だが脆弱だ。丁寧に訓練されたとしても、その行動は配布外サンプルに直面すると予測しにくい傾向にある。本研究の目的は、コンピュータビジョンモデルにおいて、自然言語による潜在的な障害モードを予測し、記述するための、シンプルで効果的なソリューションを提案することである。事前訓練されたモデルとサンプルのセットが与えられた場合、そのモデルが過小評価される視覚的条件を正確に記述した文を見つけることが目的である。この重要なトピックについて研究し、今後の研究を促進するために、言語ベースの誤り説明可能性(LBEE)の問題を形式化し、このタスクの異なる手法を評価し比較するための指標セットを提案する。我々は,共同視覚・言語埋め込み空間で動作し,学習中や視覚条件の悪い物体が原因で発生する言語記述のモデル故障を特徴付けることができるソリューションを提案する。本研究では,データセットバイアスやセマンティックセグメンテーションの存在下での分類などの異なるタスクを実験し,提案手法が特定の誤りの原因に関連する非自明な文を分離することを示す。私たちの仕事は、実践者がモデルの振る舞いをよりよく理解し、全体的な安全性と解釈可能性を高めるのに役立つことを願っています。

関連論文リスト

Failures Are Fated, But Can Be Faded: Characterizing and Mitigating Unwanted Behaviors in Large-Scale Vision and Language Models [7.736445799116692]
多くのタスクで驚くほどうまく機能しているように見える大きなディープニューラルネットワークでは、精度、社会的バイアス、人間の価値観との整合性に関連するいくつかの障害も観察します。本研究では,事前学習した識別モデルと生成モデルを用いて,エンフディープ強化学習を用いて,障害モードの景観を探索・構築するポストホック手法を提案する。提案手法の有効性を,コンピュータビジョン,自然言語処理,視覚言語タスクで実証的に示す。
論文参考訳（メタデータ） (2024-06-11T10:45:41Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
Diagnosing and Rectifying Vision Models using Language [31.588965563961573]
最近のコントラスト学習モデルは、強力な視覚分類器を構築するのに適した埋め込み空間を学習できることを実証している。我々の研究は、このマルチモーダル埋め込み空間の明確な利点として、自然言語で視覚分類器を診断する能力を挙げている。提案手法は,ハイエラーデータスライスを発見し,重要な属性を同定し,さらに好ましくないモデルの振る舞いを補正する。
論文参考訳（メタデータ） (2023-02-08T18:59:42Z)
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文参考訳（メタデータ） (2022-12-01T05:00:18Z)
Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文参考訳（メタデータ） (2022-07-04T22:14:40Z)
Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文参考訳（メタデータ） (2021-12-16T05:36:08Z)
Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文参考訳（メタデータ） (2021-03-18T12:57:34Z)
CausaLM: Causal Model Explanation Through Counterfactual Language Models [33.29636213961804]
CausaLMは、対実言語表現モデルを用いた因果モデル説明を作成するためのフレームワークである。本稿では,BERT のような言語表現モデルが,ある意味ある概念に対する対実表現を効果的に学習できることを示す。本手法の副産物は,テストされた概念の影響を受けない言語表現モデルである。
論文参考訳（メタデータ） (2020-05-27T15:06:35Z)
Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2020-04-20T02:47:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。