Fugu-MT 論文翻訳(概要): Seeing in Words: Learning to Classify through Language Bottlenecks

論文の概要: Seeing in Words: Learning to Classify through Language Bottlenecks

arxiv url: http://arxiv.org/abs/2307.00028v1
Date: Thu, 29 Jun 2023 00:24:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-09 13:50:09.302131
Title: Seeing in Words: Learning to Classify through Language Bottlenecks
Title（参考訳）: 言葉で見る:言語ボトルネックを通して分類する学習
Authors: Khalid Saifullah, Yuxin Wen, Jonas Geiping, Micah Goldblum, Tom Goldstein
Abstract要約: 人間は簡潔で直感的な説明を使って予測を説明することができる。特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
参考スコア（独自算出の注目度）: 59.97827889540685
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural networks for computer vision extract uninterpretable features despite achieving high accuracy on benchmarks. In contrast, humans can explain their predictions using succinct and intuitive descriptions. To incorporate explainability into neural networks, we train a vision model whose feature representations are text. We show that such a model can effectively classify ImageNet images, and we discuss the challenges we encountered when training it.
Abstract（参考訳）: コンピュータビジョンのためのニューラルネットワークは、ベンチマークの精度が高いにもかかわらず、解釈不能な特徴を抽出する。対照的に、人間は簡潔で直感的な記述を用いて予測を説明することができる。ニューラルネットワークに説明可能性を導入するために,特徴表現がテキストである視覚モデルを訓練する。このようなモデルがImageNetイメージを効果的に分類できることを示し、トレーニング時に遭遇した課題について議論する。

関連論文リスト

Using Multimodal Deep Neural Networks to Disentangle Language from Visual Aesthetics [8.749640179057469]
我々は、自然画像の人間の美的評価を予測するために、ユニモーダル視覚、ユニモーダル言語、マルチモーダルディープニューラルネットワーク(DNN)モデルの学習表現に対する線形復号を用いる。言語対応型視覚モデル(SLIPなど)は, 単言語型視覚モデル(SimCLRなど)では, 言語対応の視覚モデル(SLIPなど)では, 単言語型視覚と比較して小さな利得が得られている。まとめると、これらの結果は、最終的に我々が美の体験を説明するために見つかるであろう言葉が何であれ、フィードフォワードの知覚の計算は、その経験に十分な基礎を与えるかもしれないことを示唆している。
論文参考訳（メタデータ） (2024-10-31T03:37:21Z)
Representing visual classification as a linear combination of words [0.0]
視覚分類タスクの言語ベースの記述子を識別するために,視覚言語モデルを用いた説明可能性戦略を提案する。画像とテキストの間に予め訓練された結合埋め込み空間を利用することで,新しい分類課題を単語の線形結合として推定する。その結果,ドメイン特化言語訓練の欠如にもかかわらず,結果として得られた記述子は臨床知識とほぼ一致していることが判明した。
論文参考訳（メタデータ） (2023-11-18T02:00:20Z)
DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文参考訳（メタデータ） (2023-09-04T13:59:55Z)
TExplain: Explaining Learned Visual Features via Pre-trained (Frozen) Language Models [14.019349267520541]
本稿では,事前学習した画像分類器の学習特徴を解釈するために,言語モデルの能力を活用する新しい手法を提案する。提案手法は,与えられた画像の分類器によって学習された特徴を説明するために,膨大な数の文を生成する。提案手法は,視覚表現に対応する頻繁な単語を初めて利用し,意思決定プロセスに関する洞察を提供する。
論文参考訳（メタデータ） (2023-09-01T20:59:46Z)
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文参考訳（メタデータ） (2022-12-01T05:00:18Z)
Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文参考訳（メタデータ） (2022-10-18T17:01:35Z)
Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-07-07T07:22:41Z)
Leveraging Sparse Linear Layers for Debuggable Deep Networks [86.94586860037049]
学習した深い特徴表現に疎い線形モデルを適用することで、よりデバッグ可能なニューラルネットワークを実現する方法を示す。その結果、スパースな説明は、スプリアス相関を特定し、誤分類を説明し、視覚および言語タスクにおけるモデルバイアスを診断するのに役立ちます。
論文参考訳（メタデータ） (2021-05-11T08:15:25Z)
AttViz: Online exploration of self-attention for transparent neural language modeling [7.574392147428978]
本研究では,AttVizを提案する。AttVizは,個々のテキストトークンに関連付けられた自己注意値の探索を行うオンラインツールキットである。既存のディープラーニングパイプラインが、AttVizに適したアウトプットを生成し、最小限の労力で、アテンションヘッドとアグリゲーションの新たな視覚化を提供する方法を示します。
論文参考訳（メタデータ） (2020-05-12T12:21:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。