論文の概要: Reading Is Believing: Revisiting Language Bottleneck Models for Image Classification
- arxiv url: http://arxiv.org/abs/2406.15816v1
- Date: Sat, 22 Jun 2024 10:49:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 20:25:27.737841
- Title: Reading Is Believing: Revisiting Language Bottleneck Models for Image Classification
- Title(参考訳): 可読性:画像分類のための言語ボトルネックモデルの再検討
- Authors: Honori Udo, Takafumi Koshinaka,
- Abstract要約: 我々は、画像分類のためのディープラーニングモデルの説明可能性を保証するアプローチとして、言語ボトルネックモデルを再考する。
実験により、現代の画像キャプタと事前訓練された言語モデルを組み合わせた言語ボトルネックモデルにより、ブラックボックスモデルを超える画像分類精度が得られることを示す。
- 参考スコア(独自算出の注目度): 4.1205832766381985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit language bottleneck models as an approach to ensuring the explainability of deep learning models for image classification. Because of inevitable information loss incurred in the step of converting images into language, the accuracy of language bottleneck models is considered to be inferior to that of standard black-box models. Recent image captioners based on large-scale foundation models of Vision and Language, however, have the ability to accurately describe images in verbal detail to a degree that was previously believed to not be realistically possible. In a task of disaster image classification, we experimentally show that a language bottleneck model that combines a modern image captioner with a pre-trained language model can achieve image classification accuracy that exceeds that of black-box models. We also demonstrate that a language bottleneck model and a black-box model may be thought to extract different features from images and that fusing the two can create a synergistic effect, resulting in even higher classification accuracy.
- Abstract(参考訳): 我々は、画像分類のためのディープラーニングモデルの説明可能性を保証するアプローチとして、言語ボトルネックモデルを再考する。
画像が言語に変換される過程で必然的に発生する情報損失のため、言語のボトルネックモデルの精度は標準のブラックボックスモデルよりも劣っていると考えられる。
しかし,近年の視覚・言語モデルに基づく画像キャプタは,これまで現実的には不可能と考えられていた程度まで,口コミで正確に画像を記述する能力を有している。
災害画像分類の課題として,現代の画像キャプタと事前学習された言語モデルを組み合わせた言語ボトルネックモデルが,ブラックボックスモデルを上回る画像分類精度を達成できることを実験的に示す。
また,言語ボトルネックモデルとブラックボックスモデルが画像から異なる特徴を抽出し,両者を融合させることで相乗効果が得られ,さらに高い分類精度が得られることを示した。
関連論文リスト
- Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - Visual Conceptual Blending with Large-scale Language and Vision Models [54.251383721475655]
言語モデルを用いて2つのブレンドの単一文記述を生成する。
テキストベース画像生成モデルを用いてブレンドの視覚的描写を生成する。
論文 参考訳(メタデータ) (2021-06-27T02:48:39Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。