論文の概要: Image Captioners Sometimes Tell More Than Images They See
- arxiv url: http://arxiv.org/abs/2305.02932v1
- Date: Thu, 4 May 2023 15:32:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 14:56:23.579277
- Title: Image Captioners Sometimes Tell More Than Images They See
- Title(参考訳): 画像キャプチャーは、見る画像より多くを語ることがある
- Authors: Honori Udo and Takafumi Koshinaka
- Abstract要約: 画像キャプション、つまり、"image-to-text"は、与えられた画像から記述テキストを生成する。
我々は、記述テキストのみからの画像の分類を含む実験を行った。
災害画像分類タスクであるCrisisNLPについて,いくつかの画像キャプションモデルの評価を行った。
- 参考スコア(独自算出の注目度): 8.640488282016351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning, a.k.a. "image-to-text," which generates descriptive text
from given images, has been rapidly developing throughout the era of deep
learning. To what extent is the information in the original image preserved in
the descriptive text generated by an image captioner? To answer that question,
we have performed experiments involving the classification of images from
descriptive text alone, without referring to the images at all, and compared
results with those from standard image-based classifiers. We have evaluate
several image captioning models with respect to a disaster image classification
task, CrisisNLP, and show that descriptive text classifiers can sometimes
achieve higher accuracy than standard image-based classifiers. Further, we show
that fusing an image-based classifier with a descriptive text classifier can
provide improvement in accuracy.
- Abstract(参考訳): 画像キャプションは、与えられた画像から記述テキストを生成する「画像からテキスト」であり、ディープラーニングの時代を通じて急速に発展してきた。
画像キャプタによって生成された記述テキストに保存された原画像の情報は、どの程度まで保持されているか。
そこで我々は,画像を参照することなく,説明文のみからの画像の分類を含む実験を行い,その結果を標準画像ベース分類器と比較した。
本研究では,災害画像分類タスクである crisisnlp に関して,複数の画像キャプションモデルを評価し,記述的テキスト分類器が標準画像に基づく分類器よりも高い精度を達成できることを示す。
さらに,画像ベース分類器と記述テキスト分類器を融合させることで精度が向上することを示す。
関連論文リスト
- ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - GIST: Generating Image-Specific Text for Fine-grained Object
Classification [8.118079247462425]
GISTは、画像のみのデータセットから、画像固有のきめ細かいテキスト記述を生成する方法である。
提案手法は,CLIP線形プローブよりも平均4.1%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-07-21T02:47:18Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Revising Image-Text Retrieval via Multi-Modal Entailment [25.988058843564335]
多対多のマッチング現象は、広く使われている画像テキスト検索データセットで非常によく見られる。
文が画像と関連キャプションによって関連付けられているかどうかを判定するマルチモーダル・エンターメント分類器を提案する。
論文 参考訳(メタデータ) (2022-08-22T07:58:54Z) - From images in the wild to video-informed image classification [0.7804710977378488]
本稿では,バリ島で収集された視覚的複雑度の高い野生のユニークな画像に対して,最先端のオブジェクト分類器を適用した実験について述べる。
このテキストは野生の実際の画像とImagenetの画像の違いを記述し、野生の植物のビデオソース画像の分類結果を改善するために、ビデオに特有の情報キューと不完全な分類器のアンサンブルを組み合わせた新しいアプローチについて論じる。
論文 参考訳(メタデータ) (2021-09-24T15:53:37Z) - Multi-Modal Image Captioning for the Visually Impaired [0.0]
盲目の人が自分の周囲を理解する方法の1つは、画像をクリックして、画像キャプションシステムによって生成された説明に頼ることです。
視覚障害者向けキャプション画像に関する現在の作業では、キャプション生成時に画像に存在するテキストデータを使用しない。
本研究では,最先端画像キャプションモデルであるaoanetを改良し,画像に検出されたテキストを入力特徴として活用することを提案する。
論文 参考訳(メタデータ) (2021-05-17T18:35:24Z) - Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。
本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。
我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文 参考訳(メタデータ) (2021-02-09T17:54:34Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Text-to-Image Generation Grounded by Fine-Grained User Attention [62.94737811887098]
Localized Narrativesは、マウストレースと組み合わせた画像の詳細な自然言語記述を備えたデータセットである。
本稿では、このグラウンド化を利用して画像を生成するシーケンシャルモデルであるTReCSを提案する。
論文 参考訳(メタデータ) (2020-11-07T13:23:31Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。