論文の概要: The Curious Layperson: Fine-Grained Image Recognition without Expert
Labels
- arxiv url: http://arxiv.org/abs/2111.03651v1
- Date: Fri, 5 Nov 2021 17:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 14:40:10.063420
- Title: The Curious Layperson: Fine-Grained Image Recognition without Expert
Labels
- Title(参考訳): the curious layperson: エキスパートラベルのないきめ細かな画像認識
- Authors: Subhabrata Choudhury, Iro Laina, Christian Rupprecht, Andrea Vedaldi
- Abstract要約: 我々は、専門家のアノテーションを使わずに、きめ細かい画像認識という新しい問題を考える。
非専門的な画像記述を用いてオブジェクトの視覚的外観を記述するモデルを学ぶ。
次に、画像記述と文書とを文レベルでマッチングする、きめ細かいテキスト類似性モデルを訓練する。
- 参考スコア(独自算出の注目度): 90.88501867321573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most of us are not experts in specific fields, such as ornithology.
Nonetheless, we do have general image and language understanding capabilities
that we use to match what we see to expert resources. This allows us to expand
our knowledge and perform novel tasks without ad-hoc external supervision. On
the contrary, machines have a much harder time consulting expert-curated
knowledge bases unless trained specifically with that knowledge in mind. Thus,
in this paper we consider a new problem: fine-grained image recognition without
expert annotations, which we address by leveraging the vast knowledge available
in web encyclopedias. First, we learn a model to describe the visual appearance
of objects using non-expert image descriptions. We then train a fine-grained
textual similarity model that matches image descriptions with documents on a
sentence-level basis. We evaluate the method on two datasets and compare with
several strong baselines and the state of the art in cross-modal retrieval.
Code is available at: https://github.com/subhc/clever
- Abstract(参考訳): 私たちのほとんどは鳥類学のような特定の分野の専門家ではありません。
それでも私たちは、専門家のリソースにマッチさせるために使用する、一般的なイメージと言語理解機能を持っています。
これにより、アドホックな外部監視なしに知識を拡大し、新しいタスクを実行できます。
それとは対照的に、機械はその知識を念頭において特別に訓練しない限り、専門家が計算した知識ベースをコンサルティングするのは非常に難しい。
そこで,本稿では,web百科事典で利用可能な膨大な知識を活用し,専門家のアノテーションを使わずにきめ細かい画像認識を行うという新しい問題を考える。
まず,非熟練画像記述を用いて物体の視覚的外観を記述するモデルを学ぶ。
次に、画像記述と文書を文レベルで一致させる微細なテキスト類似モデルを訓練する。
提案手法を2つのデータセット上で評価し,複数の強いベースラインとクロスモーダル検索における技術状況を比較した。
コードは、https://github.com/subhc/cleverで入手できる。
関連論文リスト
- Assistive Image Annotation Systems with Deep Learning and Natural Language Capabilities: A Review [0.0]
本稿では、入力画像のテキスト提案、キャプション、記述をアノテータに提供するためのAI支援型ディープラーニング画像アノテーションシステムについて検討する。
各種データセットをレビューし,AI補助アノテーションシステムのトレーニングと評価にどのように貢献するかを検討する。
有望な可能性にもかかわらず、テキスト出力機能を備えたAIアシスト画像アノテーションに関する公開作業は限られている。
論文 参考訳(メタデータ) (2024-06-28T22:56:17Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z) - External Knowledge Augmented Text Visual Question Answering [0.6445605125467573]
本稿では,視覚言語理解タスクのための標準マルチモーダルトランスフォーマー上で知識を抽出,フィルタリング,エンコードするフレームワークを提案する。
2つの公開データセット上で、最先端のデータセットに匹敵する結果を生成する。
論文 参考訳(メタデータ) (2021-08-22T13:21:58Z) - Interpretable Visual Understanding with Cognitive Attention Network [20.991018495051623]
視覚的コモンセンス推論のための認知意識ネットワーク(CAN)を提案する。
まず、画像とテキストの情報をまとめて融合するための画像テキスト融合モジュールを導入する。
第二に、新しい推論モジュールは、画像、クエリ、レスポンスのコモンセンスをエンコードするように設計されている。
論文 参考訳(メタデータ) (2021-08-06T02:57:43Z) - Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-26T05:50:41Z) - Hierarchical Semantic Segmentation using Psychometric Learning [17.417302703539367]
我々は,心理測定テストに基づいて,専門家からセグメンテーションアノテーションを収集する手法を開発した。
本手法は, 心理測定試験, アクティブクエリ選択, クエリ強化, ディープメトリック学習モデルから構成される。
本稿では, 合成画像, 空中画像, 組織像について評価し, 提案手法の有用性を示す。
論文 参考訳(メタデータ) (2021-07-07T13:38:33Z) - Learning Multimodal Affinities for Textual Editing in Images [18.7418059568887]
文書イメージにおけるテキストエンティティ間のマルチモーダルな親和性を学ぶための汎用的な非監視手法を考案する。
次に、これらの学習親和性を使用して、画像内のテキストエンティティを異なるセマンティックグループに自動的にクラスタ化する。
本手法は,幅広い文書にまたがる高度に多様な画像に対して動作可能であり,様々な編集操作に適用可能であることを示す。
論文 参考訳(メタデータ) (2021-03-18T10:09:57Z) - This is not the Texture you are looking for! Introducing Novel
Counterfactual Explanations for Non-Experts using Generative Adversarial
Learning [59.17685450892182]
反実用説明システムは、入力画像を変更して反実用推論を可能にする。
本稿では, 対向画像から画像への変換技術に基づく, 対向画像の説明を新たに生成する手法を提案する。
その結果,我々のアプローチは,2つの最先端技術システムよりも,メンタルモデル,説明満足度,信頼度,感情,自己効力に関して有意に優れた結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-22T10:08:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。