論文の概要: From images in the wild to video-informed image classification
- arxiv url: http://arxiv.org/abs/2109.12040v1
- Date: Fri, 24 Sep 2021 15:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:17:16.825454
- Title: From images in the wild to video-informed image classification
- Title(参考訳): 野生の画像から映像に変形した画像分類へ
- Authors: Marc B\"ohlen, Varun Chandola, Wawan Sujarwo, Raunaq Jain
- Abstract要約: 本稿では,バリ島で収集された視覚的複雑度の高い野生のユニークな画像に対して,最先端のオブジェクト分類器を適用した実験について述べる。
このテキストは野生の実際の画像とImagenetの画像の違いを記述し、野生の植物のビデオソース画像の分類結果を改善するために、ビデオに特有の情報キューと不完全な分類器のアンサンブルを組み合わせた新しいアプローチについて論じる。
- 参考スコア(独自算出の注目度): 0.7804710977378488
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image classifiers work effectively when applied on structured images, yet
they often fail when applied on images with very high visual complexity. This
paper describes experiments applying state-of-the-art object classifiers toward
a unique set of images in the wild with high visual complexity collected on the
island of Bali. The text describes differences between actual images in the
wild and images from Imagenet, and then discusses a novel approach combining
informational cues particular to video with an ensemble of imperfect
classifiers in order to improve classification results on video sourced images
of plants in the wild.
- Abstract(参考訳): 画像分類器は、構造化画像に適用すると効果的に機能するが、非常に複雑な画像に適用すると失敗することが多い。
本稿では,バリ島で収集された視覚的複雑度の高い野生のユニークな画像に対して,最先端のオブジェクト分類器を適用した実験について述べる。
本論文は,野生における実画像とイメージネットの画像の違いを記述し,野生植物の映像ソース画像の分類結果を改善するために,映像に特有の情報的手がかりと不完全な分類器のアンサンブルを組み合わせた新しいアプローチを提案する。
関連論文リスト
- Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Image Captioners Sometimes Tell More Than Images They See [8.640488282016351]
画像キャプション、つまり、"image-to-text"は、与えられた画像から記述テキストを生成する。
我々は、記述テキストのみからの画像の分類を含む実験を行った。
災害画像分類タスクであるCrisisNLPについて,いくつかの画像キャプションモデルの評価を行った。
論文 参考訳(メタデータ) (2023-05-04T15:32:41Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Multi-modal reward for visual relationships-based image captioning [4.354364351426983]
本稿では、画像のシーングラフから抽出した視覚的関係情報を画像の空間的特徴マップに融合させることにより、画像キャプションのためのディープニューラルネットワークアーキテクチャを提案する。
次に、共通埋め込み空間における言語と視覚の類似性の組み合わせを用いて、提案するネットワークの深層強化学習のためにマルチモーダル報酬関数を導入する。
論文 参考訳(メタデータ) (2023-03-19T20:52:44Z) - Arbitrary Style Transfer with Structure Enhancement by Combining the
Global and Local Loss [51.309905690367835]
本稿では,グローバルな損失と局所的な損失を組み合わせ,構造拡張を伴う任意のスタイル転送手法を提案する。
実験結果から,視覚効果の優れた高画質画像が生成できることが示唆された。
論文 参考訳(メタデータ) (2022-07-23T07:02:57Z) - Iconographic Image Captioning for Artworks [2.3859169601259342]
本研究は,Iconclass分類システムの概念を付加したアート画像の大規模データセットを利用する。
アノテーションはクリーンなテキスト記述に処理され、画像キャプションタスク上でディープニューラルネットワークモデルのトレーニングに適したデータセットを生成する。
画像データセットを用いて、トランスフォーマーに基づく視覚言語事前学習モデルを微調整する。
生成したキャプションの品質と新たなデータに一般化するモデルの能力について,新たな絵画コレクションにモデルを適用し,一般的なキャプションと芸術ジャンルの関係を解析することにより検討する。
論文 参考訳(メタデータ) (2021-02-07T23:11:33Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Guidance and Evaluation: Semantic-Aware Image Inpainting for Mixed
Scenes [54.836331922449666]
本稿では,SGE-Net(Semantic Guidance and Evaluation Network)を提案する。
セマンティックセグメンテーションマップをインペイントの各尺度のガイダンスとして利用し、そこで位置依存推論を再評価する。
混合シーンの現実画像に対する実験により,提案手法が最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-15T17:49:20Z) - I Am Going MAD: Maximum Discrepancy Competition for Comparing
Classifiers Adaptively [135.7695909882746]
我々は、MAD(Maximum Discrepancy)コンペティションを命名する。
任意に大きいラベル付き画像のコーパスから小さなテストセットを適応的にサンプリングする。
結果のモデル依存画像集合に人間のラベルを付けると、競合する分類器の相対的な性能が明らかになる。
論文 参考訳(メタデータ) (2020-02-25T03:32:29Z) - Learning Transformation-Aware Embeddings for Image Forensics [15.484408315588569]
Image Provenance Analysisは、コンテンツを共有するさまざまな操作されたイメージバージョン間の関係を見つけることを目的としている。
証明分析のための主要なサブプロブレムの1つは、完全なコンテンツを共有したり、ほぼ重複している画像の編集順序である。
本稿では,1つの画像から生成した画像に対して,変換を通じて妥当な順序付けを行うための,新しい深層学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-13T22:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。