論文の概要: Learning Visual Context by Comparison
- arxiv url: http://arxiv.org/abs/2007.07506v1
- Date: Wed, 15 Jul 2020 06:47:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 05:54:27.672891
- Title: Learning Visual Context by Comparison
- Title(参考訳): 比較による視覚コンテキストの学習
- Authors: Minchul Kim, Jongchan Park, Seil Na, Chang Min Park, Donggeun Yoo
- Abstract要約: 本稿では、関心対象とそれに対応するコンテキストの差を捉えるためのACM(Attend-and-Compare Module)を提案する。
本研究では,遠方からの位置の直接比較を必要とするタスクにおいて,明示的な差分モデリングが有用であることを示す。
- 参考スコア(独自算出の注目度): 13.563997700531775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finding diseases from an X-ray image is an important yet highly challenging
task. Current methods for solving this task exploit various characteristics of
the chest X-ray image, but one of the most important characteristics is still
missing: the necessity of comparison between related regions in an image. In
this paper, we present Attend-and-Compare Module (ACM) for capturing the
difference between an object of interest and its corresponding context. We show
that explicit difference modeling can be very helpful in tasks that require
direct comparison between locations from afar. This module can be plugged into
existing deep learning models. For evaluation, we apply our module to three
chest X-ray recognition tasks and COCO object detection & segmentation tasks
and observe consistent improvements across tasks. The code is available at
https://github.com/mk-minchul/attend-and-compare.
- Abstract(参考訳): X線画像から病気を見つけることは重要であるが、非常に難しい課題である。
この問題を解決する現在の方法は胸部x線画像の様々な特徴を活用しているが、最も重要な特徴の1つは、画像内の関連領域の比較の必要性である。
本稿では、関心対象とそれに対応するコンテキストの差を捉えるためのACM(Attend-and-Compare Module)を提案する。
遠方位置の直接比較を必要とするタスクにおいて,明示的な差分モデリングが有用であることを示す。
このモジュールは既存のディープラーニングモデルにプラグインできる。
評価のために,我々のモジュールを胸部X線認識タスクとCOCOオブジェクト検出・セグメンテーションタスクに適用し,タスク間の一貫した改善を観察する。
コードはhttps://github.com/mk-minchul/attend-and-compareで入手できる。
関連論文リスト
- Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。
領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。
私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文 参考訳(メタデータ) (2024-04-16T16:50:35Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Granularity-aware Adaptation for Image Retrieval over Multiple Tasks [30.505620321478688]
Grappaは、強い事前訓練されたモデルから始まり、複数の検索タスクに同時に取り組むように適応するアプローチである。
我々は、全てのアダプタ集合を、融合層を学習することにより、全ての検索タスクに適した単一の統一モデルに再構成する。
6つの異種検索タスクからなるベンチマークの結果,教師なしのGrappaモデルでは,最先端の自己教師型学習モデルのゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2022-10-05T13:31:52Z) - Unifying Architectures, Tasks, and Modalities Through a Simple
Sequence-to-Sequence Learning Framework [83.82026345508334]
モーダル性(クロスモダリティ、ビジョン、言語など)とタスク(画像生成、視覚接地、画像キャプション、画像分類、テキスト生成など)を統一する統合マルチモーダル事前訓練モデルOFAを提案する。
OFAは、イメージキャプション(COCO test CIDEr: 149.6)、テキスト・ツー・イメージ生成(COCO test FID: 10.5)、VQA(test-std encoder acc.: 80.02)、SNLI-VE(test acc.: 90)など、一連のマルチモーダルタスクにおける新しい最先端処理を実現している。
論文 参考訳(メタデータ) (2022-02-07T10:38:21Z) - Cross-Modality Sub-Image Retrieval using Contrastive Multimodal Image
Representations [3.3754780158324564]
異なるモダリティによってキャプチャされた類似(または同じ)コンテンツのイメージは、共通の構造をほとんど共有しないため、モダリティ間の画像検索は困難である。
本稿では,モダリティ間の逆(サブ)画像検索のためのアプリケーション非依存のコンテンツベース画像検索システムを提案する。
論文 参考訳(メタデータ) (2022-01-10T19:04:28Z) - A Better Loss for Visual-Textual Grounding [74.81353762517979]
テキスト句と画像とが与えられた場合、視覚的接地問題は、文によって参照された画像の内容を特定するタスクとして定義される。
ヒューマン・コンピュータ・インタラクション、画像・テキスト・リファレンス・レゾリューション、ビデオ・テキスト・リファレンス・レゾリューションなどにおける現実的な応用がいくつかある課題である。
本稿では,より効率的な損失関数の導入により,最先端モデルよりも高い精度が得られるモデルを提案する。
論文 参考訳(メタデータ) (2021-08-11T16:26:54Z) - Dynamic Relevance Learning for Few-Shot Object Detection [6.550840743803705]
動的グラフ畳み込みネットワーク(GCN)を構築するために,すべてのサポート画像とクエリ画像上の関心領域(RoI)の関係を利用した動的関連学習モデルを提案する。
提案モデルでは,より一般化された特徴の学習の有効性を示す総合的な性能が得られた。
論文 参考訳(メタデータ) (2021-08-04T18:29:42Z) - DetCo: Unsupervised Contrastive Learning for Object Detection [64.22416613061888]
教師なしのコントラスト学習は,CNNを用いた画像表現学習において大きな成功を収めている。
我々は,グローバルイメージとローカルイメージパッチのコントラストをフルに検討する,DetCoという新しいコントラスト学習手法を提案する。
DetCoは1倍のスケジュールでMask RCNN-C4/FPN/RetinaNet上で1.6/1.2/1.0 APで教師付き手法を一貫して上回っている。
論文 参考訳(メタデータ) (2021-02-09T12:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。