論文の概要: Context Understanding in Computer Vision: A Survey
- arxiv url: http://arxiv.org/abs/2302.05011v1
- Date: Fri, 10 Feb 2023 02:01:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 16:46:14.390117
- Title: Context Understanding in Computer Vision: A Survey
- Title(参考訳): コンピュータビジョンにおける文脈理解:調査
- Authors: Xuan Wang, Zhigang Zhu
- Abstract要約: コンテキスト情報は、多くのコンピュータビジョンタスクにおいて重要な役割を果たす。
オブジェクトの背景の色や形状などの出現コンテキスト情報は、シーン内のオブジェクトの認識精度を向上させることができる。
セマンティックコンテキスト(例えば、空の机上のキーボードとデスクトップコンピュータの隣のキーボード)は精度を改善し、無関係なイベントを除外する。
- 参考スコア(独自算出の注目度): 7.6481332765810315
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Contextual information plays an important role in many computer vision tasks,
such as object detection, video action detection, image classification, etc.
Recognizing a single object or action out of context could be sometimes very
challenging, and context information may help improve the understanding of a
scene or an event greatly. Appearance context information, e.g., colors or
shapes of the background of an object can improve the recognition accuracy of
the object in the scene. Semantic context (e.g. a keyboard on an empty desk vs.
a keyboard next to a desktop computer ) will improve accuracy and exclude
unrelated events. Context information that are not in the image itself, such as
the time or location of an images captured, can also help to decide whether
certain event or action should occur. Other types of context (e.g. 3D structure
of a building) will also provide additional information to improve the
accuracy. In this survey, different context information that has been used in
computer vision tasks is reviewed. We categorize context into different types
and different levels. We also review available machine learning models and
image/video datasets that can employ context information. Furthermore, we
compare context based integration and context-free integration in mainly two
classes of tasks: image-based and video-based. Finally, this survey is
concluded by a set of promising future directions in context learning and
utilization.
- Abstract(参考訳): コンテキスト情報は、オブジェクト検出、ビデオアクション検出、画像分類など、多くのコンピュータビジョンタスクにおいて重要な役割を果たす。
コンテキストからひとつのオブジェクトやアクションを認識することは、時として非常に難しい場合があり、コンテキスト情報は、シーンやイベントの理解を大幅に改善するのに役立つ。
オブジェクトの背景の色や形状などの出現コンテキスト情報は、シーン内のオブジェクトの認識精度を向上させることができる。
セマンティックコンテキスト(例えば、空の机上のキーボードとデスクトップコンピュータの隣のキーボード)は精度を改善し、無関係なイベントを除外する。
キャプチャされた画像の時間や位置など、画像自体にないコンテキスト情報は、特定のイベントやアクションが発生するかどうかを判断するのに役立ちます。
他のタイプのコンテキスト(建物の3d構造など)も、精度を向上させるための追加情報を提供する。
本調査では,コンピュータビジョンタスクで使用されるコンテキスト情報について概説する。
コンテキストを異なるタイプと異なるレベルに分類します。
また、コンテキスト情報を活用可能な機械学習モデルと画像/ビデオデータセットについてもレビューする。
さらに,コンテキストベース統合と文脈自由統合を,主に画像ベースとビデオベースという2つのタスクのクラスで比較した。
最後に、この調査は、コンテキスト学習と活用における将来的な方向性のセットによって締めくくられる。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Composed Image Retrieval for Remote Sensing [24.107610091033997]
この研究は、合成画像検索をリモートセンシングに導入する。
テキスト記述で交互に画像例によって大きな画像アーカイブをクエリできる。
イメージ・ツー・イメージとテキスト・ツー・イメージの類似性を融合させる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T14:18:31Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - AffordanceLLM: Grounding Affordance from Vision Language Models [36.97072698640563]
Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。
知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。
我々は、豊かな世界、抽象的、人間-対象-相互作用の知識を生かして、現在の空き地における一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-01-12T03:21:02Z) - IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - Learning Scene Context Without Images [2.8184014933789365]
本研究では,アテンション機構を用いてシーンコンテキストの知識を機械に教える新しい手法を提案する。
提案手法の特筆すべき側面は、シーンコンテキストを教えるための画像データセットからのラベルのみに依存することである。
本研究では,異なるオブジェクト間のシーンワイドな関係を自己認識機構を用いて学習する方法を示す。
論文 参考訳(メタデータ) (2023-11-18T07:27:25Z) - Vision-Language Pre-training: Basics, Recent Advances, and Future Trends [158.34830433299268]
近年,マルチモーダルインテリジェンスのための視覚言語事前学習法が開発されている。
各カテゴリについて、最先端の手法の総合的なレビューを行い、現在進行中の進歩と課題について論じる。
また,研究コミュニティにおいて,大規模基盤モデル,統合モデリング,文脈内数発の学習,知識,堅牢性,コンピュータビジョンなど,高度なトピックが積極的に検討されていることについても論じる。
論文 参考訳(メタデータ) (2022-10-17T17:11:36Z) - DALL-E for Detection: Language-driven Context Image Synthesis for Object
Detection [18.276823176045525]
本稿では,大規模なコンテキスト画像の自動生成のための新しいパラダイムを提案する。
我々のアプローチの核心は、文脈の言語記述と言語駆動画像生成の相互作用を利用することである。
本研究では,4つのオブジェクト検出データセットに対する事前の文脈画像生成手法に対するアプローチの利点を実証する。
論文 参考訳(メタデータ) (2022-06-20T06:43:17Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。