論文の概要: Learning Scene Context Without Images
- arxiv url: http://arxiv.org/abs/2311.10998v1
- Date: Sat, 18 Nov 2023 07:27:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 12:53:01.497172
- Title: Learning Scene Context Without Images
- Title(参考訳): 画像のないシーンコンテキストの学習
- Authors: Amirreza Rouhi, David Han
- Abstract要約: 本研究では,アテンション機構を用いてシーンコンテキストの知識を機械に教える新しい手法を提案する。
提案手法の特筆すべき側面は、シーンコンテキストを教えるための画像データセットからのラベルのみに依存することである。
本研究では,異なるオブジェクト間のシーンワイドな関係を自己認識機構を用いて学習する方法を示す。
- 参考スコア(独自算出の注目度): 2.8184014933789365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Teaching machines of scene contextual knowledge would enable them to interact
more effectively with the environment and to anticipate or predict objects that
may not be immediately apparent in their perceptual field. In this paper, we
introduce a novel transformer-based approach called $LMOD$ ( Label-based
Missing Object Detection) to teach scene contextual knowledge to machines using
an attention mechanism. A distinctive aspect of the proposed approach is its
reliance solely on labels from image datasets to teach scene context, entirely
eliminating the need for the actual image itself. We show how scene-wide
relationships among different objects can be learned using a self-attention
mechanism. We further show that the contextual knowledge gained from label
based learning can enhance performance of other visual based object detection
algorithm.
- Abstract(参考訳): 状況文脈知識の機械を教えることで、より効果的に環境と相互作用し、知覚の分野ではすぐに明らかでない物体を予測または予測することができる。
本稿では,アテンション機構を用いてシーンコンテキストの知識を機械に教える,LMOD$(ラベルベースミスオブジェクト検出)と呼ばれる新しいトランスフォーマーベースのアプローチを提案する。
提案手法の特徴は、画像データセットからのラベルのみに依存してシーンコンテキストを教えることであり、実際の画像自体の必要性を完全に排除している。
異なる対象間のシーンワイドな関係を自己照査機構を用いて学習する方法を示す。
さらに,ラベルに基づく学習から得られた文脈知識が,他の視覚的対象検出アルゴリズムの性能を向上させることを示す。
関連論文リスト
- In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - Context-driven Visual Object Recognition based on Knowledge Graphs [0.8701566919381223]
本稿では,知識グラフに符号化された外部文脈知識を用いて,ディープラーニング手法を強化する手法を提案する。
我々は、異なる文脈ビューが同じ画像データセットの学習対象表現に与える影響を調べるために、一連の実験を行った。
論文 参考訳(メタデータ) (2022-10-20T13:09:00Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Scene Recognition with Objectness, Attribute and Category Learning [8.581276116041401]
シーン分類は、それ自体が挑戦的な研究課題として確立されている。
画像認識は、シーン認識の優れたパフォーマンスの鍵となる。
本稿では,カテゴリ埋め込みを学習し,同時にシーン特性を予測するマルチタスク属性・シーン認識ネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T19:51:54Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。