論文の概要: COBE: Contextualized Object Embeddings from Narrated Instructional Video
- arxiv url: http://arxiv.org/abs/2007.07306v2
- Date: Thu, 29 Oct 2020 21:52:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 15:10:50.890446
- Title: COBE: Contextualized Object Embeddings from Narrated Instructional Video
- Title(参考訳): COBE: ナラティブなインストラクショナルビデオからコンテキスト化されたオブジェクト埋め込み
- Authors: Gedas Bertasius, Lorenzo Torresani
- Abstract要約: そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
- 参考スコア(独自算出の注目度): 52.73710465010274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many objects in the real world undergo dramatic variations in visual
appearance. For example, a tomato may be red or green, sliced or chopped, fresh
or fried, liquid or solid. Training a single detector to accurately recognize
tomatoes in all these different states is challenging. On the other hand,
contextual cues (e.g., the presence of a knife, a cutting board, a strainer or
a pan) are often strongly indicative of how the object appears in the scene.
Recognizing such contextual cues is useful not only to improve the accuracy of
object detection or to determine the state of the object, but also to
understand its functional properties and to infer ongoing or upcoming
human-object interactions. A fully-supervised approach to recognizing object
states and their contexts in the real-world is unfortunately marred by the
long-tailed, open-ended distribution of the data, which would effectively
require massive amounts of annotations to capture the appearance of objects in
all their different forms. Instead of relying on manually-labeled data for this
task, we propose a new framework for learning Contextualized OBject Embeddings
(COBE) from automatically-transcribed narrations of instructional videos. We
leverage the semantic and compositional structure of language by training a
visual detector to predict a contextualized word embedding of the object and
its associated narration. This enables the learning of an object representation
where concepts relate according to a semantic language metric. Our experiments
show that our detector learns to predict a rich variety of contextual object
information, and that it is highly effective in the settings of few-shot and
zero-shot learning.
- Abstract(参考訳): 現実世界の多くの物体は、視覚的な外観の劇的な変化をもたらす。
例えば、トマトは赤または緑、スライスまたは刻んだもの、新鮮なもの、揚げ物、液体または固体である。
これらの異なる状態のトマトを正確に認識するために単一の検出器を訓練することは難しい。
一方、文脈的な手がかり(例えば、ナイフ、切削板、ストレーカー、パンなど)は、しばしば、シーンにおける物体の出現方法の強い示唆である。
このような文脈的手がかりを認識することは、オブジェクト検出の精度の向上やオブジェクトの状態の決定だけでなく、その機能的特性の理解や、現在進行中のヒューマン・オブジェクト間インタラクションの推測にも有用である。
現実の世界におけるオブジェクトの状態とそのコンテキストを認識するための完全に教師ありのアプローチは、残念ながら、長い尾の付いた、オープンで拡張されたデータの分散によって損なわれています。
本課題では,手動でラベル付けされたデータに頼る代わりに,自動書き起こされた指導ビデオのナレーションからコンテキスト適応オブジェクト埋め込み(COBE)を学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
これにより、概念が意味言語メトリックに関連づけられるオブジェクト表現の学習が可能になる。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
関連論文リスト
- In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - Text-driven Affordance Learning from Egocentric Vision [6.699930460835963]
ロボットのためのテキスト駆動型アベイランス学習手法を提案する。
我々は,テキストの指示に従って,自我中心の視点から接触点を学習し,軌道を操作することを目的としている。
われわれのアプローチは、現実のシナリオにおける空き学習の新しい標準として、複数の空き時間を扱う。
論文 参考訳(メタデータ) (2024-04-03T07:23:03Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - Learning Scene Context Without Images [2.8184014933789365]
本研究では,アテンション機構を用いてシーンコンテキストの知識を機械に教える新しい手法を提案する。
提案手法の特筆すべき側面は、シーンコンテキストを教えるための画像データセットからのラベルのみに依存することである。
本研究では,異なるオブジェクト間のシーンワイドな関係を自己認識機構を用いて学習する方法を示す。
論文 参考訳(メタデータ) (2023-11-18T07:27:25Z) - Opening the Vocabulary of Egocentric Actions [42.94865322371628]
本稿では,新しいオープン語彙行動認識タスクを提案する。
訓練中に観察される動詞と対象のセットが与えられた場合、目的は、動詞を、目に見えるものや新しいものを含む行動のオープンな語彙に一般化することである。
EPIC-KITCHENS-100およびアセンブリ101データセット上で,オープンな語彙ベンチマークを作成する。
論文 参考訳(メタデータ) (2023-08-22T15:08:02Z) - Brief Introduction to Contrastive Learning Pretext Tasks for Visual
Representation [0.0]
教師なし学習手法のサブセットであるコントラスト学習を導入する。
対照的な学習の目的は、互いに近くにある同じサンプルから強化されたサンプルを埋め込んで、そうでないサンプルを押し下げることである。
我々は、最近公開されたコントラスト学習の戦略をいくつか提示し、視覚表現のためのプレテキストタスクに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-06T18:54:10Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Language Models as Zero-shot Visual Semantic Learners [0.618778092044887]
本研究では,文脈的単語埋め込みのセマンティック情報を探索するためのVisual Se-mantic Embedding Probe (VSEP)を提案する。
文脈表現を持つVSEPは、複雑な場面における単語レベルのオブジェクト表現を合成ゼロショット学習者として区別することができる。
言語モーダルにおける文脈表現は, オブジェクトの合成連鎖が短い場合, 静的単語埋め込みよりも優れることがわかった。
論文 参考訳(メタデータ) (2021-07-26T08:22:55Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。