論文の概要: Pix2seq: A Language Modeling Framework for Object Detection
- arxiv url: http://arxiv.org/abs/2109.10852v1
- Date: Wed, 22 Sep 2021 17:26:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 14:01:14.593687
- Title: Pix2seq: A Language Modeling Framework for Object Detection
- Title(参考訳): Pix2seq:オブジェクト検出のための言語モデリングフレームワーク
- Authors: Ting Chen, Saurabh Saxena, Lala Li, David J. Fleet, Geoffrey Hinton
- Abstract要約: Pix2Seqはオブジェクト検出のためのシンプルで汎用的なフレームワークである。
我々はニューラルネットをトレーニングし、画像を認識し、所望のシーケンスを生成する。
私たちのアプローチは主に、ニューラルネットワークがオブジェクトの場所と場所を知っていれば、その読み方を教える必要がある、という直感に基づいています。
- 参考スコア(独自算出の注目度): 12.788663431798588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Pix2Seq, a simple and generic framework for object
detection. Unlike existing approaches that explicitly integrate prior knowledge
about the task, we simply cast object detection as a language modeling task
conditioned on the observed pixel inputs. Object descriptions (e.g., bounding
boxes and class labels) are expressed as sequences of discrete tokens, and we
train a neural net to perceive the image and generate the desired sequence. Our
approach is based mainly on the intuition that if a neural net knows about
where and what the objects are, we just need to teach it how to read them out.
Beyond the use of task-specific data augmentations, our approach makes minimal
assumptions about the task, yet it achieves competitive results on the
challenging COCO dataset, compared to highly specialized and well optimized
detection algorithms.
- Abstract(参考訳): 本稿では,オブジェクト検出のためのシンプルで汎用的なフレームワークPix2Seqを提案する。
タスクに関する事前知識を明示的に統合する既存のアプローチとは異なり、観察された画素入力に条件付き言語モデリングタスクとしてオブジェクト検出を単純にキャストする。
オブジェクト記述(バウンディングボックスやクラスラベルなど)は離散トークンのシーケンスとして表現され、ニューラルネットワークをトレーニングしてイメージを認識し、所望のシーケンスを生成する。
私たちのアプローチは主に、ニューラルネットワークがオブジェクトの場所と場所を知っていれば、その読み方を教える必要がある、という直感に基づいています。
タスク固有のデータ拡張の他に、我々のアプローチではタスクについて最小限の仮定を行うが、高度に専門的で最適化された検出アルゴリズムと比較して、困難なCOCOデータセット上での競合的な結果が得られる。
関連論文リスト
- Language-Conditioned Observation Models for Visual Object Search [12.498575839909334]
我々は、部分的に観測可能なマルコフ決定過程(POMDP)として問題に反応することで、現実的な対象探索のギャップを埋める。
ニューラルネットワークの出力を言語条件観測モデル(LCOM)に組み込んで,動的に変化するセンサノイズを表現する。
本稿では,Boston Dynamics Spotロボットを用いて,複雑な自然言語オブジェクト記述を処理し,室内環境におけるオブジェクトの効率的な発見を可能にする。
論文 参考訳(メタデータ) (2023-09-13T19:30:53Z) - CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection [42.2847114428716]
タスク駆動オブジェクト検出は、イメージ内のタスクを提供するのに適したオブジェクトインスタンスを検出することを目的としている。
その課題は、従来のオブジェクト検出のためのクローズドなオブジェクト語彙に制限されるほど多様すぎるタスクのために利用できるオブジェクトカテゴリにある。
本稿では,オブジェクトカテゴリではなく,異なるオブジェクトが同じタスクを達成できる共通属性について検討する。
論文 参考訳(メタデータ) (2023-09-03T06:18:39Z) - Uncertainty Aware Active Learning for Reconfiguration of Pre-trained
Deep Object-Detection Networks for New Target Domains [0.0]
物体検出はコンピュータビジョンタスクの最も重要かつ基本的な側面の1つである。
オブジェクト検出モデルのトレーニングデータを効率的に取得するために、多くのデータセットは、ビデオフォーマットでアノテーションのないデータを取得することを選択します。
ビデオからすべてのフレームに注釈を付けるのは、多くのフレームがモデルが学ぶのに非常によく似た情報を含んでいるため、費用がかかり非効率である。
本稿では,この問題に対処するためのオブジェクト検出モデルのための新しい能動学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-22T17:14:10Z) - Object Detection in Aerial Images with Uncertainty-Aware Graph Network [61.02591506040606]
本稿では,ノードとエッジがオブジェクトによって表現される構造化グラフを用いた,新しい不確実性を考慮したオブジェクト検出フレームワークを提案する。
我々は我々のモデルをオブジェクトDETection(UAGDet)のための不確実性対応グラフネットワークと呼ぶ。
論文 参考訳(メタデータ) (2022-08-23T07:29:03Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。
我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。
Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-04T17:59:52Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Referring Expression Comprehension: A Survey of Methods and Datasets [20.42495629501261]
Referring Expression comprehension (REC) は、自然言語で表現された参照表現によって記述された画像中の対象物をローカライズすることを目的としている。
まず,問題に対する近代的アプローチを比較検討する。
構造化グラフ表現と相互作用するモジュラーアーキテクチャとグラフベースモデルについて論じる。
論文 参考訳(メタデータ) (2020-07-19T01:45:02Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z) - Detective: An Attentive Recurrent Model for Sparse Object Detection [25.5804429439316]
ディテクティヴ(英: Detective)は、画像中の物体を連続的に識別する注意オブジェクト検出器である。
Detectiveはスパースオブジェクト検出器で、オブジェクトインスタンス毎に単一のバウンディングボックスを生成する。
ハンガリーのアルゴリズムに基づく学習機構と,局所化と分類タスクのバランスをとる損失を提案する。
論文 参考訳(メタデータ) (2020-04-25T17:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。