論文の概要: The Functional Correspondence Problem
- arxiv url: http://arxiv.org/abs/2109.01097v1
- Date: Thu, 2 Sep 2021 17:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-03 15:51:21.315483
- Title: The Functional Correspondence Problem
- Title(参考訳): 機能対応問題
- Authors: Zihang Lai, Senthil Purushwalkam, Abhinav Gupta
- Abstract要約: 視覚データ中の対応を見つける能力は、ほとんどのコンピュータビジョンタスクの本質である。
本稿では,機能対応の問題を紹介する。
FunKPointは10のタスクと20のオブジェクトカテゴリに対して、基礎的な真理対応を持ちます。
- 参考スコア(独自算出の注目度): 40.88833206211069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to find correspondences in visual data is the essence of most
computer vision tasks. But what are the right correspondences? The task of
visual correspondence is well defined for two different images of same object
instance. In case of two images of objects belonging to same category, visual
correspondence is reasonably well-defined in most cases. But what about
correspondence between two objects of completely different category -- e.g., a
shoe and a bottle? Does there exist any correspondence? Inspired by humans'
ability to: (a) generalize beyond semantic categories and; (b) infer functional
affordances, we introduce the problem of functional correspondences in this
paper. Given images of two objects, we ask a simple question: what is the set
of correspondences between these two images for a given task? For example, what
are the correspondences between a bottle and shoe for the task of pounding or
the task of pouring. We introduce a new dataset: FunKPoint that has ground
truth correspondences for 10 tasks and 20 object categories. We also introduce
a modular task-driven representation for attacking this problem and demonstrate
that our learned representation is effective for this task. But most
importantly, because our supervision signal is not bound by semantics, we show
that our learned representation can generalize better on few-shot
classification problem. We hope this paper will inspire our community to think
beyond semantics and focus more on cross-category generalization and learning
representations for robotics tasks.
- Abstract(参考訳): 視覚データ中の対応を見つける能力は、ほとんどのコンピュータビジョンタスクの本質である。
しかし、正しい対応とは何か?
視覚的対応のタスクは、同じオブジェクトインスタンスの2つの異なるイメージに対してよく定義されます。
同じカテゴリに属する2つのオブジェクトのイメージの場合、視覚対応はたいていの場合合理的に定義されます。
しかし、全く異なるカテゴリーの2つのオブジェクト、例えば靴とボトルの対応についてはどうだろう?
通信は存在するか?
a) 意味圏を超えて一般化し, (b) 機能的余裕を推定する能力に触発されて, 本論文では機能的対応の問題を紹介する。
2つのオブジェクトのイメージが与えられた場合、与えられたタスクに対して、これらの2つのイメージ間の対応のセットは何か、という単純な質問をします。
例えば、打つ作業や注ぐ作業において、ボトルと靴の対応はどのようなものか。
FunKPointは10のタスクと20のオブジェクトカテゴリに対して、基礎的な真理対応を持ちます。
また,この問題を攻撃するためのモジュール型タスク駆動表現を導入し,学習した表現がこのタスクに有効であることを示す。
しかし、最も重要なことは、我々の監視信号は意味論に縛られないため、学習した表現が、数発の分類問題においてより一般化できることである。
この論文は、私たちのコミュニティにセマンティクスを超えて考えることを刺激し、ロボットタスクのクロスカテゴリの一般化と学習表現にもっと焦点をあてることを願っている。
関連論文リスト
- Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts? [62.984473889987605]
本稿では,大規模言語モデルとVQA(Visual Question Answering)システムを活用した,視覚概念学習のためのゼロショットフレームワークを提案する。
VQAシステムに問い合わせ画像とともにこれらの質問を行い、回答を集約し、テスト画像中のオブジェクトの有無を判定する。
実験では,既存のゼロショット視覚分類法や少数ショット概念学習手法と同等の性能を示した。
論文 参考訳(メタデータ) (2024-10-17T15:16:10Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Universal Instance Perception as Object Discovery and Retrieval [90.96031157557806]
UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。
入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。
UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-12T14:28:24Z) - SIRL: Similarity-based Implicit Representation Learning [44.71701661851492]
ユーザに対して,同じような振る舞いを問うことで,表現をチューニングできることが示される。
これにより、ロボットは、表現に進む必要のあるものと、刺激的なものとをあいまいにすることができる。
論文 参考訳(メタデータ) (2023-01-02T18:59:59Z) - TAX-Pose: Task-Specific Cross-Pose Estimation for Robot Manipulation [14.011777717620282]
本研究では,与えられた操作タスクに対して2つのオブジェクト間の交差位置を推定する視覚ベースシステムを提案する。
実世界における10個の実演の訓練後, 対象物を一般化する手法の能力を実証する。
論文 参考訳(メタデータ) (2022-11-17T04:06:16Z) - Semantic-Aware Fine-Grained Correspondence [8.29030327276322]
本稿では,画像レベルの自己教師付き手法を用いて,セマンティック・アウェアのきめ細かな対応を学習する。
我々は,微粒な対応を特に狙う画素レベルの自己教師型学習目標を設計する。
本手法は,様々な視覚対応タスクにおける畳み込みネットワークを用いた従来の自己教師手法を超越した手法である。
論文 参考訳(メタデータ) (2022-07-21T12:51:41Z) - Pairwise Representation Learning for Event Coreference [73.10563168692667]
イベント参照ペアのためのペアワイズ表現学習(Pairwise Representation Learning, PairwiseRL)手法を開発した。
私たちの表現は、イベントとその引数のエンコーディングを容易にするために、テキストスニペットのより微細で構造化された表現をサポートします。
PairwiseRLは、その単純さにもかかわらず、クロスドキュメントとイントラドキュメントのイベントコアベンチマークベンチマークの両方において、従来の最先端のイベントコアシステムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-24T06:55:52Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z) - Human Correspondence Consensus for 3D Object Semantic Understanding [56.34297279246823]
本稿では,CorresPondenceNetという新しいデータセットを提案する。
このデータセットに基づいて、新しい測地的整合性損失を伴う密接なセマンティック埋め込みを学習することができる。
CorresPondenceNetは異種オブジェクトの細粒度理解を促進できるだけでなく、クロスオブジェクト登録や部分オブジェクトマッチングも実現できた。
論文 参考訳(メタデータ) (2019-12-29T04:24:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。