論文の概要: What Is Considered Complete for Visual Recognition?
- arxiv url: http://arxiv.org/abs/2105.13978v1
- Date: Fri, 28 May 2021 16:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 15:12:28.280364
- Title: What Is Considered Complete for Visual Recognition?
- Title(参考訳): 視覚認識の完全性は何か?
- Authors: Lingxi Xie, Xiaopeng Zhang, Longhui Wei, Jianlong Chang, Qi Tian
- Abstract要約: 我々は、学習・バイ・圧縮という新しいタイプの事前学習タスクを提唱する。
計算モデルは、コンパクトな特徴を用いて視覚データを表現するように最適化されている。
セマンティックアノテーションは、利用可能であれば、弱い監督の役割を担います。
- 参考スコア(独自算出の注目度): 110.43159801737222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This is an opinion paper. We hope to deliver a key message that current
visual recognition systems are far from complete, i.e., recognizing everything
that human can recognize, yet it is very unlikely that the gap can be bridged
by continuously increasing human annotations. Based on the observation, we
advocate for a new type of pre-training task named learning-by-compression. The
computational models (e.g., a deep network) are optimized to represent the
visual data using compact features, and the features preserve the ability to
recover the original data. Semantic annotations, when available, play the role
of weak supervision. An important yet challenging issue is the evaluation of
image recovery, where we suggest some design principles and future research
directions. We hope our proposal can inspire the community to pursue the
compression-recovery tradeoff rather than the accuracy-complexity tradeoff.
- Abstract(参考訳): これは意見書です。
私たちは、現在の視覚認識システムは、人間が認識できる全てのものを認識できないというキーメッセージを提供したいと考えているが、人間のアノテーションを継続的に増加させることでギャップを埋める可能性が極めて低い。
この観察に基づいて,学習・圧縮という新しい事前学習課題を提唱する。
計算モデル(ディープネットワークなど)は、コンパクトな特徴を用いて視覚データを表現するために最適化され、特徴は元のデータを復元する能力を保持する。
セマンティックアノテーションは、利用可能であれば、弱い監督の役割を果たす。
重要な課題は、イメージリカバリの評価であり、設計原則と今後の研究方向性を提案する。
この提案は、精度・複雑さのトレードオフではなく、圧縮・リカバリのトレードオフを追求するようコミュニティに促すことを願っています。
関連論文リスト
- Exploring the Evolution of Hidden Activations with Live-Update Visualization [12.377279207342735]
我々は、トレーニング中に隠された表現の進行を明らかにする自動化されたリアルタイム可視化ツールであるSentryCamを紹介した。
以上の結果から, この可視化は, 基礎的指標と比較して, 学習のダイナミクスをより包括的に把握できることが示唆された。
SentryCamは、タスク転送や破滅的な忘れなど、継続的な学習環境への詳細な分析を容易にすることができる。
論文 参考訳(メタデータ) (2024-05-24T01:23:20Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Textual Prompt Guided Image Restoration [18.78902053873706]
近年ではブラインド画像復元が可能なオールインワンモデルが注目されている。
最近の研究は、データ分布から視覚的なプロンプトを学習し、劣化タイプを特定することに焦点を当てている。
本稿では,効果的なテキストプロンプトガイド画像復元モデルを提案する。
論文 参考訳(メタデータ) (2023-12-11T06:56:41Z) - Does Visual Pretraining Help End-to-End Reasoning? [81.4707017038019]
汎用ニューラルネットワークを用いて視覚的推論のエンドツーエンド学習を実現することができるかを検討する。
本稿では,ビデオフレームを小さなトークン集合に"圧縮"する,シンプルで汎用的な自己教師型フレームワークを提案する。
終末の視覚的推論のための構成的一般化を実現するためには,事前学習が不可欠である。
論文 参考訳(メタデータ) (2023-07-17T14:08:38Z) - Understanding the Effect of the Long Tail on Neural Network Compression [9.819486253052528]
We study the "long tail" phenomenon in computer vision datasets observed by Feldman, et al。
圧縮によってネットワークの容量が制限される(したがって記憶する能力も制限される)ため、我々は問題を研究する: 記憶されたトレーニングデータと相関するフルモデルと圧縮モデルの間にミスマッチがあるか?
論文 参考訳(メタデータ) (2023-06-09T20:18:05Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Feature Forgetting in Continual Representation Learning [48.89340526235304]
表現は、平凡な連続学習においても「破滅的な忘れ」に苦しめられることはないが、その特徴についてはほとんど知られていない。
連続的な学習における表現を評価するためのプロトコルを考案し、それを用いて連続的な表現学習の基本的傾向の概要を示す。
特徴忘れ問題を研究するために、ニューラルネットワークにおける特徴忘れの頻度を識別し視覚化する合成データセットを作成する。
論文 参考訳(メタデータ) (2022-05-26T13:38:56Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z) - Evaluating the Progress of Deep Learning for Visual Relational Concepts [0.6999740786886536]
難しいタスクが認知心理学のリレーショナルな概念と結びついていることを示します。
我々は,この角度から提示されていなくても,関係概念学習に関連する研究をレビューする。
将来のデータセットをリレーショナル推論でテストシステムにもっと関連付けるためのステップを推奨します。
論文 参考訳(メタデータ) (2020-01-29T14:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。