論文の概要: Towards General Purpose Vision Systems
- arxiv url: http://arxiv.org/abs/2104.00743v1
- Date: Thu, 1 Apr 2021 19:35:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 14:06:40.673547
- Title: Towards General Purpose Vision Systems
- Title(参考訳): 汎用ビジョンシステムに向けて
- Authors: Tanmay Gupta, Amita Kamath, Aniruddha Kembhavi and Derek Hoiem
- Abstract要約: 本稿では,画像と自然言語タスク記述を受理し,境界ボックス,信頼度,テキストを出力するタスク非依存視覚言語システムを提案する。
システムを複数のスキルを同時に学習し,新しいスキル概念の組み合わせでタスクを実行し,新しいスキルを効率的にかつ忘れずに学習する能力を評価する。
- 参考スコア(独自算出の注目度): 34.90633886653062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A special purpose learning system assumes knowledge of admissible tasks at
design time. Adapting such a system to unforeseen tasks requires architecture
manipulation such as adding an output head for each new task or dataset. In
this work, we propose a task-agnostic vision-language system that accepts an
image and a natural language task description and outputs bounding boxes,
confidences, and text. The system supports a wide range of vision tasks such as
classification, localization, question answering, captioning, and more. We
evaluate the system's ability to learn multiple skills simultaneously, to
perform tasks with novel skill-concept combinations, and to learn new skills
efficiently and without forgetting.
- Abstract(参考訳): 特別目的学習システムは、設計時に許容されるタスクの知識を想定する。
このようなシステムを予期しないタスクに適応させるには、新しいタスクやデータセットごとに出力ヘッドを追加するなどのアーキテクチャ操作が必要になる。
本研究では,画像と自然言語タスク記述を受け付け,境界ボックス,信頼度,テキストを出力するタスクに依存しない視覚言語システムを提案する。
このシステムは、分類、ローカライゼーション、質問応答、キャプションなど、幅広いビジョンタスクをサポートする。
システムを複数のスキルを同時に学習し,新しいスキル概念の組み合わせでタスクを実行し,新しいスキルを効率的にかつ忘れずに学習する能力を評価する。
関連論文リスト
- VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks [48.67062958311173]
VL-GLUEは、自然言語理解のためのマルチタスクベンチマークである。
既存の大規模視覚言語モデルでは,このベンチマークは非常に難しい。
論文 参考訳(メタデータ) (2024-10-17T15:27:17Z) - Using Left and Right Brains Together: Towards Vision and Language
Planning [95.47128850991815]
本稿では,任意の形態の入力を伴うタスクに対して,視覚と言語を同時に計画する新しい視覚言語計画フレームワークを提案する。
我々は,視覚言語タスク,視覚のみタスク,言語のみタスクにまたがるフレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-16T09:46:20Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Task-Attentive Transformer Architecture for Continual Learning of
Vision-and-Language Tasks Using Knowledge Distillation [18.345183818638475]
連続学習(CL)は、逐次到着するタスク間で知識伝達を可能にすることで、治療の役割を果たす。
バイモーダル・ビジョン・アンド・ランゲージ・タスクを学習するためのトランスフォーマーベースのCLアーキテクチャを開発した。
私たちのアプローチは、メモリと時間のオーバーヘッドが少ないため、多数のタスクにスケーラブルに学習するものです。
論文 参考訳(メタデータ) (2023-03-25T10:16:53Z) - Transferring Knowledge for Reinforcement Learning in Contact-Rich
Manipulation [10.219833196479142]
複数のスキルの前提を活かして、類似したタスクのファミリー内で知識を伝達するという課題に対処する。
提案手法は, 先行タスク毎の実証軌道から, スキル埋め込みを表す潜在行動空間を学習する。
我々は,ペグ・イン・ホール・イン・イン・イン・イン・イン・イン・イン・イン・イン・インサート・タスクのセットを用いて本手法の評価を行い,トレーニング中に遭遇したことのない新しいタスクへのより良い一般化を実証した。
論文 参考訳(メタデータ) (2022-09-19T10:31:13Z) - MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale [103.7609761511652]
大規模集団ロボット学習システムが,行動のレパートリーを同時に獲得できることを示す。
新しいタスクは、以前学んだタスクから継続的にインスタンス化できる。
我々は,7台のロボットから収集したデータを用いて,実世界のタスク12組でシステムを訓練し,評価する。
論文 参考訳(メタデータ) (2021-04-16T16:38:02Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z) - Context-Aware Multi-Task Learning for Traffic Scene Recognition in
Autonomous Vehicles [10.475998113861895]
マルチタスク学習ネットワークを採用することにより,タスク固有表現と共有表現を協調的に学習するアルゴリズムを提案する。
大規模データセットHSDの実験は、最先端手法よりもネットワークの有効性と優位性を実証している。
論文 参考訳(メタデータ) (2020-04-03T03:09:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。