論文の概要: The All-Seeing Project: Towards Panoptic Visual Recognition and
Understanding of the Open World
- arxiv url: http://arxiv.org/abs/2308.01907v1
- Date: Thu, 3 Aug 2023 17:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 13:12:28.653806
- Title: The All-Seeing Project: Towards Panoptic Visual Recognition and
Understanding of the Open World
- Title(参考訳): all-seeing project: パンオプティカルな視覚認識とオープンワールドの理解に向けて
- Authors: Weiyun Wang, Min Shi, Qingyun Li, Wenhai Wang, Zhenhang Huang, Linjie
Xing, Zhe Chen, Hao Li, Xizhou Zhu, Zhiguo Cao, Yushi Chen, Tong Lu, Jifeng
Dai, Yu Qiao
- Abstract要約: オープンな世界のすべてを認識、理解するための大規模データとモデルであるAll-Seeing (AS)プロジェクトを紹介します。
我々は10億以上の領域に意味タグ、質問応答ペア、詳細なキャプションを付加した新しいデータセット(AS-1B)を作成します。
視覚認識と理解のための統合フレームワークであるAll-Seeing Model (ASM) を開発した。
- 参考スコア(独自算出の注目度): 71.52132776748628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the All-Seeing (AS) project: a large-scale data and model for
recognizing and understanding everything in the open world. Using a scalable
data engine that incorporates human feedback and efficient models in the loop,
we create a new dataset (AS-1B) with over 1 billion regions annotated with
semantic tags, question-answering pairs, and detailed captions. It covers a
wide range of 3.5 million common and rare concepts in the real world, and has
132.2 billion tokens that describe the concepts and their attributes.
Leveraging this new dataset, we develop the All-Seeing model (ASM), a unified
framework for panoptic visual recognition and understanding. The model is
trained with open-ended language prompts and locations, which allows it to
generalize to various vision and language tasks with remarkable zero-shot
performance, including region-text retrieval, region recognition, captioning,
and question-answering. We hope that this project can serve as a foundation for
vision-language artificial general intelligence research. Models and the
dataset shall be released at https://github.com/OpenGVLab/All-Seeing, and demo
can be seen at https://huggingface.co/spaces/OpenGVLab/all-seeing.
- Abstract(参考訳): オープンな世界のすべてを認識、理解するための大規模データとモデルであるAll-Seeing (AS)プロジェクトを紹介します。
人間のフィードバックと効率的なモデルをループに組み込んだスケーラブルなデータエンジンを使用して、セマンティックタグ、質問応答ペア、詳細なキャプションを付加した10億以上の領域を持つ新しいデータセット(AS-1B)を作成します。
現実世界では350万の共通概念と稀な概念をカバーし、概念とその属性を記述した132億のトークンを持っている。
この新たなデータセットを活用することで、汎視的視覚認識と理解のための統合フレームワークであるAll-Seeing Model(ASM)を開発した。
このモデルはオープンな言語プロンプトとロケーションで訓練されており、地域テキスト検索、地域認識、キャプション、質問応答など、目立ったゼロショットのパフォーマンスで様々なビジョンや言語タスクに一般化することができる。
このプロジェクトが、視覚言語による人工知能研究の基盤となることを願っている。
モデルとデータセットはhttps://github.com/OpenGVLab/All-Seeingでリリースされ、デモはhttps://huggingface.co/spaces/OpenGVLab/all-seeingで見ることができる。
関連論文リスト
- Griffon: Spelling out All Object Locations at Any Granularity with Large
Language Models [32.01009756533755]
現在のLVLM(Large Vision Language Models)は、主に1つの既存のオブジェクトに制約されている。
本稿では,LVLMの能力を完全に解き放つために,新しい言語プロンプト型ローカライゼーションデータセットを提案する。
$textbfGriffon$は、粒度の細かいRefCOCOシリーズで最先端のパフォーマンスを達成する。
また、検出ベンチマークのMSCOCOにおいて、エキスパートモデルであるFaster RCNNの機能にもアプローチする。
論文 参考訳(メタデータ) (2023-11-24T15:35:07Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。
検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文 参考訳(メタデータ) (2023-05-18T17:59:42Z) - RegionPLC: Regional Point-Language Contrastive Learning for Open-World
3D Scene Understanding [33.90339744495611]
既存の3Dシーン理解タスクは、クローズセットベンチマークでは高いパフォーマンスを達成しているが、現実のアプリケーションでは新しいカテゴリを処理できない。
そこで我々は,オープンワールド3Dシーン理解のためのRegional Point-Language Contrastive Learningフレームワーク,すなわちRegionalPLCを提案する。
論文 参考訳(メタデータ) (2023-04-03T13:30:04Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z) - TextMage: The Automated Bangla Caption Generator Based On Deep Learning [1.2330326247154968]
TextMageはバングラデシュの地理的文脈に属する視覚シーンを理解することができるシステムである。
このデータセットには、9,154のイメージと、各イメージに対する2つのアノテーションが含まれている。
論文 参考訳(メタデータ) (2020-10-15T23:24:15Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - VisualSem: A High-quality Knowledge Graph for Vision and Language [48.47370435793127]
高品質ナレッジグラフ(KG)であるVisualSemをリリースしました。
VisualSemには、多言語グルース、複数のイラスト画像、視覚的な関連性のあるノードが含まれている。
また、入力として画像や文を使用でき、KGのエンティティを検索できるニューラルマルチモーダル検索モデルをリリースする。
論文 参考訳(メタデータ) (2020-08-20T18:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。