論文の概要: The All-Seeing Project: Towards Panoptic Visual Recognition and
Understanding of the Open World
- arxiv url: http://arxiv.org/abs/2308.01907v1
- Date: Thu, 3 Aug 2023 17:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 13:12:28.653806
- Title: The All-Seeing Project: Towards Panoptic Visual Recognition and
Understanding of the Open World
- Title(参考訳): all-seeing project: パンオプティカルな視覚認識とオープンワールドの理解に向けて
- Authors: Weiyun Wang, Min Shi, Qingyun Li, Wenhai Wang, Zhenhang Huang, Linjie
Xing, Zhe Chen, Hao Li, Xizhou Zhu, Zhiguo Cao, Yushi Chen, Tong Lu, Jifeng
Dai, Yu Qiao
- Abstract要約: オープンな世界のすべてを認識、理解するための大規模データとモデルであるAll-Seeing (AS)プロジェクトを紹介します。
我々は10億以上の領域に意味タグ、質問応答ペア、詳細なキャプションを付加した新しいデータセット(AS-1B)を作成します。
視覚認識と理解のための統合フレームワークであるAll-Seeing Model (ASM) を開発した。
- 参考スコア(独自算出の注目度): 71.52132776748628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the All-Seeing (AS) project: a large-scale data and model for
recognizing and understanding everything in the open world. Using a scalable
data engine that incorporates human feedback and efficient models in the loop,
we create a new dataset (AS-1B) with over 1 billion regions annotated with
semantic tags, question-answering pairs, and detailed captions. It covers a
wide range of 3.5 million common and rare concepts in the real world, and has
132.2 billion tokens that describe the concepts and their attributes.
Leveraging this new dataset, we develop the All-Seeing model (ASM), a unified
framework for panoptic visual recognition and understanding. The model is
trained with open-ended language prompts and locations, which allows it to
generalize to various vision and language tasks with remarkable zero-shot
performance, including region-text retrieval, region recognition, captioning,
and question-answering. We hope that this project can serve as a foundation for
vision-language artificial general intelligence research. Models and the
dataset shall be released at https://github.com/OpenGVLab/All-Seeing, and demo
can be seen at https://huggingface.co/spaces/OpenGVLab/all-seeing.
- Abstract(参考訳): オープンな世界のすべてを認識、理解するための大規模データとモデルであるAll-Seeing (AS)プロジェクトを紹介します。
人間のフィードバックと効率的なモデルをループに組み込んだスケーラブルなデータエンジンを使用して、セマンティックタグ、質問応答ペア、詳細なキャプションを付加した10億以上の領域を持つ新しいデータセット(AS-1B)を作成します。
現実世界では350万の共通概念と稀な概念をカバーし、概念とその属性を記述した132億のトークンを持っている。
この新たなデータセットを活用することで、汎視的視覚認識と理解のための統合フレームワークであるAll-Seeing Model(ASM)を開発した。
このモデルはオープンな言語プロンプトとロケーションで訓練されており、地域テキスト検索、地域認識、キャプション、質問応答など、目立ったゼロショットのパフォーマンスで様々なビジョンや言語タスクに一般化することができる。
このプロジェクトが、視覚言語による人工知能研究の基盤となることを願っている。
モデルとデータセットはhttps://github.com/OpenGVLab/All-Seeingでリリースされ、デモはhttps://huggingface.co/spaces/OpenGVLab/all-seeingで見ることができる。
関連論文リスト
- Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.55649666025926]
具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。
私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。
ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
論文 参考訳(メタデータ) (2024-09-22T00:30:11Z) - Pushing the Limits of Vision-Language Models in Remote Sensing without Human Annotations [5.065947993017157]
本研究では、画像復号化機械学習モデルを用いて、視覚言語データセットをキュレートする手法を提案する。
約960万の視覚言語対のデータセットをVHR画像で収集しました。
結果として得られたモデルは、公開可能なビジョン言語データセットを活用できないものよりも優れていた。
論文 参考訳(メタデータ) (2024-09-11T06:36:08Z) - Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - Composition Vision-Language Understanding via Segment and Depth Anything Model [2.0836143651641033]
このライブラリは、DAM(Depth Anything Model)、SAM(Segment Anything Model)、GPT-4V(GPT-4V)の機能を相乗化する。
シンボリック・インスタンスレベルでのセグメンテーションと深度解析の融合により、我々のライブラリは言語モデルに対するニュアンスな入力を提供する。
本研究は,ニューラルシンボリック統合による視覚言語モデルの進展を示す。
論文 参考訳(メタデータ) (2024-06-07T16:28:06Z) - Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating basic world knowledge in language models [42.48862540545121]
本稿では,言語モデルにおける世界モデリングを評価するためのフレームワークであるElements of World Knowledge(EWOK)について述べる。
EWOKは、人間の世界モデリングに不可欠な複数の知識領域から特定の概念をターゲットにしている。
次に,世界11の知識領域をカバーする4,374項目のデータセットであるEWOK-CORE-1.0を紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:19:42Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - VisualSem: A High-quality Knowledge Graph for Vision and Language [48.47370435793127]
高品質ナレッジグラフ(KG)であるVisualSemをリリースしました。
VisualSemには、多言語グルース、複数のイラスト画像、視覚的な関連性のあるノードが含まれている。
また、入力として画像や文を使用でき、KGのエンティティを検索できるニューラルマルチモーダル検索モデルをリリースする。
論文 参考訳(メタデータ) (2020-08-20T18:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。