Fugu-MT 論文翻訳(概要): Towards Open-Ended Visual Recognition with Large Language Model

論文の概要: Towards Open-Ended Visual Recognition with Large Language Model

arxiv url: http://arxiv.org/abs/2311.08400v1
Date: Tue, 14 Nov 2023 18:59:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 12:50:06.041433
Title: Towards Open-Ended Visual Recognition with Large Language Model
Title（参考訳）: 大規模言語モデルによるオープンエンド視覚認識に向けて
Authors: Qihang Yu, Xiaohui Shen, Liang-Chieh Chen
Abstract要約: 我々は,新しいLarge Language Model (LLM) ベースのマスク分類器であるOmniScient Model (OSM)を紹介する。 OSMは、クラスラベルを生成的に予測し、トレーニングとテストの両方でクラス名の供給を除去する。また、人間の干渉なしにデータセット間のトレーニングを可能にする。
参考スコア（独自算出の注目度）: 27.56182473356992
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Localizing and recognizing objects in the open-ended physical world poses a long-standing challenge within the domain of machine perception. Recent methods have endeavored to address the issue by employing a class-agnostic mask (or box) proposal model, complemented by an open-vocabulary classifier (e.g., CLIP) using pre-extracted text embeddings. However, it is worth noting that these open-vocabulary recognition models still exhibit limitations in practical applications. On one hand, they rely on the provision of class names during testing, where the recognition performance heavily depends on this predefined set of semantic classes by users. On the other hand, when training with multiple datasets, human intervention is required to alleviate the label definition conflict between them. In this paper, we introduce the OmniScient Model (OSM), a novel Large Language Model (LLM) based mask classifier, as a straightforward and effective solution to the aforementioned challenges. Specifically, OSM predicts class labels in a generative manner, thus removing the supply of class names during both training and testing. It also enables cross-dataset training without any human interference, exhibiting robust generalization capabilities due to the world knowledge acquired from the LLM. By combining OSM with an off-the-shelf mask proposal model, we present promising results on various benchmarks, and demonstrate its effectiveness in handling novel concepts. Code/model are available at https://github.com/bytedance/OmniScient-Model.
Abstract（参考訳）: オープンエンドの物理的世界におけるオブジェクトのローカライズと認識は、マシン知覚の領域内で長年の課題となる。最近の手法では、事前に抽出されたテキスト埋め込みを使用してオープン語彙分類器(例えばCLIP)で補完されるクラスに依存しないマスク(またはボックス)の提案モデルを用いてこの問題に対処している。しかし、これらのオープン語彙認識モデルは、実用上はまだ限界がある。一方で、テスト中はクラス名の提供に依存しており、ユーザによるこの事前に定義されたセマンティッククラスのセットに大きく依存している。一方、複数のデータセットを用いたトレーニングでは、ラベル定義の衝突を軽減するために人間の介入が必要である。本稿では、上記の課題に対する単純かつ効果的な解決法として、新しいLarge Language Model (LLM)ベースのマスク分類器であるOmniScient Model (OSM)を紹介する。具体的には、OSMはクラスラベルを生成的に予測し、トレーニングとテストの両方でクラス名の供給を除去する。また、人間の干渉なしにデータセット間のトレーニングを可能にし、LLMから得た世界的知識により、堅牢な一般化能力を示す。 osmを市販マスクの提案モデルと組み合わせることで,様々なベンチマークで有望な結果を示し,その新しい概念の取り扱いにおける効果を実証する。コード/モデルはhttps://github.com/bytedance/OmniScient-Modelで入手できる。

関連論文リスト

Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文参考訳（メタデータ） (2025-07-30T20:06:01Z)
InPK: Infusing Prior Knowledge into Prompt for Vision-Language Models [24.170351966913557]
学習可能なトークンにクラス固有の事前知識を注入するInPKモデルを提案する。また、テキスト調整に対応するための学習可能なテキスト・ツー・ビジョン・プロジェクション・レイヤも導入する。実験では、InPKは複数のゼロ/ファウショット画像分類タスクにおいて最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2025-02-27T05:33:18Z)
From Open-Vocabulary to Vocabulary-Free Semantic Segmentation [78.62232202171919]
オープン語彙セマンティックセグメンテーションにより、モデルはトレーニングデータ以外の新しいオブジェクトカテゴリを識別できる。現在のアプローチは依然として入力として手動で指定されたクラス名に依存しており、現実世界のアプリケーションに固有のボトルネックを生み出している。この研究は、定義済みのクラス語彙を必要としない、語彙自由セマンティックパイプラインを提案する。
論文参考訳（メタデータ） (2025-02-17T15:17:08Z)
From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects [0.6262268096839562]
オープンボキャブラリオブジェクト検出(OVD)に関する最近の研究は、インプリンシプル・アンバウンドド・ボキャブラリによって定義されたオブジェクトの検出を可能にする。 OVDは「オラクル」によって提供される正確なプロンプトに依存しており、シーンの知覚を駆動するといった重要な応用においての使用を制限する。我々は,未確認物体を特定し,段階的に学習することで,OVDモデルをオープンワールド環境で動作させるフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-27T10:33:51Z)
Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文参考訳（メタデータ） (2024-08-29T12:34:01Z)
Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文参考訳（メタデータ） (2024-08-28T17:59:05Z)
Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文参考訳（メタデータ） (2024-08-05T14:05:25Z)
PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-14T17:55:03Z)
Learning to recognize occluded and small objects with partial inputs [8.460351690226817]
Masked Supervised Learningは、マルチラベル画像認識のための1段階のモデルに依存しない学習パラダイムである。 MSLはランダムマスキングに頑健であり,非マスキング物体の認識に有効であることを示す。
論文参考訳（メタデータ） (2023-10-27T22:29:27Z)
Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual Mask Annotations [86.47908754383198]
Open-Vocabulary (OV) 法は、大規模な画像キャプチャペアと視覚言語モデルを利用して、新しいカテゴリを学習する。提案手法は,イメージキャプションペアに存在するオブジェクトに対して,事前学習された視覚言語モデルの局所化能力を活用することで,擬似マスクアノテーションを生成する。擬似マスクを用いてトレーニングした手法は,MS-COCOデータセットとOpenImagesデータセットのmAPスコアを大幅に改善する。
論文参考訳（メタデータ） (2023-03-29T17:58:39Z)
Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文参考訳（メタデータ） (2023-03-16T09:51:41Z)
Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。 2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文参考訳（メタデータ） (2022-07-19T03:31:13Z)
Multi-Modal Few-Shot Object Detection with Meta-Learning-Based Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文参考訳（メタデータ） (2022-04-16T16:45:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。