論文の概要: Enhancing Zero-shot Counting via Language-guided Exemplar Learning
- arxiv url: http://arxiv.org/abs/2402.05394v1
- Date: Thu, 8 Feb 2024 04:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 16:31:44.629799
- Title: Enhancing Zero-shot Counting via Language-guided Exemplar Learning
- Title(参考訳): 言語誘導学習によるゼロショットカウントの強化
- Authors: Mingjie Wang and Jun Zhou and Yong Dai and Eric Buys and Minglun Gong
- Abstract要約: CAC(Class-Agnostic Counting)問題はその興味深い一般化と優れた効率のために注目を集めている。
本稿では,言語指導による模範学習を深く掘り下げることで,ゼロショットオブジェクトのカウントを向上する新しいExpressCountを提案する。
ExpressCountは革新的な言語指向のExemplar Perceptronと、下流のZero-shot Countingパイプラインで構成されている。
- 参考スコア(独自算出の注目度): 17.479926342093677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Class-Agnostic Counting (CAC) problem has garnered increasing
attention owing to its intriguing generality and superior efficiency compared
to Category-Specific Counting (CSC). This paper proposes a novel ExpressCount
to enhance zero-shot object counting by delving deeply into language-guided
exemplar learning. Specifically, the ExpressCount is comprised of an innovative
Language-oriented Exemplar Perceptron and a downstream visual Zero-shot
Counting pipeline. Thereinto, the perceptron hammers at exploiting accurate
exemplar cues from collaborative language-vision signals by inheriting rich
semantic priors from the prevailing pre-trained Large Language Models (LLMs),
whereas the counting pipeline excels in mining fine-grained features through
dual-branch and cross-attention schemes, contributing to the high-quality
similarity learning. Apart from building a bridge between the LLM in vogue and
the visual counting tasks, expression-guided exemplar estimation significantly
advances zero-shot learning capabilities for counting instances with arbitrary
classes. Moreover, devising a FSC-147-Express with annotations of meticulous
linguistic expressions pioneers a new venue for developing and validating
language-based counting models. Extensive experiments demonstrate the
state-of-the-art performance of our ExpressCount, even showcasing the accuracy
on par with partial CSC models.
- Abstract(参考訳): 近年,CSC (Class-Agnostic Counting, Class-Agnostic Counting, CAC) 問題に注目が集まっている。
本稿では,言語指導による模範学習を深く掘り下げることで,ゼロショットオブジェクトカウントを向上させる新しいExpressCountを提案する。
具体的には、ExpressCountは革新的な言語指向のExemplar Perceptronと、下流のゼロショットカウントパイプラインで構成されている。
そこで,従来のLarge Language Models (LLMs) から,リッチなセマンティクスを継承することで,協調的な言語ビジョン信号から正確な模範的手がかりを活用可能なパーセプトロンハンマーを,二重ブランチとクロスアテンションスキームによるきめ細かな特徴のマイニングに優れ,高品質な類似性学習に寄与する。
語彙におけるLLMと視覚的カウントタスクの間のブリッジを構築することとは別に、表現誘導された模範推定は任意のクラスを持つインスタンスをカウントするゼロショット学習能力を著しく向上させる。
さらに、注意深い言語表現の注釈を持つfsc-147式を考案することは、言語ベースの数え上げモデルを開発し検証するための新しい場所を開拓する。
大規模な実験では、ExpressCountの最先端性能を示し、部分的なCSCモデルと同等の精度を示している。
関連論文リスト
- Mind the Prompt: A Novel Benchmark for Prompt-based Class-Agnostic Counting [8.000723123087473]
CAC(Class-Agnostic counting)は、コンピュータビジョンにおける最近の課題であり、モデルトレーニング中に見たことのない任意のオブジェクトクラスのインスタンス数を推定することを目的としている。
Prompt-Aware Countingベンチマークを導入する。このベンチマークは2つのターゲットテストで構成されており、それぞれに適切な評価指標が伴っている。
論文 参考訳(メタデータ) (2024-09-24T10:35:42Z) - Chain of Stance: Stance Detection with Large Language Models [3.528201746844624]
スタンス検出は自然言語処理(NLP)におけるアクティブタスクである
我々は、Stance (CoS) の textitChain と呼ばれる新しいプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-08-03T16:30:51Z) - From Classification to Generation: Insights into Crosslingual Retrieval
Augmented ICL [8.065775937617417]
クロスランガル検索強化インコンテキスト学習(CREA-ICL)を利用した新しい手法を提案する。
高ソース言語から意味論的に類似したプロンプトを抽出することにより、多言語事前学習言語モデル(MPLM)のゼロショット性能の向上を目指す。
我々の手法は分類タスクを着実に改善するが、生成タスクでは課題に直面している。
論文 参考訳(メタデータ) (2023-11-11T15:40:21Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - Z-ICL: Zero-Shot In-Context Learning with Pseudo-Demonstrations [97.41375480696972]
そこで,Z-ICLを提案する。Z-ICL,Z-ICLは,与えられたテスト入力に対して擬似デモを構築することでギャップを埋める新しいゼロショット方式である。
9つの分類データセットの評価は、Z-ICLが従来のゼロショット法よりも有意差で優れていたことを示している。
論文 参考訳(メタデータ) (2022-12-19T21:34:26Z) - Nearest Neighbor Zero-Shot Inference [68.56747574377215]
kNN-Promptは、言語モデル(LM)を用いたゼロショット推論のためのk-nearest neighbor (kNN)検索拡張手法である。
ファジィ動詞化器は、各分類ラベルを自然言語トークンのセットに自動的に関連付けることで、下流タスクのスパースkNN分布を利用する。
実験により,kNN-Promptはドメイン適応に有効であり,さらに,kNN検索に使用するモデルのサイズに応じて,検索のメリットが増加することが示された。
論文 参考訳(メタデータ) (2022-05-27T07:00:59Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Iterative Correlation-based Feature Refinement for Few-shot Counting [35.27237393354539]
少ないショットカウントは、同じクラスのいくつかの例にのみ与えられるイメージにおいて、任意のクラスのオブジェクトをカウントすることを目的としている。
既存の相関に基づくいくつかのショットカウントアプローチは、相関の粗さと意味の低いレベルに悩まされている。
本稿では,画像と画像の相関関係に基づいて,その特徴を段階的に洗練する反復的枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-22T03:27:11Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - A Systematic Investigation of Commonsense Understanding in Large
Language Models [23.430757316504316]
大規模な言語モデルでは、ゼロショット設定で多くの自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。
これらのモデルが4つのコモンセンスベンチマークに対してモデルを評価することによってコモンセンス理解を示すかどうかを問う。
論文 参考訳(メタデータ) (2021-10-31T22:20:36Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。