論文の概要: Seeing Beyond Classes: Zero-Shot Grounded Situation Recognition via Language Explainer
- arxiv url: http://arxiv.org/abs/2404.15785v1
- Date: Wed, 24 Apr 2024 10:17:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 19:30:27.569272
- Title: Seeing Beyond Classes: Zero-Shot Grounded Situation Recognition via Language Explainer
- Title(参考訳): クラスを超えて見る:言語記述子によるゼロショット接地状況認識
- Authors: Jiaming Lei, Lin Li, Chunping Wang, Jun Xiao, Long Chen,
- Abstract要約: 接地状況認識(GSR)では、モデルが行動に参加するすべての意味的役割を検出する必要がある。
この複雑なタスクは通常、動詞の認識、意味的役割の接地、名詞の認識という3つのステップを含む。
我々はLanguage EXplainer (LEX) を用いたゼロショットGSRの新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 15.21084337999065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benefiting from strong generalization ability, pre-trained vision language models (VLMs), e.g., CLIP, have been widely utilized in zero-shot scene understanding. Unlike simple recognition tasks, grounded situation recognition (GSR) requires the model not only to classify salient activity (verb) in the image, but also to detect all semantic roles that participate in the action. This complex task usually involves three steps: verb recognition, semantic role grounding, and noun recognition. Directly employing class-based prompts with VLMs and grounding models for this task suffers from several limitations, e.g., it struggles to distinguish ambiguous verb concepts, accurately localize roles with fixed verb-centric template1 input, and achieve context-aware noun predictions. In this paper, we argue that these limitations stem from the mode's poor understanding of verb/noun classes. To this end, we introduce a new approach for zero-shot GSR via Language EXplainer (LEX), which significantly boosts the model's comprehensive capabilities through three explainers: 1) verb explainer, which generates general verb-centric descriptions to enhance the discriminability of different verb classes; 2) grounding explainer, which rephrases verb-centric templates for clearer understanding, thereby enhancing precise semantic role localization; and 3) noun explainer, which creates scene-specific noun descriptions to ensure context-aware noun recognition. By equipping each step of the GSR process with an auxiliary explainer, LEX facilitates complex scene understanding in real-world scenarios. Our extensive validations on the SWiG dataset demonstrate LEX's effectiveness and interoperability in zero-shot GSR.
- Abstract(参考訳): 強力な一般化能力、事前訓練された視覚言語モデル(VLM)、例えばCLIPは、ゼロショットシーン理解において広く利用されている。
単純な認識タスクとは異なり、接地状況認識(GSR)では、画像内の健全な活動(動詞)を分類するだけでなく、行動に参加するすべての意味的役割を検出する必要がある。
この複雑なタスクは通常、動詞の認識、意味的役割の接地、名詞の認識という3つのステップを含む。
クラスベースのプロンプトをVLMとグラウンドモデルで直接採用することは、曖昧な動詞概念の区別、固定された動詞中心のテンプレート1入力による役割の正確なローカライズ、文脈対応の名詞予測といった、いくつかの制限に悩まされる。
本稿では,これらの制限は,動詞・名詞の理解が不十分なモードに起因していると論じる。
この目的のために,Language Explainer (LEX) によるゼロショットGSRの新しいアプローチを導入する。
1) 異なる動詞群の識別性を高めるために、一般的な動詞中心の記述を生成する動詞説明装置
2) より明瞭な理解のために動詞中心のテンプレートを言い換えて意味的役割の正確なローカライゼーションを強化する接地説明詞。
3) シーン固有の名詞記述を生成する名詞説明器は,文脈対応の名詞認識を保証する。
GSRプロセスの各ステップに補助的な説明器を設けることで、LEXは現実世界のシナリオにおける複雑なシーン理解を容易にする。
SWiGデータセットに対する広範な検証では、ゼロショットGSRにおけるLEXの有効性と相互運用性が示されている。
関連論文リスト
- Talking the Talk Does Not Entail Walking the Walk: On the Limits of Large Language Models in Lexical Entailment Recognition [3.8623569699070357]
本研究では,8つの大言語モデルが動詞間の語彙的含意関係を認識する能力について検討する。
以上の結果から,モデルが適度に良好な性能で語彙的包含認識タスクに対処できることが判明した。
論文 参考訳(メタデータ) (2024-06-21T06:30:16Z) - Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - GRILL: Grounded Vision-language Pre-training via Aligning Text and Image
Regions [92.96783800362886]
未知のタスクへの一般化は、少数の学習者が多様なタスクにおいてより優れたゼロ/フェーショットのパフォーマンスを達成できる重要な能力である。
GRILLは視覚的質問応答やキャプション,接地タスクなどの多様なタスクに,ほとんど,あるいはごく少数のトレーニングインスタンスで一般化可能な,新しいVLモデルである。
論文 参考訳(メタデータ) (2023-05-24T03:33:21Z) - Verbs in Action: Improving verb understanding in video-language models [128.87443209118726]
CLIPに基づく最先端のビデオ言語モデルは、動詞の理解が限られていることが示されている。
我々は,CLIPに基づくビデオ言語モデルの動詞理解を改善するために,新しいVerb-Focused Contrastiveフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:57:01Z) - GSRFormer: Grounded Situation Recognition Transformer with Alternate
Semantic Attention Refinement [73.73599110214828]
グラウンドドコンディション認識(GSR)は、人間のイベント理解のための画像の構造化されたセマンティックサマリーを生成することを目的としている。
オブジェクト検出とイメージキャプションタスクにインスパイアされた既存のメソッドは、2段階のフレームワークを使用するのが一般的である。
本稿では,動詞と役割の双方向関係の活用に焦点をあてた,新しい2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-18T17:13:59Z) - Rethinking the Role of Demonstrations: What Makes In-Context Learning
Work? [112.72413411257662]
大規模言語モデル(LM)は、いくつかのインプットラベルペア(デモ)を条件付けして、新しいインプットの予測を行うことで、インコンテキストで学習することができる。
実演のラベルをランダムに置き換えることは、パフォーマンスをほとんど損なうものではない。
デモの他の側面が、エンドタスクのパフォーマンスの主要な要因であることに気付きました。
論文 参考訳(メタデータ) (2022-02-25T17:25:19Z) - Rethinking the Two-Stage Framework for Grounded Situation Recognition [61.93345308377144]
接地状況認識は「人間のような」事象理解に向けた重要なステップである。
既存のGSR手法では、第1段階で動詞を予測し、第2段階での意味的役割を検出するという、2段階の枠組みを採用している。
本稿では,CFVM (Coarse-to-Fine Verb Model) と Transformer-based Noun Model (TNM) で構成される新しいGSR用SituFormerを提案する。
論文 参考訳(メタデータ) (2021-12-10T08:10:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。