論文の概要: The Demon is in Ambiguity: Revisiting Situation Recognition with Single Positive Multi-Label Learning
- arxiv url: http://arxiv.org/abs/2508.21816v1
- Date: Fri, 29 Aug 2025 17:51:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.141801
- Title: The Demon is in Ambiguity: Revisiting Situation Recognition with Single Positive Multi-Label Learning
- Title(参考訳): Demon is in Ambiguity:Revisiting situation Recognition with Single Positive Multi-Label Learning
- Authors: Yiming Lin, Yuchen Niu, Shang Wang, Kaizhu Huang, Qiufeng Wang, Xiao-Bo Jin,
- Abstract要約: コンテキスト認識は、画像から構造化された意味的要約を抽出することを目的とした、コンピュータビジョンの基本的なタスクである。
既存の方法では,動詞の分類を単一ラベル問題として扱うが,この定式化は視覚事象認識における固有の曖昧さに対処できないという包括的分析を通して示す。
第一に,動詞分類が本質的には多言語の問題であることを示す経験的分析を通して,動詞カテゴリー間のユビキタスな意味的重複から,その特徴を明らかにする。
第二に、複数ラベル付き大規模データセットの完全注釈付けの非現実性を考えると、動詞分類を1つの正のマルチラベル学習として再構成することを提案する。
- 参考スコア(独自算出の注目度): 30.485929387603463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context recognition (SR) is a fundamental task in computer vision that aims to extract structured semantic summaries from images by identifying key events and their associated entities. Specifically, given an input image, the model must first classify the main visual events (verb classification), then identify the participating entities and their semantic roles (semantic role labeling), and finally localize these entities in the image (semantic role localization). Existing methods treat verb classification as a single-label problem, but we show through a comprehensive analysis that this formulation fails to address the inherent ambiguity in visual event recognition, as multiple verb categories may reasonably describe the same image. This paper makes three key contributions: First, we reveal through empirical analysis that verb classification is inherently a multi-label problem due to the ubiquitous semantic overlap between verb categories. Second, given the impracticality of fully annotating large-scale datasets with multiple labels, we propose to reformulate verb classification as a single positive multi-label learning (SPMLL) problem - a novel perspective in SR research. Third, we design a comprehensive multi-label evaluation benchmark for SR that is carefully designed to fairly evaluate model performance in a multi-label setting. To address the challenges of SPMLL, we futher develop the Graph Enhanced Verb Multilayer Perceptron (GE-VerbMLP), which combines graph neural networks to capture label correlations and adversarial training to optimize decision boundaries. Extensive experiments on real-world datasets show that our approach achieves more than 3\% MAP improvement while remaining competitive on traditional top-1 and top-5 accuracy metrics.
- Abstract(参考訳): コンテキスト認識(SR)は、重要なイベントとその関連エンティティを識別することによって、画像から構造化された意味的要約を抽出することを目的とした、コンピュータビジョンの基本的なタスクである。
具体的には、入力画像が与えられた場合、モデルはまずメインの視覚イベント(動詞の分類)を分類し、参加するエンティティとその意味的役割(意味的役割のラベル付け)を識別し、最後にこれらのエンティティをイメージ内のローカライズ(意味的役割のローカライゼーション)する。
既存の方法では、動詞分類を単一ラベル問題として扱うが、複数の動詞カテゴリが同じ画像を合理的に記述できるため、この定式化は視覚事象認識における固有のあいまいさに対処できないことを示す。
第一に,動詞分類が本質的には多言語の問題であることを示す経験的分析を通して,動詞カテゴリー間のユビキタスな意味的重複から,その特徴を明らかにする。
第二に,複数のラベルを持つ大規模データセットを完全に注釈付けする非現実性を考えると,言語分類を1つの正のマルチラベル学習(SPMLL)問題(SR研究における新しい視点)として再定義することを提案する。
第3に,マルチラベル環境でのモデル性能を適切に評価するための総合的マルチラベル評価ベンチマークを設計する。
SPMLLの課題に対処するために、グラフニューラルネットワークを組み合わせてラベル相関を捕捉し、意思決定境界を最適化するグラフ拡張バーブ多層パーセプトロン(GE-VerbMLP)を開発した。
実世界のデータセットに対する大規模な実験は、従来のトップ1とトップ5の精度の指標で競争力を維持しながら、我々のアプローチが3\%以上のMAP改善を達成することを示している。
関連論文リスト
- Semantic-Aware Representation Learning for Multi-label Image Classification [6.444512435220748]
本稿では,多ラベル画像分類のためのセマンティック・アウェア表現学習(SARL)を提案する。
まず、ラベル意味関連特徴学習モジュールを用いて意味関連特徴を抽出する。
第2に、セマンティックに整合した画像表現を得るために、最適輸送に基づくアテンション機構が設計されている。
論文 参考訳(メタデータ) (2025-07-20T11:15:24Z) - Semantic-guided Representation Learning for Multi-Label Recognition [13.046479112800608]
マルチラベル認識(MLR)では、画像内の各データインスタンスに複数のラベルを割り当てる。
近年のビジョンと言語事前学習法は、ゼロショットMLRタスクの処理において大きな進歩を遂げている。
本研究では,セマンティック誘導型表現学習手法(SigRL)を導入し,モデルが効果的な視覚的およびテキスト的表現を学習できるようにする。
論文 参考訳(メタデータ) (2025-04-04T08:15:08Z) - A Unified Label-Aware Contrastive Learning Framework for Few-Shot Named Entity Recognition [6.468625143772815]
ラベル認識型トークンレベルのコントラスト学習フレームワークを提案する。
提案手法は,ラベルのセマンティクスを接尾辞のプロンプトとして活用することでコンテキストを豊かにする。
コンテキストネイティブとコンテキストラベルの対比学習目標を同時に最適化する。
論文 参考訳(メタデータ) (2024-04-26T06:19:21Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Learning Self-Supervised Low-Rank Network for Single-Stage Weakly and
Semi-Supervised Semantic Segmentation [119.009033745244]
本稿では,単一段階弱教師付きセマンティックセマンティックセマンティックセマンティクス(WSSS)と半教師付きセマンティクスセマンティクスセマンティクス(SSSS)のための自己教師付き低ランクネットワーク(SLRNet)を提案する。
SLRNetは、画像の異なるビューから複数の注意深いLR表現を同時に予測し、正確な擬似ラベルを学習する。
Pascal VOC 2012、COCO、L2IDデータセットの実験では、SLRNetは最先端のWSSSメソッドとSSSSメソッドの両方で、さまざまな設定で優れています。
論文 参考訳(メタデータ) (2022-03-19T09:19:55Z) - Knowledge-Guided Multi-Label Few-Shot Learning for General Image
Recognition [75.44233392355711]
KGGRフレームワークは、ディープニューラルネットワークと統計ラベル相関の事前知識を利用する。
まず、統計ラベルの共起に基づいて異なるラベルを相関させる構造化知識グラフを構築する。
次に、ラベルセマンティクスを導入し、学習セマンティクス固有の特徴をガイドする。
グラフノードの相互作用を探索するためにグラフ伝搬ネットワークを利用する。
論文 参考訳(メタデータ) (2020-09-20T15:05:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。