論文の概要: Towards Robust Evaluation of Visual Activity Recognition: Resolving Verb Ambiguity with Sense Clustering
- arxiv url: http://arxiv.org/abs/2508.04945v1
- Date: Thu, 07 Aug 2025 00:22:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.667504
- Title: Towards Robust Evaluation of Visual Activity Recognition: Resolving Verb Ambiguity with Sense Clustering
- Title(参考訳): 視覚活動認識のロバストな評価に向けて:センスクラスタリングによる動詞の曖昧さの解消
- Authors: Louie Hong Yao, Nicholas Jarvis, Tianyu Jiang,
- Abstract要約: 視覚活動認識システムの評価は、動詞の意味論と画像解釈において固有の曖昧さのために困難である。
本稿では,より頑健な評価を実現するために,動詞知覚クラスタを構成する視覚言語クラスタリングフレームワークを提案する。
ImSituデータセットの分析では、各画像は平均2.8センスのクラスタにマップされ、各クラスタは画像の異なる視点を表す。
- 参考スコア(独自算出の注目度): 5.202496456440801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating visual activity recognition systems is challenging due to inherent ambiguities in verb semantics and image interpretation. When describing actions in images, synonymous verbs can refer to the same event (e.g., brushing vs. grooming), while different perspectives can lead to equally valid but distinct verb choices (e.g., piloting vs. operating). Standard exact-match evaluation, which relies on a single gold answer, fails to capture these ambiguities, resulting in an incomplete assessment of model performance. To address this, we propose a vision-language clustering framework that constructs verb sense clusters, providing a more robust evaluation. Our analysis of the imSitu dataset shows that each image maps to an average of 2.8 sense clusters, with each cluster representing a distinct perspective of the image. We evaluate multiple activity recognition models and compare our cluster-based evaluation with standard evaluation methods. Additionally, our human alignment analysis suggests that the cluster-based evaluation better aligns with human judgements, offering a more nuanced assessment of model performance.
- Abstract(参考訳): 視覚活動認識システムの評価は、動詞の意味論や画像解釈において固有の曖昧さのために困難である。
画像中の行動を記述する際、同義動詞は同じ出来事(例えば、ブラッシング対グルーミング)を参照することができるが、異なる視点は等しく妥当だが異なる動詞選択(例えば、パイロット対オペレーティング)につながる。
1つの金の答えに依存する標準的な正確なマッチング評価は、これらの曖昧さを捉えることができず、結果としてモデル性能の完全な評価が得られない。
そこで本研究では,より頑健な評価を実現するために,動詞認識クラスタを構成する視覚言語クラスタリングフレームワークを提案する。
ImSituデータセットの分析では、各画像は平均2.8センスのクラスタにマップされ、各クラスタは画像の異なる視点を表す。
我々は,複数の行動認識モデルを評価し,クラスタベース評価を標準評価手法と比較した。
さらに、人間のアライメント分析により、クラスタベースの評価が人間の判断と整合し、モデル性能のより微妙な評価を提供する可能性が示唆された。
関連論文リスト
- HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - Do Smaller Language Models Answer Contextualised Questions Through
Memorisation Or Generalisation? [8.51696622847778]
モデルは、非常に類似したトレーニングサンプルから直接記憶される評価サンプルのラベルを予測できる能力と、しばしば区別される。
本稿では,本モデルが解答を記憶する可能性が極めて低い評価サンプルを同定する手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T04:06:08Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Impact of Feedback Type on Explanatory Interactive Learning [4.039245878626345]
Explanatory Interactive Learning (XIL)は、Human-in-the-Loop(HITL)ベースの対話型学習シナリオを実装するために、視覚モデルの説明に関するユーザフィードバックを収集する。
画像分類タスクにおける2つの異なるユーザフィードバックタイプの有効性を比較した。
本研究では,モデルに有効な画像特徴にフォーカスするよう指示するユーザフィードバックよりも優れた分類と説明の精度で,モデルが有意な結果を見出すような突発的な画像特徴の識別と注釈を示す。
論文 参考訳(メタデータ) (2022-09-26T07:33:54Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - ACTIVE:Augmentation-Free Graph Contrastive Learning for Partial
Multi-View Clustering [52.491074276133325]
部分的マルチビュークラスタリングの問題を解決するために,拡張自由グラフコントラスト学習フレームワークを提案する。
提案手法は、インスタンスレベルのコントラスト学習と欠落データ推論をクラスタレベルに高め、個々の欠落データがクラスタリングに与える影響を効果的に軽減する。
論文 参考訳(メタデータ) (2022-03-01T02:32:25Z) - Detection and Captioning with Unseen Object Classes [12.894104422808242]
テストイメージには、対応する視覚的またはテキスト的トレーニング例のない視覚的オブジェクトを含むことができる。
一般化されたゼロショット検出モデルとテンプレートに基づく文生成モデルに基づく検出駆動型アプローチを提案する。
実験の結果,提案したゼロショット検出モデルにより,MS-COCOデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2021-08-13T10:43:20Z) - Enriching ImageNet with Human Similarity Judgments and Psychological
Embeddings [7.6146285961466]
人間の知覚と推論のタスク汎用能力を具現化したデータセットを提案する。
ImageNet(ImageNet-HSJ)のHuman similarity Judgments拡張は、人間の類似性判定で構成されている。
新しいデータセットは、教師なし学習アルゴリズムの評価を含む、タスクとパフォーマンスのメトリクスの範囲をサポートする。
論文 参考訳(メタデータ) (2020-11-22T13:41:54Z) - Quantifying Learnability and Describability of Visual Concepts Emerging
in Representation Learning [91.58529629419135]
我々は、ディープニューラルネットワークによって自動的に発見された視覚的なグルーピングを特徴付ける方法を検討する。
本稿では、任意の画像グループ化の解釈可能性の定量化に使用できる視覚的学習可能性と記述可能性という2つの概念を紹介する。
論文 参考訳(メタデータ) (2020-10-27T18:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。