論文の概要: Incremental Image Labeling via Iterative Refinement
- arxiv url: http://arxiv.org/abs/2304.08989v1
- Date: Tue, 18 Apr 2023 13:37:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 14:42:01.779115
- Title: Incremental Image Labeling via Iterative Refinement
- Title(参考訳): 反復的改良によるインクリメンタル画像ラベリング
- Authors: Fausto Giunchiglia, Xiaolei Diao, Mayukh Bagchi
- Abstract要約: 特に、意味ギャップ問題の存在は、画像から抽出した情報とその言語的記述との間に、多対多のマッピングをもたらす。
この避けられないバイアスにより、現在のコンピュータビジョンタスクのパフォーマンスはさらに低下する。
我々は、ラベリングプロセスを駆動するガイドラインを提供するために、知識表現(KR)ベースの方法論を導入する。
- 参考スコア(独自算出の注目度): 4.7590051176368915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data quality is critical for multimedia tasks, while various types of
systematic flaws are found in image benchmark datasets, as discussed in recent
work. In particular, the existence of the semantic gap problem leads to a
many-to-many mapping between the information extracted from an image and its
linguistic description. This unavoidable bias further leads to poor performance
on current computer vision tasks. To address this issue, we introduce a
Knowledge Representation (KR)-based methodology to provide guidelines driving
the labeling process, thereby indirectly introducing intended semantics in ML
models. Specifically, an iterative refinement-based annotation method is
proposed to optimize data labeling by organizing objects in a classification
hierarchy according to their visual properties, ensuring that they are aligned
with their linguistic descriptions. Preliminary results verify the
effectiveness of the proposed method.
- Abstract(参考訳): マルチメディアタスクにはデータ品質が重要であり、最近の研究で議論されているように、画像ベンチマークデータセットには様々な種類の体系的な欠陥がある。
特に、意味ギャップ問題の存在は、画像から抽出した情報とその言語的記述との間に、多対多のマッピングをもたらす。
この避けられないバイアスは、現在のコンピュータビジョンタスクのパフォーマンスをさらに低下させる。
この問題に対処するため,我々は,MLモデルに意図した意味論を間接的に導入する,知識表現(KR)ベースの方法論を導入し,ラベル付けプロセスのガイドラインを提供する。
具体的には, 分類階層内のオブジェクトを視覚特性に応じて整理し, それらの言語記述と一致させることにより, データのラベリングを最適化するために, 反復的リファインメントに基づくアノテーション手法を提案する。
その結果,提案手法の有効性が検証された。
関連論文リスト
- Context-Based Semantic-Aware Alignment for Semi-Supervised Multi-Label Learning [37.13424985128905]
大規模な画像テキストペアで事前訓練された視覚言語モデルは、SSMLL設定下でのラベル付きデータ制限の課題を軽減することができる。
SSMLL問題を解くために,文脈に基づく意味認識アライメント手法を提案する。
論文 参考訳(メタデータ) (2024-12-25T09:06:54Z) - Learning Semantic-Aware Representation in Visual-Language Models for Multi-Label Recognition with Partial Labels [19.740929527669483]
部分ラベル付きマルチラベル認識(MLR-PL)はコンピュータビジョンにおける実用的な課題である。
セマンティックデカップリングモジュールとカテゴリ固有のプロンプト最適化手法をCLIPベースのフレームワークで導入する。
提案手法は,CLIPベースのベースライン方式と比較して,情報と異なるカテゴリを効果的に分離し,優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-14T14:31:36Z) - Label-template based Few-Shot Text Classification with Contrastive Learning [7.964862748983985]
本稿では,単純かつ効果的なテキスト分類フレームワークを提案する。
ラベルテンプレートは入力文に埋め込まれ、クラスラベルの潜在値を完全に活用する。
教師付きコントラスト学習を用いて、サポートサンプルとクエリサンプル間の相互作用情報をモデル化する。
論文 参考訳(メタデータ) (2024-12-13T12:51:50Z) - HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - A semantics-driven methodology for high-quality image annotation [4.7590051176368915]
本稿では,統合自然言語処理,知識表現,コンピュータビジョンの方法論であるvTelosを提案する。
vTelosの重要な要素は、WordNetのレキシコセマンティック階層を、自然言語ラベルの意味を提供する主要な手段として利用することである。
この手法はImageNet階層のサブセットをポップアップさせるイメージ上で検証される。
論文 参考訳(メタデータ) (2023-07-26T11:38:45Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。