論文の概要: Incremental Image Labeling via Iterative Refinement
- arxiv url: http://arxiv.org/abs/2304.08989v1
- Date: Tue, 18 Apr 2023 13:37:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 14:42:01.779115
- Title: Incremental Image Labeling via Iterative Refinement
- Title(参考訳): 反復的改良によるインクリメンタル画像ラベリング
- Authors: Fausto Giunchiglia, Xiaolei Diao, Mayukh Bagchi
- Abstract要約: 特に、意味ギャップ問題の存在は、画像から抽出した情報とその言語的記述との間に、多対多のマッピングをもたらす。
この避けられないバイアスにより、現在のコンピュータビジョンタスクのパフォーマンスはさらに低下する。
我々は、ラベリングプロセスを駆動するガイドラインを提供するために、知識表現(KR)ベースの方法論を導入する。
- 参考スコア(独自算出の注目度): 4.7590051176368915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data quality is critical for multimedia tasks, while various types of
systematic flaws are found in image benchmark datasets, as discussed in recent
work. In particular, the existence of the semantic gap problem leads to a
many-to-many mapping between the information extracted from an image and its
linguistic description. This unavoidable bias further leads to poor performance
on current computer vision tasks. To address this issue, we introduce a
Knowledge Representation (KR)-based methodology to provide guidelines driving
the labeling process, thereby indirectly introducing intended semantics in ML
models. Specifically, an iterative refinement-based annotation method is
proposed to optimize data labeling by organizing objects in a classification
hierarchy according to their visual properties, ensuring that they are aligned
with their linguistic descriptions. Preliminary results verify the
effectiveness of the proposed method.
- Abstract(参考訳): マルチメディアタスクにはデータ品質が重要であり、最近の研究で議論されているように、画像ベンチマークデータセットには様々な種類の体系的な欠陥がある。
特に、意味ギャップ問題の存在は、画像から抽出した情報とその言語的記述との間に、多対多のマッピングをもたらす。
この避けられないバイアスは、現在のコンピュータビジョンタスクのパフォーマンスをさらに低下させる。
この問題に対処するため,我々は,MLモデルに意図した意味論を間接的に導入する,知識表現(KR)ベースの方法論を導入し,ラベル付けプロセスのガイドラインを提供する。
具体的には, 分類階層内のオブジェクトを視覚特性に応じて整理し, それらの言語記述と一致させることにより, データのラベリングを最適化するために, 反復的リファインメントに基づくアノテーション手法を提案する。
その結果,提案手法の有効性が検証された。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - A semantics-driven methodology for high-quality image annotation [4.7590051176368915]
本稿では,統合自然言語処理,知識表現,コンピュータビジョンの方法論であるvTelosを提案する。
vTelosの重要な要素は、WordNetのレキシコセマンティック階層を、自然言語ラベルの意味を提供する主要な手段として利用することである。
この手法はImageNet階層のサブセットをポップアップさせるイメージ上で検証される。
論文 参考訳(メタデータ) (2023-07-26T11:38:45Z) - Semantic Contrastive Bootstrapping for Single-positive Multi-label
Recognition [36.3636416735057]
本研究では,意味的コントラスト型ブートストラップ法(Scob)を用いて,オブジェクト間の関係を徐々に回復する手法を提案する。
次に、アイコン的オブジェクトレベルの表現を抽出する再帰的セマンティックマスク変換器を提案する。
大規模な実験結果から,提案手法が最先端のモデルを超えていることが示唆された。
論文 参考訳(メタデータ) (2023-07-15T01:59:53Z) - Domain Adaptive Multiple Instance Learning for Instance-level Prediction
of Pathological Images [45.132775668689604]
アノテーションのコストを増大させることなく、ターゲットデータセットの分類性能を向上させるためのタスク設定を提案する。
両手法の監督情報を効果的に組み合わせるために,信頼性の高い擬似ラベルを作成する手法を提案する。
論文 参考訳(メタデータ) (2023-04-07T08:31:06Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。