Fugu-MT 論文翻訳(概要): Incremental Image Labeling via Iterative Refinement

論文の概要: Incremental Image Labeling via Iterative Refinement

arxiv url: http://arxiv.org/abs/2304.08989v1
Date: Tue, 18 Apr 2023 13:37:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-19 14:42:01.779115
Title: Incremental Image Labeling via Iterative Refinement
Title（参考訳）: 反復的改良によるインクリメンタル画像ラベリング
Authors: Fausto Giunchiglia, Xiaolei Diao, Mayukh Bagchi
Abstract要約: 特に、意味ギャップ問題の存在は、画像から抽出した情報とその言語的記述との間に、多対多のマッピングをもたらす。この避けられないバイアスにより、現在のコンピュータビジョンタスクのパフォーマンスはさらに低下する。我々は、ラベリングプロセスを駆動するガイドラインを提供するために、知識表現(KR)ベースの方法論を導入する。
参考スコア（独自算出の注目度）: 4.7590051176368915
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data quality is critical for multimedia tasks, while various types of systematic flaws are found in image benchmark datasets, as discussed in recent work. In particular, the existence of the semantic gap problem leads to a many-to-many mapping between the information extracted from an image and its linguistic description. This unavoidable bias further leads to poor performance on current computer vision tasks. To address this issue, we introduce a Knowledge Representation (KR)-based methodology to provide guidelines driving the labeling process, thereby indirectly introducing intended semantics in ML models. Specifically, an iterative refinement-based annotation method is proposed to optimize data labeling by organizing objects in a classification hierarchy according to their visual properties, ensuring that they are aligned with their linguistic descriptions. Preliminary results verify the effectiveness of the proposed method.
Abstract（参考訳）: マルチメディアタスクにはデータ品質が重要であり、最近の研究で議論されているように、画像ベンチマークデータセットには様々な種類の体系的な欠陥がある。特に、意味ギャップ問題の存在は、画像から抽出した情報とその言語的記述との間に、多対多のマッピングをもたらす。この避けられないバイアスは、現在のコンピュータビジョンタスクのパフォーマンスをさらに低下させる。この問題に対処するため,我々は,MLモデルに意図した意味論を間接的に導入する,知識表現(KR)ベースの方法論を導入し,ラベル付けプロセスのガイドラインを提供する。具体的には, 分類階層内のオブジェクトを視覚特性に応じて整理し, それらの言語記述と一致させることにより, データのラベリングを最適化するために, 反復的リファインメントに基づくアノテーション手法を提案する。その結果,提案手法の有効性が検証された。

関連論文リスト

Hierarchical Semantic Alignment for Image Clustering [59.277605709780524]
CAEと呼ばれる画像クラスタリングのためのhierarChical semAnticalignedmEnt法を提案する。まず、WordNetから関連する名詞とキャプションデータセットから記述を選択し、画像特徴に整合した意味空間を構築する。次に,画像特徴と選択した名詞とキャプションとを最適な輸送手段で一致させて,より識別的な意味空間を得る。
論文参考訳（メタデータ） (2025-11-30T14:14:51Z)
Semantic Prioritization in Visual Counterfactual Explanations with Weighted Segmentation and Auto-Adaptive Region Selection [50.68751788132789]
本研究は,自動適応候補編集ネットワーク(WSAE-Net)を用いた重み付きセマンティックマップ(Weighted Semantic Map)という,革新的な手法を提案する。重み付きセマンティックマップの生成は、計算される必要のある非意味的特徴単位の削減を最大化するように設計されている。自動適応型候補編集シーケンスは、処理すべき特徴ユニット間の最適な計算順序を決定するように設計されている。
論文参考訳（メタデータ） (2025-11-17T05:34:10Z)
Semantic-Aware Representation Learning via Conditional Transport for Multi-Label Image Classification [8.864897133482907]
本稿では,マルチラベル画像分類のための条件付きトランスポートを用いたセマンティック認識表現学習という新しい手法を提案する。提案手法では,意味的関連性と相互作用を強調することによって,識別的ラベル固有の特徴を抽出する意味的関連性学習モジュールを提案する。 2つの広く使われているベンチマークデータセットであるVOC2007とMS-COCOの実験は、SCTの有効性を検証し、既存の最先端手法と比較して優れた性能を示した。
論文参考訳（メタデータ） (2025-07-20T11:15:24Z)
Context-Based Semantic-Aware Alignment for Semi-Supervised Multi-Label Learning [37.13424985128905]
大規模な画像テキストペアで事前訓練された視覚言語モデルは、SSMLL設定下でのラベル付きデータ制限の課題を軽減することができる。 SSMLL問題を解くために,文脈に基づく意味認識アライメント手法を提案する。
論文参考訳（メタデータ） (2024-12-25T09:06:54Z)
Learning Semantic-Aware Representation in Visual-Language Models for Multi-Label Recognition with Partial Labels [19.740929527669483]
部分ラベル付きマルチラベル認識(MLR-PL)はコンピュータビジョンにおける実用的な課題である。セマンティックデカップリングモジュールとカテゴリ固有のプロンプト最適化手法をCLIPベースのフレームワークで導入する。提案手法は,CLIPベースのベースライン方式と比較して,情報と異なるカテゴリを効果的に分離し,優れた性能を実現する。
論文参考訳（メタデータ） (2024-12-14T14:31:36Z)
Label-template based Few-Shot Text Classification with Contrastive Learning [7.964862748983985]
本稿では,単純かつ効果的なテキスト分類フレームワークを提案する。ラベルテンプレートは入力文に埋め込まれ、クラスラベルの潜在値を完全に活用する。教師付きコントラスト学習を用いて、サポートサンプルとクエリサンプル間の相互作用情報をモデル化する。
論文参考訳（メタデータ） (2024-12-13T12:51:50Z)
HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。 HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文参考訳（メタデータ） (2024-12-07T15:47:49Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-02T13:43:32Z)
Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文参考訳（メタデータ） (2023-09-01T11:15:50Z)
A semantics-driven methodology for high-quality image annotation [4.7590051176368915]
本稿では,統合自然言語処理,知識表現,コンピュータビジョンの方法論であるvTelosを提案する。 vTelosの重要な要素は、WordNetのレキシコセマンティック階層を、自然言語ラベルの意味を提供する主要な手段として利用することである。この手法はImageNet階層のサブセットをポップアップさせるイメージ上で検証される。
論文参考訳（メタデータ） (2023-07-26T11:38:45Z)
Semantic Contrastive Bootstrapping for Single-positive Multi-label Recognition [36.3636416735057]
本研究では,意味的コントラスト型ブートストラップ法(Scob)を用いて,オブジェクト間の関係を徐々に回復する手法を提案する。次に、アイコン的オブジェクトレベルの表現を抽出する再帰的セマンティックマスク変換器を提案する。大規模な実験結果から,提案手法が最先端のモデルを超えていることが示唆された。
論文参考訳（メタデータ） (2023-07-15T01:59:53Z)
Domain Adaptive Multiple Instance Learning for Instance-level Prediction of Pathological Images [45.132775668689604]
アノテーションのコストを増大させることなく、ターゲットデータセットの分類性能を向上させるためのタスク設定を提案する。両手法の監督情報を効果的に組み合わせるために,信頼性の高い擬似ラベルを作成する手法を提案する。
論文参考訳（メタデータ） (2023-04-07T08:31:06Z)
Exploring Structured Semantic Prior for Multi Label Recognition with Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文参考訳（メタデータ） (2023-03-23T12:39:20Z)
Semantic Representation and Dependency Learning for Multi-Label Image Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文参考訳（メタデータ） (2022-04-08T00:55:15Z)
On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文参考訳（メタデータ） (2022-02-17T22:40:19Z)
Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文参考訳（メタデータ） (2021-01-02T07:13:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。