論文の概要: OTTER: Open-Tagging via Text-Image Representation for Multi-modal Understanding
- arxiv url: http://arxiv.org/abs/2510.00652v1
- Date: Wed, 01 Oct 2025 08:31:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.467024
- Title: OTTER: Open-Tagging via Text-Image Representation for Multi-modal Understanding
- Title(参考訳): OTTER:マルチモーダル理解のためのテキスト画像表現によるオープンタグ
- Authors: Jieer Ouyang, Xiaoneng Xiang, Zheng Wang, Yangkai Ding,
- Abstract要約: OTTERはオープンセットのマルチラベルタグフレームワークである。
キュレートされた事前定義されたカテゴリセットの安定性と、ユーザ主導のオープンタグの適合性を調和させる。
OTTERは、2つのベンチマークデータセットの競合ベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 5.298398148271524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce OTTER, a unified open-set multi-label tagging framework that harmonizes the stability of a curated, predefined category set with the adaptability of user-driven open tags. OTTER is built upon a large-scale, hierarchically organized multi-modal dataset, collected from diverse online repositories and annotated through a hybrid pipeline combining automated vision-language labeling with human refinement. By leveraging a multi-head attention architecture, OTTER jointly aligns visual and textual representations with both fixed and open-set label embeddings, enabling dynamic and semantically consistent tagging. OTTER consistently outperforms competitive baselines on two benchmark datasets: it achieves an overall F1 score of 0.81 on Otter and 0.75 on Favorite, surpassing the next-best results by margins of 0.10 and 0.02, respectively. OTTER attains near-perfect performance on open-set labels, with F1 of 0.99 on Otter and 0.97 on Favorite, while maintaining competitive accuracy on predefined labels. These results demonstrate OTTER's effectiveness in bridging closed-set consistency with open-vocabulary flexibility for multi-modal tagging applications.
- Abstract(参考訳): 我々は、ユーザ主導のオープンタグの適応性を備えた、キュレートされた事前定義されたカテゴリセットの安定性を調和させる、統一されたオープンセットマルチラベルタグフレームワークOTTERを紹介する。
OTTERは大規模で階層的に整理されたマルチモーダルデータセット上に構築されており、さまざまなオンラインリポジトリから収集され、自動視覚言語ラベルと人間の洗練を組み合わせたハイブリッドパイプラインを通じて注釈付けされる。
マルチヘッドアテンションアーキテクチャを活用することで、OTTERは視覚的およびテキスト的表現を固定されたラベルとオープンセットのラベルの埋め込みと共同で調整し、動的かつ意味的に一貫したタグ付けを可能にする。
Otterでは0.81点、Favoriteでは0.75点、それぞれ0.10点、0.02点である。
OTTERは、Otterでは0.99でF1、Favoriteでは0.97で、オープンセットラベルではほぼ完全な性能を達成し、事前定義されたラベルでは競争精度を維持している。
これらの結果は,マルチモーダルタギングアプリケーションにおいて,オープンボキャブラリフレキシブルな閉集合整合性を実現するためのOTTERの有効性を示した。
関連論文リスト
- Enhancing Text-Based Hierarchical Multilabel Classification for Mobile Applications via Contrastive Learning [3.8920014348892225]
モバイルアプリケーション(アプリケーション)向けの階層的なラベリングシステムは、独自のユーザデータとラベリングを統合する幅広いダウンストリームビジネスに恩恵をもたらす。
我々は、名前や記述などのテキスト情報を用いて、アプリケーションの階層的マルチラベル分類の問題に対処する。
当社のアプローチはTencentで展開されており、アプリのマルチラベル分類アウトプットは、ダウンストリームタスク — ユーザのリスク管理 — のパフォーマンスを10.70%向上させました。
論文 参考訳(メタデータ) (2025-07-06T15:04:19Z) - Label-semantics Aware Generative Approach for Domain-Agnostic Multilabel Classification [25.4439290862464]
マルチラベルテキスト分類のための堅牢で効率的なドメインに依存しない生成モデルフレームワークを提案する。
提案手法は,事前に定義されたラベル記述を利用し,入力テキストに基づいてこれらの記述を生成するように訓練する。
提案モデルの有効性を,評価されたすべてのデータセットにまたがって,新たな最先端性能を実現することによって実証する。
論文 参考訳(メタデータ) (2025-06-07T14:07:07Z) - Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - GPMFS: Global Foundation and Personalized Optimization for Multi-Label Feature Selection [0.820217860574125]
次元性の呪いは、高次元多ラベル学習における主要なボトルネックの1つである。
GPMFS (Global Foundation and Personalized Optimization for Multi-Label Feature Selection) という新しい手法を提案する。
複数の実世界のデータセットの実験により、GPMFSは高い解釈性と堅牢性を維持しながら、優れたパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-04-17T08:29:14Z) - Benchmarking Federated Learning for Semantic Datasets: Federated Scene Graph Generation [3.499870393443268]
フェデレートラーニング(FL)はデータのプライバシを維持しながら分散トレーニングを可能にするが、既存のFLベンチマークは比較的単純な分類タスクに対処する。
クライアント間のセマンティックな不均一性を制御可能なFLベンチマークを構築するためのベンチマークプロセスを提案する。
概念実証として,既存のPSG手法の有効性をFL設定で実証するフェデレートPSGベンチマークを構築した。
論文 参考訳(メタデータ) (2024-12-11T08:10:46Z) - FedNoisy: Federated Noisy Label Learning Benchmark [53.73816587601204]
フェデレーション学習は、クライアントからの機密データを集約することなく、分散学習で人気を集めている。
データ分離の分散と分離の性質は、データ品質によって複雑になり、ノイズの多いラベルに対してより脆弱になる可能性がある。
私たちは、研究者が潜在的にフェデレートされたノイズ設定を十分に調査するのに役立つ、最初の標準ベンチマークを提供しています。
論文 参考訳(メタデータ) (2023-06-20T16:18:14Z) - Multi-View Correlation Consistency for Semi-Supervised Semantic
Segmentation [59.34619548026885]
半教師付きセマンティックセグメンテーションは、ラベルなしデータのリッチで堅牢な監視を必要とする。
本稿では,異なるビュー間の画素・画素対応を保証するビューコヒーレントなデータ拡張戦略を提案する。
2つのデータセットの半教師付き設定では、最先端の手法と比較して、競争の正確さが報告される。
論文 参考訳(メタデータ) (2022-08-17T17:59:11Z) - Use All The Labels: A Hierarchical Multi-Label Contrastive Learning
Framework [75.79736930414715]
本稿では,すべての利用可能なラベルを活用でき,クラス間の階層的関係を維持できる階層型多言語表現学習フレームワークを提案する。
比較損失に階層的ペナルティを併用し,その階層的制約を強制する。
論文 参考訳(メタデータ) (2022-04-27T21:41:44Z) - Interaction Matching for Long-Tail Multi-Label Classification [57.262792333593644]
既存のマルチラベル分類モデルにおいて,制約に対処するためのエレガントで効果的なアプローチを提案する。
ソフトなn-gram相互作用マッチングを実行することで、ラベルと自然言語記述をマッチングする。
論文 参考訳(メタデータ) (2020-05-18T15:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。