Fugu-MT 論文翻訳(概要): OmniGCD: Abstracting Generalized Category Discovery for Modality Agnosticism

論文の概要: OmniGCD: Abstracting Generalized Category Discovery for Modality Agnosticism

arxiv url: http://arxiv.org/abs/2604.14762v1
Date: Thu, 16 Apr 2026 08:22:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-17 21:29:31.799943
Title: OmniGCD: Abstracting Generalized Category Discovery for Modality Agnosticism
Title（参考訳）: OmniGCD: Modality Agnosticismのための一般化カテゴリー発見の抽象化
Authors: Jordan Shipard, Arnold Wiliem, Kien Nguyen Thanh, Wei Xiang, Clinton Fookes,
Abstract要約: Generalized Category Discovery (GCD)は、部分的にラベル付けされたデータを用いて、既知のクラスと新しいクラスを識別する手法に挑戦する。本稿では,ヒト脳の抽象的カテゴリー形成に触発されたモダリティ非依存型GCDアプローチを提案する。我々の研究は、将来のモダリティに依存しないGCD作業のベンチマークとして機能し、スケーラブルで人間にインスパイアされたカテゴリ発見の道を開いた。
参考スコア（独自算出の注目度）: 30.780811202055954
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generalized Category Discovery (GCD) challenges methods to identify known and novel classes using partially labeled data, mirroring human category learning. Unlike prior GCD methods, which operate within a single modality and require dataset-specific fine-tuning, we propose a modality-agnostic GCD approach inspired by the human brain's abstract category formation. Our $\textbf{OmniGCD}$ leverages modality-specific encoders (e.g., vision, audio, text, remote sensing) to process inputs, followed by dimension reduction to construct a $\textbf{GCD latent space}$, which is transformed at test-time into a representation better suited for clustering using a novel synthetically trained Transformer-based model. To evaluate OmniGCD, we introduce a $\textbf{zero-shot GCD setting}$ where no dataset-specific fine-tuning is allowed, enabling modality-agnostic category discovery. $\textbf{Trained once on synthetic data}$, OmniGCD performs zero-shot GCD across 16 datasets spanning four modalities, improving classification accuracy for known and novel classes over baselines (average percentage point improvement of $\textbf{+6.2}$, $\textbf{+17.9}$, $\textbf{+1.5}$ and $\textbf{+12.7}$ for vision, text, audio and remote sensing). This highlights the importance of strong encoders while decoupling representation learning from category discovery. Improving modality-agnostic methods will propagate across modalities, enabling encoder development independent of GCD. Our work serves as a benchmark for future modality-agnostic GCD works, paving the way for scalable, human-inspired category discovery. All code is available $\href{https://github.com/Jordan-HS/OmniGCD}{here}$
Abstract（参考訳）: Generalized Category Discovery (GCD)は、部分的にラベル付けされたデータを用いて既知のクラスと新しいクラスを識別し、人間のカテゴリ学習を反映する手法に挑戦する。単一モードで動作し、データセット固有の微調整を必要とする従来のGCD法とは異なり、人間の脳の抽象的カテゴリー形成にインスパイアされた、モダリティに依存しないGCDアプローチを提案する。私たちの$\textbf{OmniGCD}$は、モダリティ固有のエンコーダ(例えば、視覚、オーディオ、テキスト、リモートセンシング)を使って入力を処理する。 OmniGCDを評価するために、データセット固有の微調整を許可しない$\textbf{zero-shot GCD setting}$を導入する。 $\textbf{Trained once on synthetic data}$, OmniGCDは、4つのモダリティにまたがる16データセットにわたるゼロショットGCDを実行し、ベースラインよりも既知のクラスと新規クラスの分類精度を改善した(平均パーセンテージポイントの改善は$\textbf{+6.2}$, $\textbf{+17.9}$, $\textbf{+1.5}$, $\textbf{+12.7}$)。これは、強力なエンコーダの重要性を強調し、カテゴリ発見から表現学習を分離する。モダリティに依存しない手法の改善は、GCDに依存しないエンコーダ開発を可能にするため、モダリティを越えて伝播する。我々の研究は、将来のモダリティに依存しないGCD作業のベンチマークとして機能し、スケーラブルで人間にインスパイアされたカテゴリ発見の道を開いた。すべてのコードは$\href{https://github.com/Jordan-HS/OmniGCD}{here}$で利用可能である。

関連論文リスト

AICD Bench: A Challenging Benchmark for AI-Generated Code Detection [91.21422299346199]
AICD Benchは、AI生成コード検出の最も包括的なベンチマークである。これは$emph2Mサンプル$、$emph77モデル$、$emph11ファミリー$、$emph9プログラミング言語$で、最近の推論モデルを含む。
論文参考訳（メタデータ） (2026-02-02T13:24:14Z)
Hyperbolic Category Discovery [12.654574453480635]
Generalized Category Discovery (GCD) は、既知のクラスや未知のクラスに属するかに関わらず、未ラベルのサブセット内のすべてのイメージを分類することを目的としている。 GCDのための階層認識表現と分類器を学習するためのハイパーボリックフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-08T15:12:33Z)
DebGCD: Debiased Learning with Distribution Guidance for Generalized Category Discovery [14.222473509173357]
一般化カテゴリー発見(GCD)の課題に取り組む GCDでは、未知のクラスと未知のクラスの間に固有のラベルバイアスが存在する。本稿では,アンダーラインGCDのための分布指導フレームワークであるDebGCDを紹介する。
論文参考訳（メタデータ） (2025-04-07T07:56:01Z)
Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized Visual Class Discovery [65.16724941038052]
Generalized Category Discovery (GCD)は、既知のカテゴリと未知のカテゴリの両方からラベルのないデータをクラスタすることを目的としている。現在のGCD法は、新しい視覚カテゴリーを発見する際に、人間の認知過程の多様性知覚性を無視する視覚的手がかりのみに依存している。マルチモーダルなGCDを実現するための2段階のTextGCDフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-12T07:06:50Z)
No Representation Rules Them All in Category Discovery [115.53747187400626]
一般化カテゴリー発見(GCD)の課題に取り組むラベル付きおよびアンラベル画像のデータセットが与えられた場合、そのタスクはすべての画像をアンラベル画像のサブセットにまとめることである。カテゴリー発見のための合成データセット「Clevr-4」を提案する。
論文参考訳（メタデータ） (2023-11-28T18:59:46Z)
OpenGCD: Assisting Open World Recognition with Generalized Category Discovery [4.600906853436266]
望ましいオープンワールド認識(OWR)システムは、3つのタスクを実行する必要がある。上記の問題を逐次解決するために,3つの鍵となるアイデアを組み合わせたOpenGCDを提案する。 2つの標準分類ベンチマークと挑戦的なデータセットの実験は、OpenGCDが優れた互換性を提供するだけでなく、他のベースラインを大幅に上回っていることを示している。
論文参考訳（メタデータ） (2023-08-14T04:10:45Z)
Devil is in Channels: Contrastive Single Domain Generalization for Medical Image Segmentation [21.079667938055668]
医用画像分割のためのtextbfChannel レベルの textbfContrastive textbfSingle textbfDomain textbf Generalization モデルを提案する。提案手法は,単一ソースドメインを用いてチャネルワイドな特徴の絡み合いを可能にする,コントラスト的な視点での新しい手法である。
論文参考訳（メタデータ） (2023-06-08T14:49:32Z)
Dynamic Conceptional Contrastive Learning for Generalized Category Discovery [76.82327473338734]
Generalized category discovery (GCD) は、部分的にラベル付けされたデータを自動でクラスタリングすることを目的としている。ラベル付きデータには、ラベル付きデータの既知のカテゴリだけでなく、新しいカテゴリのインスタンスも含まれている。 GCDの効果的な方法の1つは、ラベルなしデータの識別表現を学習するために自己教師付き学習を適用することである。本稿では,クラスタリングの精度を効果的に向上する動的概念コントラスト学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-30T14:04:39Z)
Parametric Classification for Generalized Category Discovery: A Baseline Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文参考訳（メタデータ） (2022-11-21T18:47:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。