論文の概要: Diffusion-Based Cross-Modal Feature Extraction for Multi-Label Classification
- arxiv url: http://arxiv.org/abs/2509.15553v1
- Date: Fri, 19 Sep 2025 03:13:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.977495
- Title: Diffusion-Based Cross-Modal Feature Extraction for Multi-Label Classification
- Title(参考訳): 拡散に基づくマルチラベル分類のためのクロスモーダル特徴抽出
- Authors: Tian Lan, Yiming Zheng, Jianxin Yin,
- Abstract要約: textitDiff-Featは、画像とテキストのための事前訓練された拡散変換器モデルから中間的特徴を抽出するフレームワークである。
我々は,視覚タスクにおいて,拡散過程に沿った最も識別性の高い中間特徴が中間ステップで発生し,トランスフォーマーの中間ブロックに位置することを観察した。
言語タスクでは、最高の機能はノイズのないステップで発生し、最も深いブロックに位置する。
- 参考スコア(独自算出の注目度): 7.9670666100347765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-label classification has broad applications and depends on powerful representations capable of capturing multi-label interactions. We introduce \textit{Diff-Feat}, a simple but powerful framework that extracts intermediate features from pre-trained diffusion-Transformer models for images and text, and fuses them for downstream tasks. We observe that for vision tasks, the most discriminative intermediate feature along the diffusion process occurs at the middle step and is located in the middle block in Transformer. In contrast, for language tasks, the best feature occurs at the noise-free step and is located in the deepest block. In particular, we observe a striking phenomenon across varying datasets: a mysterious "Layer $12$" consistently yields the best performance on various downstream classification tasks for images (under DiT-XL/2-256$\times$256). We devise a heuristic local-search algorithm that pinpoints the locally optimal "image-text"$\times$"block-timestep" pair among a few candidates, avoiding an exhaustive grid search. A simple fusion-linear projection followed by addition-of the selected representations yields state-of-the-art performance: 98.6\% mAP on MS-COCO-enhanced and 45.7\% mAP on Visual Genome 500, surpassing strong CNN, graph, and Transformer baselines by a wide margin. t-SNE and clustering metrics further reveal that \textit{Diff-Feat} forms tighter semantic clusters than unimodal counterparts. The code is available at https://github.com/lt-0123/Diff-Feat.
- Abstract(参考訳): マルチラベル分類は幅広い応用があり、マルチラベルの相互作用をキャプチャできる強力な表現に依存している。
本稿では,画像やテキストに対して事前学習した拡散変換器モデルから中間機能を抽出し,それらを下流タスクに融合する,シンプルだが強力なフレームワークである‘textit{Diff-Feat} を紹介する。
我々は,視覚タスクにおいて,拡散過程に沿った最も識別性の高い中間特徴が中間ステップで発生し,トランスフォーマーの中間ブロックに位置することを観察した。
対照的に、言語タスクでは、最高の機能はノイズのないステップで発生し、最も深いブロックに位置する。
謎の"Layer $112$"は、画像の下流分類タスク(DiT-XL/2-256$\times$256)において、常に最高のパフォーマンスを得られる。
我々は,局所的に最適な「画像テキスト」$\times$「ブロックタイムステップ」ペアを,網羅的なグリッド探索を避けるために,ヒューリスティックな局所探索アルゴリズムを考案した。
単純な融合線形投影と選択された表現の追加により、最先端のパフォーマンスが得られる: MS-COCOで98.6\% mAP、Visual Genome 500で45.7\% mAP、強力なCNN、グラフ、トランスフォーマーベースラインをはるかに上回る。
t-SNEとクラスタリングのメトリクスにより、 \textit{Diff-Feat} は単調なクラスタよりも厳密なセマンティッククラスタを形成することが明らかになった。
コードはhttps://github.com/lt-0123/Diff-Feat.comで公開されている。
関連論文リスト
- FractMorph: A Fractional Fourier-Based Multi-Domain Transformer for Deformable Image Registration [0.6683923149620578]
クロスイメージ特徴マッチングを向上する新しい3次元デュアル並列変換器アーキテクチャであるFractMorphを提案する。
軽量なU-Netスタイルのネットワークは、変換器に富んだ特徴から密度変形場を予測する。
その結果、FractMorphは、全体のDice similarity Coefficient(DSC)が86.45%$、平均1構造が75.15%$、95セントのHausdorff(HD95)が1.54mathrmmm$で、最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-08-17T17:42:10Z) - FTCFormer: Fuzzy Token Clustering Transformer for Image Classification [22.410199372985584]
トランスフォーマーベースのディープニューラルネットワークは、様々なコンピュータビジョンタスクで顕著な成功を収めている。
ほとんどのトランスフォーマーアーキテクチャは、イメージを均一なグリッドベースの視覚トークンに埋め込み、画像領域の基本的な意味を無視する。
本研究では,空間的位置ではなく意味に基づく視覚トークンを動的に生成するFuzzy Token Clustering Transformer (FTCFormer)を提案する。
論文 参考訳(メタデータ) (2025-07-14T13:49:47Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Deep Neural Networks Fused with Textures for Image Classification [20.58839604333332]
きめ細かい画像分類はコンピュータビジョンにおいて難しい課題である。
グローバルテクスチャと局所パッチ情報を組み合わせたFGICの融合手法を提案する。
提案手法は,有意なマージンを有する既存手法よりも高い分類精度を達成できた。
論文 参考訳(メタデータ) (2023-08-03T15:21:08Z) - Hierarchical Forgery Classifier On Multi-modality Face Forgery Clues [61.37306431455152]
我々は,HFC-MFFD (hierarchical Forgery for Multi-modality Face Forgery Detection) を提案する。
HFC-MFFDは、マルチモーダルシナリオにおけるフォージェリー認証を強化するために、堅牢なパッチベースのハイブリッド表現を学習する。
クラス不均衡問題を緩和し、さらに検出性能を高めるために、特定の階層的な顔偽造を提案する。
論文 参考訳(メタデータ) (2022-12-30T10:54:29Z) - MlTr: Multi-label Classification with Transformer [35.14232810099418]
本稿では,ウィンドウ分割,インウインドウ,クロスウインドウといった特徴を持つマルチラベルトランスフォーマーアーキテクチャを提案する。
提案したMlTrは,MS-COCO, Pascal-VOC, NUS-WIDEなど,多言語多言語データセットの最先端結果を示す。
論文 参考訳(メタデータ) (2021-06-11T06:53:09Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。