論文の概要: Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta
- arxiv url: http://arxiv.org/abs/2603.02181v1
- Date: Mon, 02 Mar 2026 18:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.037378
- Title: Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta
- Title(参考訳): メコンデルタから無形文化遺産を分類するモデル
- Authors: Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham,
- Abstract要約: メコンデルタにおける無形文化財(ICH)の分類は、ユニークな課題である。
本稿では,ハイブリッドなCoAtNetアーキテクチャをモデルスープに統合する堅牢なフレームワークを提案する。
提案手法は,72.36%のTop-1精度と69.28%のマクロF1スコアを達成し,高いベースラインを達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The classification of Intangible Cultural Heritage (ICH) images in the Mekong Delta poses unique challenges due to limited annotated data, high visual similarity among classes, and domain heterogeneity. In such low-resource settings, conventional deep learning models often suffer from high variance or overfit to spurious correlations, leading to poor generalization. To address these limitations, we propose a robust framework that integrates the hybrid CoAtNet architecture with model soups, a lightweight weight-space ensembling technique that averages checkpoints from a single training trajectory without increasing inference cost. CoAtNet captures both local and global patterns through stage-wise fusion of convolution and self-attention. We apply two ensembling strategies - greedy and uniform soup - to selectively combine diverse checkpoints into a final model. Beyond performance improvements, we analyze the ensembling effect through the lens of bias-variance decomposition. Our findings show that model soups reduces variance by stabilizing predictions across diverse model snapshots, while introducing minimal additional bias. Furthermore, using cross-entropy-based distance metrics and Multidimensional Scaling (MDS), we show that model soups selects geometrically diverse checkpoints, unlike Soft Voting, which blends redundant models centered in output space. Evaluated on the ICH-17 dataset (7,406 images across 17 classes), our approach achieves state-of-the-art results with 72.36% top-1 accuracy and 69.28% macro F1-score, outperforming strong baselines including ResNet-50, DenseNet-121, and ViT. These results underscore that diversity-aware checkpoint averaging provides a principled and efficient way to reduce variance and enhance generalization in culturally rich, data-scarce classification tasks.
- Abstract(参考訳): メコンデルタの無形文化遺産(ICH)の分類は、注釈付きデータ、クラス間の視覚的類似度、ドメインの不均一性などにより、ユニークな課題を生んでいる。
このような低リソース環境では、従来のディープラーニングモデルは高分散や過度な相関に苦しむことが多く、一般化が不十分になる。
このような制約に対処するため,モデルスープとハイブリッドCoAtNetアーキテクチャを統合したロバストなフレームワークを提案する。
CoAtNetは、畳み込みと自己注意の段階的な融合を通じて、ローカルパターンとグローバルパターンの両方をキャプチャする。
さまざまなチェックポイントを最終モデルに選択的に組み合わせるために、グリージーと均一スープという2つのアンサンブル戦略を適用します。
性能改善の他に,偏差分解レンズによるアンサンブル効果の解析を行った。
以上の結果から,モデルスープは様々なモデルスナップショット間での予測を安定化し,最小限のバイアスを伴って分散を低減することが示唆された。
さらに,クロスエントロピーに基づく距離測定と多次元スケーリング(MDS)を用いて,モデルスープが出力空間を中心とする冗長モデルをブレンドするソフトボイティングとは異なり,幾何学的に多様なチェックポイントを選択することを示す。
ICH-17データセット(17のクラスで7,406イメージ)に基づいて評価し、72.36%のTop-1精度と69.28%のマクロF1スコアで、ResNet-50、DenseNet-121、ViTなどの強力なベースラインを上回った。
これらの結果は、多様性を意識したチェックポイント平均化が、文化的に豊かなデータスカース分類タスクにおいて、分散を減らし、一般化を促進するための原則的かつ効率的な方法であることを示している。
関連論文リスト
- ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation [34.173549610331385]
モデルマージは、複数のタスク固有のエキスパートモデルと1つのモデルを組み合わせることを目的としている。
専門家間の干渉、特に異なる目的でトレーニングされた場合、しばしばパフォーマンスが著しく低下する。
acemは、タスク間干渉を効果的に緩和する適応的共分散推定フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T12:53:04Z) - When Are Two Scores Better Than One? Investigating Ensembles of Diffusion Models [22.019987128734282]
スコアのアンサンブルは、一般的にスコアマッチング損失とモデル可能性を改善するが、画像データセット上のFIDのような知覚品質指標を一貫して強化することができない。
また,楽譜モデルの要約に関する理論的知見も提供し,アンサンブルだけでなく,いくつかのモデル構成技術にも光を当てた。
論文 参考訳(メタデータ) (2026-01-16T17:07:25Z) - MS-ISSM: Objective Quality Assessment of Point Clouds Using Multi-scale Implicit Structural Similarity [65.85858856481131]
点雲の非構造的で不規則な性質は、客観的品質評価(PCQA)に重大な課題をもたらす
マルチスケールインシシシット構造類似度測定(MS-ISSM)を提案する。
論文 参考訳(メタデータ) (2026-01-03T14:58:52Z) - Trade-offs in Cross-Domain Generalization of Foundation Model Fine-Tuned for Biometric Applications [18.08946802592489]
CLIPのようなファンデーションモデルは、多様な視覚タスクにまたがる例外的なゼロショットと少数ショットの転送機能を示している。
しかし、高度に専門化された生体認証タスク、顔認識(FR)、モーフィングアタック検出(MAD)、プレゼンテーションアタック検出(PAD)は、過剰な特殊化に悩まされる可能性がある。
FR,MAD,PADに微調整されたCLIPの3つの事例を評価することで,これらのトレードオフを体系的に定量化する。
論文 参考訳(メタデータ) (2025-09-18T12:58:18Z) - Learning Majority-to-Minority Transformations with MMD and Triplet Loss for Imbalanced Classification [0.5390869741300152]
教師付き分類におけるクラス不均衡は、多数派に対する予測をバイアスすることでモデル性能を低下させることが多い。
多数サンプルをマイノリティ分布にマッピングするパラメトリック変換を学習するオーバーサンプリングフレームワークを導入する。
提案手法は,グローバルアライメントのためのトランスフォーメーションと真のマイノリティサンプル間の平均最大誤差(MMD)を最小化する。
論文 参考訳(メタデータ) (2025-09-15T01:47:29Z) - A Simple and Generalist Approach for Panoptic Segmentation [57.94892855772925]
本稿では,深部エンコーダ-浅部デコーダアーキテクチャに基づく簡易な一般化フレームワークを提案する。
これはトレーニング中の不均衡に起因することを示し、その削減のための新しい方法を提案する。
提案手法は,MS-COCOデータセット上で55.1のPQを実現する。
論文 参考訳(メタデータ) (2024-08-29T13:02:12Z) - GRIDS: Grouped Multiple-Degradation Restoration with Image Degradation Similarity [35.11349385659554]
Grouped Restoration with Image Degradation similarity (GRIDS) は、多重劣化修復に固有の競合対象を調和させる新しいアプローチである。
劣化類似性に基づいて、GRIDSは復元タスクを最適群の1つに分割する。
各グループのトレーニングモデルでは、シングルタスクの上限モデルよりも平均0.09dBの改善が見られた。
論文 参考訳(メタデータ) (2024-07-17T02:43:32Z) - SR-Stereo & DAPE: Stepwise Regression and Pre-trained Edges for Practical Stereo Matching [2.8908326904081334]
ドメインの相違を克服する新しい段階的回帰アーキテクチャを提案する。
疎基底真理で新しいドメインを適応するモデルのエッジ認識を高めるために,事前学習エッジ(DAPE)に基づくドメイン適応を提案する。
提案したSR-StereoとDAPEは,SceneFlow,KITTI,Middbury 2014,ETH3Dで広く評価されている。
論文 参考訳(メタデータ) (2024-06-11T05:25:25Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - CAMERO: Consistency Regularized Ensemble of Perturbed Language Models
with Weight Sharing [83.63107444454938]
本稿では,CAMEROと呼ばれる摂動モデルに基づく一貫性規則化アンサンブル学習手法を提案する。
具体的には、すべてのモデルで底層重みを共有し、異なるモデルの隠れ表現に異なる摂動を適用し、モデルの多様性を効果的に促進することができる。
大規模言語モデルを用いた実験により,CAMEROはアンサンブルモデルの一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-04-13T19:54:51Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。