論文の概要: MonoCon: A general framework for learning ultra-compact high-fidelity representations using monotonicity constraints
- arxiv url: http://arxiv.org/abs/2509.22931v1
- Date: Fri, 26 Sep 2025 20:54:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.942326
- Title: MonoCon: A general framework for learning ultra-compact high-fidelity representations using monotonicity constraints
- Title(参考訳): MonoCon: モノトニック性制約を用いた超コンパクトな高忠実度表現学習のための一般的なフレームワーク
- Authors: Shreyas Gokhale,
- Abstract要約: 我々は、任意のトレーニング済みエンコーダに取り付けられた小さな単調多層パーセプトロン(MLP)ヘッドを使用する単純なフレームワークであるMonoConを提案する。
MonoConは、事実上無視可能なパフォーマンスコストで、堅牢で、ゆがみがあり、非常にコンパクトな埋め込みを学ぶ。
SNLI文類似性タスクにおいて, STSbスコアの限界縮小のために, 3.4倍のコンパクト化と1.4倍の頑健な表現を報告した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning high-quality, robust, efficient, and disentangled representations is a central challenge in artificial intelligence (AI). Deep metric learning frameworks tackle this challenge primarily using architectural and optimization constraints. Here, we introduce a third approach that instead relies on $\textit{functional}$ constraints. Specifically, we present MonoCon, a simple framework that uses a small monotonic multi-layer perceptron (MLP) head attached to any pre-trained encoder. Due to co-adaptation between encoder and head guided by contrastive loss and monotonicity constraints, MonoCon learns robust, disentangled, and highly compact embeddings at a practically negligible performance cost. On the CIFAR-100 image classification task, MonoCon yields representations that are nearly 9x more compact and 1.5x more robust than the fine-tuned encoder baseline, while retaining 99\% of the baseline's 5-NN classification accuracy. We also report a 3.4x more compact and 1.4x more robust representation on an SNLI sentence similarity task for a marginal reduction in the STSb score, establishing MonoCon as a general domain-agnostic framework. Crucially, these robust, ultra-compact representations learned via functional constraints offer a unified solution to critical challenges in disparate contexts ranging from edge computing to cloud-scale retrieval.
- Abstract(参考訳): 高品質で堅牢で、効率的で、絡み合った表現を学ぶことは、人工知能(AI)における中心的な課題である。
ディープラーニングフレームワークは、主にアーキテクチャと最適化の制約を使用して、この問題に対処する。
ここでは、代わりに$\textit{functional}$の制約に依存する第3のアプローチを紹介します。
具体的には、任意のトレーニング済みエンコーダにアタッチされた小さな単調多層パーセプトロン(MLP)ヘッドを使用する単純なフレームワークであるMonoConを紹介する。
対照的な損失と単調性の制約によって導かれるエンコーダとヘッドの共適応により、MonoConは、事実上無視できるパフォーマンスコストで、堅牢で、アンタングルで、非常にコンパクトな埋め込みを学ぶ。
CIFAR-100の画像分類タスクでは、MonoConは、細調整されたエンコーダベースラインよりも9倍近くコンパクトで1.5倍堅牢な表現を出力し、ベースラインの5-NN分類精度の99%を維持している。
また, SNLI文類似性タスクにおける3.4倍のコンパクト化と1.4倍の頑健な表現を, STSbスコアの限界低減のために報告し, 一般のドメインに依存しないフレームワークとしてMonoConを確立した。
重要なことに、これらの堅牢で超コンパクトな表現は、エッジコンピューティングからクラウドスケールの検索まで、異なるコンテキストにおける重要な課題に対する統一された解決策を提供する。
関連論文リスト
- CURA: Size Isnt All You Need - A Compact Universal Architecture for On-Device Intelligence [0.6244816393907943]
本稿では,多様な機械学習タスクに対して,コンパクトで軽量なソリューションを提供するアーキテクチャCURAを提案する。
コンパクト化のためには、ベースラインモデルに比べて最大2500倍のパラメータで等価な精度を実現した。
一般化のために、4つのNLPベンチマークと1つのコンピュータビジョンデータセットで一貫した性能を示した。
論文 参考訳(メタデータ) (2025-09-29T11:06:37Z) - MonoVQD: Monocular 3D Object Detection with Variational Query Denoising and Self-Distillation [0.6144680854063939]
我々は,DETRに基づくモノクル3D検出を高速化する新しいフレームワークであるMonoVQDを紹介する。
Mask Separated Self-Attentionメカニズムにより、DeTRアーキテクチャへのデノナイズプロセスの統合が可能になる。
本稿では,従来のデノナイズ手法の消滅問題に対処するために,変分クエリ・デノナイズ手法を提案する。
厳密な実験により、MonoVQDは挑戦的なKITTI単分子ベンチマークよりも優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-06-14T14:49:12Z) - Syzygy of Thoughts: Improving LLM CoT with the Minimal Free Resolution [59.39066657300045]
CoT(Chain-of-Thought)は、問題を逐次ステップに分解することで、大きな言語モデル(LLM)の推論を促進する。
思考のシジー(Syzygy of Thoughts, SoT)は,CoTを補助的,相互関連的な推論経路を導入して拡張する新しいフレームワークである。
SoTはより深い論理的依存関係をキャプチャし、より堅牢で構造化された問題解決を可能にする。
論文 参考訳(メタデータ) (2025-04-13T13:35:41Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - MonoKAN: Certified Monotonic Kolmogorov-Arnold Network [48.623199394622546]
特定のアプリケーションでは、モデル予測は専門家が提案した要件と一致し、時には部分的な単調性制約によって例示されなければならない。
我々は,kanアーキテクチャに基づく新しいANNアーキテクチャMonoKANを導入し,解釈性を高めつつ,認証された部分的単調性を実現する。
実験の結果,MonoKANは解釈可能性を高めるだけでなく,ほとんどのベンチマークにおける予測性能も向上し,最先端のモノトニックアプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-09-17T11:10:59Z) - Implicit Grid Convolution for Multi-Scale Image Super-Resolution [6.8410780175245165]
我々は,Implicit Grid Convolution(IGConv)と連携して,単一エンコーダを用いたマルチスケールフレームワークを提案する。
本フレームワークは,既存の固定スケール手法に匹敵する性能を達成しつつ,トレーニング予算を削減し,パラメータを3倍に抑える。
論文 参考訳(メタデータ) (2024-08-19T03:30:15Z) - ContextGS: Compact 3D Gaussian Splatting with Anchor Level Context Model [77.71796503321632]
我々は3DGS表現のアンカーレベルにコンテキストモデルを導入し,バニラ3DGSと比較して100倍以上のサイズの縮小を実現した。
我々の研究は3DGS表現のためのアンカーレベルのコンテキストモデルを開拓し、バニラ3DGSに比べて100倍以上、そして最新の最先端のScaffold-GSに比べて15倍の大幅なサイズ縮小を実現した。
論文 参考訳(メタデータ) (2024-05-31T09:23:39Z) - MonoOcc: Digging into Monocular Semantic Occupancy Prediction [20.833710016477653]
単眼セマンティック占領予測は2次元画像のみからシーンの完全な3次元形状と意味情報を推測することを目的としている。
既存の手法は、3Dシーンを復元するために、比較的限られた情報しか持たない複雑なカスケードフレームワークに依存している。
本手法は,SemanticKITTI Scene Completionベンチマークを用いて,最先端の性能を示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:04Z) - Towards Practical Control of Singular Values of Convolutional Layers [65.25070864775793]
畳み込みニューラルネットワーク(CNN)の訓練は容易であるが、一般化誤差や対向ロバスト性といった基本的な特性は制御が難しい。
最近の研究では、畳み込み層の特異値がそのような解像特性に顕著に影響を及ぼすことが示された。
我々は,レイヤ表現力の著しく低下を犠牲にして,先行技術の制約を緩和するための原則的アプローチを提供する。
論文 参考訳(メタデータ) (2022-11-24T19:09:44Z) - The Curious Case of Convex Neural Networks [12.56278477726461]
完全連結層と畳み込み層の両方に凸性制約を適用可能であることを示す。
a) IOC-NN(Input Output Convex Neural Networks)の自己正規化とオーバーフィッティング(オーバーフィッティング)の問題の低減; (b) 厳しい制約にもかかわらず、ベースマルチレイヤのパーセプトロンを上回り、ベースコンボリューションアーキテクチャと比較して同様のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-06-09T08:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。