論文の概要: Beyond Visual Similarity: Rule-Guided Multimodal Clustering with explicit domain rules
- arxiv url: http://arxiv.org/abs/2509.20501v1
- Date: Wed, 24 Sep 2025 19:23:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.56068
- Title: Beyond Visual Similarity: Rule-Guided Multimodal Clustering with explicit domain rules
- Title(参考訳): ビジュアル類似性を超えて: 明確なドメインルールを持つルールガイド型マルチモーダルクラスタリング
- Authors: Kishor Datta Gupta, Mohd Ariful Haque, Marufa Kamal, Ahmed Rafi Hasan, Md. Mahfuzur Rahman, Roy George,
- Abstract要約: 本稿では,ルールガイド型マルチモーダルクラスタリングフレームワークであるDomain Aware Rule Triggered Variational Autoencoder (DARTVAE)を紹介する。
我々は、明示的なルール、セマンティック表現、データ駆動機能を統一された潜在空間に組み込むことで、VAEアーキテクチャを拡張します。
DARTVAEは純粋にデータ駆動モデルよりも有意義で一貫したクラスタリング結果が得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional clustering techniques often rely solely on similarity in the input data, limiting their ability to capture structural or semantic constraints that are critical in many domains. We introduce the Domain Aware Rule Triggered Variational Autoencoder (DARTVAE), a rule guided multimodal clustering framework that incorporates domain specific constraints directly into the representation learning process. DARTVAE extends the VAE architecture by embedding explicit rules, semantic representations, and data driven features into a unified latent space, while enforcing constraint compliance through rule consistency and violation penalties in the loss function. Unlike conventional clustering methods that rely only on visual similarity or apply rules as post hoc filters, DARTVAE treats rules as first class learning signals. The rules are generated by LLMs, structured into knowledge graphs, and enforced through a loss function combining reconstruction, KL divergence, consistency, and violation penalties. Experiments on aircraft and automotive datasets demonstrate that rule guided clustering produces more operationally meaningful and interpretable clusters for example, isolating UAVs, unifying stealth aircraft, or separating SUVs from sedans while improving traditional clustering metrics. However, the framework faces challenges: LLM generated rules may hallucinate or conflict, excessive rules risk overfitting, and scaling to complex domains increases computational and consistency difficulties. By combining rule encodings with learned representations, DARTVAE achieves more meaningful and consistent clustering outcomes than purely data driven models, highlighting the utility of constraint guided multimodal clustering for complex, knowledge intensive settings.
- Abstract(参考訳): 従来のクラスタリング手法は入力データの類似性にのみ依存することが多く、多くのドメインで重要な構造的制約やセマンティック制約をキャプチャする能力を制限する。
本稿では,ドメイン固有の制約を直接表現学習プロセスに組み込む,ルールガイド付きマルチモーダルクラスタリングフレームワークであるDomain Aware Rule Triggered Variational Autoencoder (DARTVAE)を紹介する。
DARTVAEは、明示的なルール、セマンティック表現、データ駆動機能を統一された潜在空間に埋め込むことにより、VAEアーキテクチャを拡張し、規則の整合性を通じて制約コンプライアンスを強制し、損失関数に違反するペナルティを課す。
視覚的類似性のみに依存する従来のクラスタリング手法と異なり、DARTVAEはルールを第一級学習信号として扱う。
ルールはLLMによって生成され、知識グラフに構造化され、再構成、KLの発散、一貫性、違反の罰則を組み合わせた損失関数によって強制される。
例えば、UAVを分離したり、ステルス航空機を統一したり、セダンからSUVを分離したり、従来のクラスタリングのメトリクスを改善したりしている。
LLMの生成したルールは幻覚や矛盾を招き、過剰なルールは過度に適合し、複雑なドメインへのスケーリングは計算と一貫性の困難を増す。
ルールエンコーディングと学習された表現を組み合わせることで、DARTVAEは純粋にデータ駆動モデルよりも有意義で一貫性のあるクラスタリング結果を実現し、複雑な知識集約的な設定のための制約付きマルチモーダルクラスタリングの有用性を強調している。
関連論文リスト
- PL-CA: A Parametric Legal Case Augmentation Framework [10.998168534326709]
従来のRAGは、取得した文書を直接モデルのコンテキストに注入するのみである。
多くの既存のベンチマークには専門家のアノテーションがなく、個別の下流タスクのみに焦点を当てている。
本稿では,PL-CAを提案する。PL-CAは,コーパス知識に基づくデータ拡張を行うためのパラメトリックRAGフレームワークである。
論文 参考訳(メタデータ) (2025-09-08T06:08:06Z) - Explaining Time Series Classifiers with PHAR: Rule Extraction and Fusion from Post-hoc Attributions [7.7491252992917445]
PHARは、数値的特徴属性を構造化された可読性ルールに変換するフレームワークである。
専用ルール融合ステップは、重み付け選択やラッソベースの精錬のような戦略を用いてルールセットを統合する。
UCR/UEA時系列分類アーカイブの実験は、PHARがTS分類タスクの解釈可能性、決定透明性、実践的適用性を改善することを示した。
論文 参考訳(メタデータ) (2025-08-03T09:45:40Z) - Principled Multimodal Representation Learning [70.60542106731813]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。
既存のSHGLメソッドには2つの大きな制限がある。
ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-01T09:33:20Z) - FlowCLAS: Enhancing Normalizing Flow Via Contrastive Learning For Anomaly Segmentation [11.689335986823098]
異常セグメンテーション(英: Anomaly segmentation)は、予期せぬ事象を認識する必要がある安全クリティカルなアプリケーションにとって貴重なコンピュータビジョンタスクである。
現在の最先端の異常セグメンテーションアプローチは、トレーニング中に様々な不適切なクラスラベルに依存しており、ラベルなしおよび事前訓練された視覚エンコーダを活用する能力を制限する。
視覚基盤モデルを用いてリッチな特徴を抽出し,密度分布の学習に正規化フローネットワークを利用する,新たな自己教師型フレームワークであるFlowCLASを紹介する。
論文 参考訳(メタデータ) (2024-11-29T17:53:41Z) - RuleExplorer: A Scalable Matrix Visualization for Understanding Tree Ensemble Classifiers [20.416696003269674]
本稿では,数万のルールを含む木アンサンブル分類法を説明するために,拡張性のある視覚解析手法を提案する。
我々は,これらのルールを階層レベルで優先順位付けするための,異常バイアスモデル削減手法を開発した。
本手法は,共通ルールと異常ルールの両方を深く理解し,包括性を犠牲にすることなく解釈性を向上させる。
論文 参考訳(メタデータ) (2024-09-05T01:48:11Z) - On Regularization and Inference with Label Constraints [62.60903248392479]
機械学習パイプラインにおけるラベル制約を符号化するための2つの戦略、制約付き正規化、制約付き推論を比較した。
正規化については、制約に不整合なモデルを前置することで一般化ギャップを狭めることを示す。
制約付き推論では、モデルの違反を訂正することで人口リスクを低減し、それによってその違反を有利にすることを示す。
論文 参考訳(メタデータ) (2023-07-08T03:39:22Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z) - Rewriting a Deep Generative Model [56.91974064348137]
我々は,深層生成モデルによって符号化された特定の規則の操作という,新たな問題設定を導入する。
本稿では,ディープネットワークの層を線形連想メモリとして操作することで,所望のルールを変更する定式化を提案する。
本稿では,生成モデルのルールを対話的に変更し,望ましい効果を得られるユーザインタフェースを提案する。
論文 参考訳(メタデータ) (2020-07-30T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。