論文の概要: Similarity-based fuzzy clustering scientific articles: potentials and challenges from mathematical and computational perspectives
- arxiv url: http://arxiv.org/abs/2506.04045v1
- Date: Wed, 04 Jun 2025 15:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.407114
- Title: Similarity-based fuzzy clustering scientific articles: potentials and challenges from mathematical and computational perspectives
- Title(参考訳): 類似性に基づくファジィクラスタリング科学論文:数学的・計算的視点からの可能性と課題
- Authors: Vu Thi Huong, Ida Litzel, Thorsten Koch,
- Abstract要約: ファジィクラスタリングは出版データを解析する上で重要な役割を果たす。
この問題は制約付き最適化モデルとして定式化することができ、このモデルの目的は、データから観測される類似性と予測された分布から導かれる類似性との差を最小限にすることである。
我々は、数学的および計算的視点からアプローチの可能性と課題を分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fuzzy clustering, which allows an article to belong to multiple clusters with soft membership degrees, plays a vital role in analyzing publication data. This problem can be formulated as a constrained optimization model, where the goal is to minimize the discrepancy between the similarity observed from data and the similarity derived from a predicted distribution. While this approach benefits from leveraging state-of-the-art optimization algorithms, tailoring them to work with real, massive databases like OpenAlex or Web of Science - containing about 70 million articles and a billion citations - poses significant challenges. We analyze potentials and challenges of the approach from both mathematical and computational perspectives. Among other things, second-order optimality conditions are established, providing new theoretical insights, and practical solution methods are proposed by exploiting the structure of the problem. Specifically, we accelerate the gradient projection method using GPU-based parallel computing to efficiently handle large-scale data.
- Abstract(参考訳): ファジィクラスタリング(ファジィクラスタリング)は、論文を複数のクラスタに分類し、出版データを解析する上で重要な役割を果たす。
この問題は制約付き最適化モデルとして定式化することができ、このモデルの目的は、データから観測される類似性と予測された分布から導かれる類似性との差を最小限にすることである。
このアプローチは最先端の最適化アルゴリズムを活用することの恩恵を受ける一方で、OpenAlexやWeb of Science(約7000万記事と10億件の引用を含む)のような実際の大規模データベースを扱うように調整することで、大きな課題が生じる。
我々は、数学的および計算的視点からアプローチの可能性と課題を分析する。
中でも, 2次最適性条件が確立され, 新たな理論的洞察が得られ, 問題構造を利用した実用的な解法が提案されている。
具体的には、GPUベースの並列計算を用いて勾配予測法を高速化し、大規模データを効率的に処理する。
関連論文リスト
- Accelerated Methods with Compressed Communications for Distributed Optimization Problems under Data Similarity [55.03958223190181]
本稿では,データ類似性の下での非バイアス圧縮とバイアス圧縮を利用した,理論上初めての高速化アルゴリズムを提案する。
我々の結果は、異なる平均損失とデータセットに関する実験によって記録され、確認されています。
論文 参考訳(メタデータ) (2024-12-21T00:40:58Z) - Distributed Linear Regression with Compositional Covariates [5.085889377571319]
大規模合成データにおける分散スパースペナル化線形ログコントラストモデルに着目する。
2つの異なる制約凸最適化問題を解くために2つの分散最適化手法を提案する。
分散化されたトポロジでは、通信効率の高い正規化推定値を得るための分散座標ワイド降下アルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-21T11:09:37Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - On the Effects of Data Heterogeneity on the Convergence Rates of Distributed Linear System Solvers [9.248526557884498]
本稿では,タスクマスターと機械の集合によって分散的あるいは連合的に線形方程式の大規模系を解く問題を考察する。
我々は、この問題を解決するためによく知られたアルゴリズムの2つのクラス、すなわち射影法と最適化法を比較した。
論文 参考訳(メタデータ) (2023-04-20T20:48:00Z) - Deep Equilibrium Assisted Block Sparse Coding of Inter-dependent
Signals: Application to Hyperspectral Imaging [71.57324258813675]
相互依存信号のデータセットは、列が強い依存を示す行列として定義される。
ニューラルネットワークは、事前に構造として機能し、基礎となる信号相互依存性を明らかにするために使用される。
ディープ・アンローリングとディープ・平衡に基づくアルゴリズムが開発され、高度に解釈可能で簡潔なディープ・ラーニング・ベース・アーキテクチャを形成する。
論文 参考訳(メタデータ) (2022-03-29T21:00:39Z) - ExClus: Explainable Clustering on Low-dimensional Data Representations [9.496898312608307]
次元の減少とクラスタリング技術は複雑なデータセットの分析に頻繁に使用されるが、それらの結果は容易には解釈できないことが多い。
本研究では, 直接解釈できない散乱プロット上で, クラスタ構造を解釈する際のユーザ支援について検討する。
本稿では,解釈可能なクラスタリングを自動的に計算する新しい手法を提案し,その説明は元の高次元空間にあり,クラスタリングは低次元射影においてコヒーレントである。
論文 参考訳(メタデータ) (2021-11-04T21:24:01Z) - A Field Guide to Federated Optimization [161.3779046812383]
フェデレートされた学習と分析は、分散化されたデータからモデル(あるいは統計)を協調的に学習するための分散アプローチである。
本稿では、フェデレート最適化アルゴリズムの定式化、設計、評価、分析に関する勧告とガイドラインを提供する。
論文 参考訳(メタデータ) (2021-07-14T18:09:08Z) - Harnessing Heterogeneity: Learning from Decomposed Feedback in Bayesian
Modeling [68.69431580852535]
サブグループフィードバックを取り入れた新しいGPレグレッションを導入する。
我々の修正された回帰は、以前のアプローチと比べて、明らかにばらつきを減らし、したがってより正確な後続を減らした。
我々は2つの異なる社会問題に対してアルゴリズムを実行する。
論文 参考訳(メタデータ) (2021-07-07T03:57:22Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。