論文の概要: On-the-Fly Rectification for Robust Large-Vocabulary Topic Inference
- arxiv url: http://arxiv.org/abs/2111.06580v1
- Date: Fri, 12 Nov 2021 06:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 13:03:14.275462
- Title: On-the-Fly Rectification for Robust Large-Vocabulary Topic Inference
- Title(参考訳): ロバスト大語彙トピック推論のためのオンザフライ整形
- Authors: Moontae Lee, Sungjun Cho, Kun Dong, David Mimno, David Bindel
- Abstract要約: オブジェクト語彙が大きくなるにつれて、共起統計に基づく推論アルゴリズムの保存と実行がより高価になる。
本稿では,共起統計を同時に圧縮・修正する新しい手法を提案する。
また、圧縮された統計量から潜伏変数を学習し、テキストデータと非テキストデータの両方において従来の手法と相容れない性能を検証した。
- 参考スコア(独自算出の注目度): 14.664456948527292
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Across many data domains, co-occurrence statistics about the joint appearance
of objects are powerfully informative. By transforming unsupervised learning
problems into decompositions of co-occurrence statistics, spectral algorithms
provide transparent and efficient algorithms for posterior inference such as
latent topic analysis and community detection. As object vocabularies grow,
however, it becomes rapidly more expensive to store and run inference
algorithms on co-occurrence statistics. Rectifying co-occurrence, the key
process to uphold model assumptions, becomes increasingly more vital in the
presence of rare terms, but current techniques cannot scale to large
vocabularies. We propose novel methods that simultaneously compress and rectify
co-occurrence statistics, scaling gracefully with the size of vocabulary and
the dimension of latent space. We also present new algorithms learning latent
variables from the compressed statistics, and verify that our methods perform
comparably to previous approaches on both textual and non-textual data.
- Abstract(参考訳): 多くのデータ領域において、オブジェクトの結合外観に関する共起統計は強力に情報的である。
教師なし学習問題を共起統計の分解に変換することで、スペクトルアルゴリズムは潜在トピック分析やコミュニティ検出のような後進推論のための透明で効率的なアルゴリズムを提供する。
しかし、オブジェクト語彙が大きくなるにつれて、共起統計に基づく推論アルゴリズムの保存と実行が急速に高価になる。
モデル仮定を裏付ける重要なプロセスである再帰的共起は、希少な用語の存在下でますます重要になっているが、現在の技術は大きな語彙にスケールできない。
本稿では,語彙の大きさと潜在空間の次元に優雅にスケールし,共起統計を同時に圧縮・修正する手法を提案する。
また, 圧縮統計から潜在変数を学習する新しいアルゴリズムを提案し, 従来のテキストデータと非テキストデータの両方において, 提案手法が両立することを確認した。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - Accelerated Stochastic ExtraGradient: Mixing Hessian and Gradient Similarity to Reduce Communication in Distributed and Federated Learning [50.382793324572845]
分散コンピューティングはデバイス間の通信を伴うため、効率性とプライバシという2つの重要な問題を解決する必要がある。
本稿では,データ類似性とクライアントサンプリングのアイデアを取り入れた新しい手法について分析する。
プライバシー問題に対処するために,付加雑音の手法を適用し,提案手法の収束への影響を解析する。
論文 参考訳(メタデータ) (2024-09-22T00:49:10Z) - High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Byzantine-Resilient Federated Learning at Edge [20.742023657098525]
重み付きデータを処理できるビザンチン耐性降下アルゴリズムを提案する。
また,学習過程におけるコストを考慮したアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-18T15:14:16Z) - Parsimonious Inference [0.0]
parsimonious inferenceは任意のアーキテクチャ上の推論の情報理論的な定式化である。
提案手法は,効率的な符号化と巧妙なサンプリング戦略を組み合わせて,クロスバリデーションを伴わない予測アンサンブルを構築する。
論文 参考訳(メタデータ) (2021-03-03T04:13:14Z) - Context Decoupling Augmentation for Weakly Supervised Semantic
Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。
本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。
提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文 参考訳(メタデータ) (2021-03-02T15:05:09Z) - Progressive Batching for Efficient Non-linear Least Squares [31.082253632197023]
ガウス・ニュートンの基本的な改良のほとんどは、基礎となる問題構造の空間性を保証するか、あるいは活用して計算速度を上げることである。
我々の研究は、機械学習と統計の両方からアイデアを借用し、収束を保証するとともに、必要な計算量を大幅に削減する非線形最小二乗に対するアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-21T13:00:04Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z) - Statistically Guided Divide-and-Conquer for Sparse Factorization of
Large Matrix [2.345015036605934]
統計的問題をスパース係数回帰として定式化し、分割コンカレントアプローチでそれに取り組む。
第1段階分割では、タスクを1組の同時並列推定(CURE)問題に単純化するための2つの潜時並列アプローチについて検討する。
第2段階分割では、CUREの全解を効率的に追跡するために、一連の単純な増分経路からなる段階学習手法を革新する。
論文 参考訳(メタデータ) (2020-03-17T19:12:21Z) - Distributed Learning in the Non-Convex World: From Batch to Streaming
Data, and Beyond [73.03743482037378]
分散学習は、多くの人々が想定する、大規模に接続された世界の重要な方向となっている。
本稿では、スケーラブルな分散処理とリアルタイムデータ計算の4つの重要な要素について論じる。
実践的な問題や今後の研究についても論じる。
論文 参考訳(メタデータ) (2020-01-14T14:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。