論文の概要: Statistical Mechanics of Semantic Compression
- arxiv url: http://arxiv.org/abs/2503.00612v1
- Date: Sat, 01 Mar 2025 20:38:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:15:45.728348
- Title: Statistical Mechanics of Semantic Compression
- Title(参考訳): セマンティック圧縮の統計力学
- Authors: Tankut Can,
- Abstract要約: 我々は,認知神経科学と機械学習からインスピレーションを得て,連続ユークリッドベクトル空間としてのセマンティック空間をモデル化する。
我々は、最小長の意味保存メッセージを決定する最適化問題をスピングラスハミルトニアンにマップする。
最悪な場合、意味保存圧縮を見つける問題は計算的に難しいが、ほぼ最適な性能を実現する効率的なアルゴリズムが存在すると論じる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The basic problem of semantic compression is to minimize the length of a message while preserving its meaning. This differs from classical notions of compression in that the distortion is not measured directly at the level of bits, but rather in an abstract semantic space. In order to make this precise, we take inspiration from cognitive neuroscience and machine learning and model semantic space as a continuous Euclidean vector space. In such a space, stimuli like speech, images, or even ideas, are mapped to high-dimensional real vectors, and the location of these embeddings determines their meaning relative to other embeddings. This suggests that a natural metric for semantic similarity is just the Euclidean distance, which is what we use in this work. We map the optimization problem of determining the minimal-length, meaning-preserving message to a spin glass Hamiltonian and solve the resulting statistical mechanics problem using replica theory. We map out the replica symmetric phase diagram, identifying distinct phases of semantic compression: a first-order transition occurs between lossy and lossless compression, whereas a continuous crossover is seen from extractive to abstractive compression. We conclude by showing numerical simulations of compressions obtained by simulated annealing and greedy algorithms, and argue that while the problem of finding a meaning-preserving compression is computationally hard in the worst case, there exist efficient algorithms which achieve near optimal performance in the typical case.
- Abstract(参考訳): 意味圧縮の基本的な問題は、意味を保ちながらメッセージの長さを最小化することである。
これは、歪みがビットのレベルで直接測定されるのではなく、抽象的な意味空間で測定されるという古典的な圧縮の概念とは異なる。
これを正確にするために、認知神経科学と機械学習からインスピレーションを得て、連続ユークリッドベクトル空間としてのセマンティック空間をモデル化する。
このような空間において、音声、画像、あるいはアイデアのような刺激は高次元の実ベクトルにマッピングされ、これらの埋め込みの位置は他の埋め込みと比較してそれらの意味を決定する。
これは、意味的類似性の自然な計量が単にユークリッド距離であることを示している。
最小長保存メッセージを決定する最適化問題をスピングラスハミルトニアンに写像し、レプリカ理論を用いて結果の統計力学問題を解く。
一階の遷移は損失のある圧縮と損失のない圧縮の間に起こるが、連続的な交叉は抽出的圧縮から抽象的圧縮へ現れる。
シミュレーションによって得られた圧縮の数値シミュレーションを検証し, まず, 保存する圧縮の計算が困難であるにもかかわらず, 典型的な場合において, ほぼ最適性能を達成できる効率的なアルゴリズムが存在することを論じる。
関連論文リスト
- Problem-dependent convergence bounds for randomized linear gradient compression [4.656302602746228]
分散最適化では、通信モデルの更新がパフォーマンスのボトルネックになる可能性がある。
最適化向上の手段として勾配圧縮法が提案されている。
我々は, 圧縮がスループットに与える影響を, ヘッセン目標のノルムの観点から検討する。
論文 参考訳(メタデータ) (2024-11-19T22:26:42Z) - Differential error feedback for communication-efficient decentralized learning [48.924131251745266]
本稿では,差分量子化と誤りフィードバックをブレンドする分散通信効率学習手法を提案する。
その結果,平均二乗誤差と平均ビットレートの両面において通信効率が安定であることが示唆された。
その結果、小さなステップサイズで有限ビットの場合には、圧縮がない場合に達成可能な性能が得られることが判明した。
論文 参考訳(メタデータ) (2024-06-26T15:11:26Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - Crossword: A Semantic Approach to Data Compression via Masking [38.107509264270924]
本研究は、英語のテキストに注意を払って、その意味的側面を活用して、圧縮効率をさらに高めている。
提案したマスキングベースの戦略は上記のゲームに類似している。
簡単に言えば、エンコーダは意味的損失に応じて各単語の意味的重要性を評価し、その後、マイナーな単語をマスキングし、デコーダは意味的文脈から意味的文脈でマスクされた単語を復元する。
論文 参考訳(メタデータ) (2023-04-03T16:04:06Z) - Lower Bounds and Nearly Optimal Algorithms in Distributed Learning with
Communication Compression [33.217552987061474]
通信圧縮は、通信を減らす最も効果的な方法の1つである。
分散最適化と学習の最近の進歩は、通信圧縮が通信を減らす最も効果的な方法の1つであることを示している。
論文 参考訳(メタデータ) (2022-06-08T03:36:34Z) - Unified Multivariate Gaussian Mixture for Efficient Neural Image
Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。
ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。
当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文 参考訳(メタデータ) (2022-03-21T11:44:17Z) - Partition and Code: learning how to compress graphs [50.29024357495154]
まず、分割アルゴリズムがグラフを基本構造に分解し、これらを確率分布を学習する小さな辞書の要素にマッピングし、エントロピーエンコーダが表現をビットに変換する。
提案アルゴリズムは,非パラメトリックおよびパラメトリックグラフ圧縮器の異なるファミリーに対して,多種多様な実世界のネットワーク上で定量的に評価し,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-07-05T11:41:16Z) - Permute, Quantize, and Fine-tune: Efficient Compression of Neural
Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。
本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。
次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文 参考訳(メタデータ) (2020-10-29T15:47:26Z) - Linear Convergent Decentralized Optimization with Compression [50.44269451541387]
圧縮を伴う既存の分散アルゴリズムは主にDGD型アルゴリズムの圧縮に焦点を当てている。
原始双対アルゴリズムによって動機付けられた本論文は、最初のアンダーラインLinunderlineEAr収束を提案する。
underline Decentralized with compression, LEAD。
論文 参考訳(メタデータ) (2020-07-01T04:35:00Z) - Uncertainty Principle for Communication Compression in Distributed and
Federated Learning and the Search for an Optimal Compressor [5.09755285351264]
我々は,ベクトルのカシン表現にインスパイアされた非バイアス圧縮法を考察し,これをエムカシン圧縮(KC)と呼ぶ。
KC は、各ベクトルエントリごとに数ビットしか通信する必要のない状態であっても、明示的な公式を導出するエム次元独立分散境界を享受する。
論文 参考訳(メタデータ) (2020-02-20T17:20:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。