論文の概要: Tripod: Three Complementary Inductive Biases for Disentangled Representation Learning
- arxiv url: http://arxiv.org/abs/2404.10282v2
- Date: Fri, 24 May 2024 20:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 05:57:17.664413
- Title: Tripod: Three Complementary Inductive Biases for Disentangled Representation Learning
- Title(参考訳): Tripod: 絡み合った表現学習のための3つの相補的帰納的ビアーゼ
- Authors: Kyle Hsu, Jubayer Ibn Hamid, Kaylee Burns, Chelsea Finn, Jiajun Wu,
- Abstract要約: 本研究では,文献から選択した3つの帰納バイアスを持つニューラルネットワークオートエンコーダを提案する。
しかし、実際には、これらの帰納バイアスをインスタンス化する既存の技術を組み合わせることは、大きな利益をもたらすことに失敗する。
学習問題を単純化する3つの手法に適応し、不変性を安定化する鍵正則化項とクォーシュ縮退インセンティブを提案する。
結果のモデルであるTripodは、4つのイメージアンタングルメントベンチマークのスイートで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 52.70210390424605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inductive biases are crucial in disentangled representation learning for narrowing down an underspecified solution set. In this work, we consider endowing a neural network autoencoder with three select inductive biases from the literature: data compression into a grid-like latent space via quantization, collective independence amongst latents, and minimal functional influence of any latent on how other latents determine data generation. In principle, these inductive biases are deeply complementary: they most directly specify properties of the latent space, encoder, and decoder, respectively. In practice, however, naively combining existing techniques instantiating these inductive biases fails to yield significant benefits. To address this, we propose adaptations to the three techniques that simplify the learning problem, equip key regularization terms with stabilizing invariances, and quash degenerate incentives. The resulting model, Tripod, achieves state-of-the-art results on a suite of four image disentanglement benchmarks. We also verify that Tripod significantly improves upon its naive incarnation and that all three of its "legs" are necessary for best performance.
- Abstract(参考訳): 帰納バイアスは、未特定解集合を狭めるために、非絡み合い表現学習において重要である。
本研究では、量子化によるグリッドのような潜伏空間へのデータ圧縮、潜伏者間の集団独立、他の潜伏者によるデータ生成の決定方法に対する潜伏者の機能的影響の最小化という、3つの選択的帰納バイアスを持つニューラルネットワークオートエンコーダを提案する。
原則として、これらの帰納バイアスは深い相補的であり、最も直接的に潜在空間、エンコーダ、デコーダの特性を規定する。
しかし、実際には、これらの帰納バイアスをインスタンス化する既存の技術を組み合わせることは、大きな利益をもたらすことに失敗する。
そこで本研究では,学習問題を単純化する3つの手法を適応し,不変性を安定化した鍵正規化項を付与し,インセンティブをクアシュデジェネレーションする手法を提案する。
結果のモデルであるTripodは、4つのイメージアンタングルメントベンチマークのスイートで最先端の結果を得る。
また、Tripodはその単純さによって大幅に改善され、最高のパフォーマンスには3つの"レッグ"がすべて必要であることも確認しています。
関連論文リスト
- Cocoon: Robust Multi-Modal Perception with Uncertainty-Aware Sensor Fusion [26.979291099052194]
オブジェクトレベルの不確実性を認識した融合フレームワークであるCocoonを紹介します。
鍵となる革新は不均一表現に対する不確実な定量化である。
Cocoonは、通常の条件と挑戦条件の両方において、既存の静的および適応的な手法より一貫して優れている。
論文 参考訳(メタデータ) (2024-10-16T14:10:53Z) - Multi-threshold Deep Metric Learning for Facial Expression Recognition [60.26967776920412]
本稿では,難易度検証を回避する多閾値深度学習手法を提案する。
その結果,三重項損失のそれぞれの閾値は本質的にクラス間変動の特異な分布を決定することがわかった。
埋め込み層はスライスで構成されており、より情報的で差別的な特徴である。
論文 参考訳(メタデータ) (2024-06-24T08:27:31Z) - Steering Language Generation: Harnessing Contrastive Expert Guidance and
Negative Prompting for Coherent and Diverse Synthetic Data Generation [0.0]
大規模言語モデル(LLM)は、高品質で実用性の高い合成データを生成する大きな可能性を秘めている。
本稿では,細調整された言語モデルと基本言語モデルのロジット分布の違いを強調する,対照的な専門家指導を紹介する。
STEER: Embedding Repositioningによるセマンティックテキストの強化。
論文 参考訳(メタデータ) (2023-08-15T08:49:14Z) - Expressive Monotonic Neural Networks [1.0128808054306184]
ニューラルネットワークの出力のいくつかの入力に対する単調な依存は、ドメイン知識がそのような振る舞いを規定する多くのシナリオにおいて決定的な帰納的バイアスである。
入力の任意の部分集合における正確な単調依存を実現するために, 単一の残差接続を持つ重み制約アーキテクチャを提案する。
このアルゴリズムが、競争性能を達成するための強力で堅牢で解釈可能な識別器の訓練にどのように使われているかを示す。
論文 参考訳(メタデータ) (2023-07-14T17:59:53Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Improving Neural Additive Models with Bayesian Principles [54.29602161803093]
ニューラル加算モデル(NAM)は、個別の加算サブネットワークでキャリブレーションされた入力特徴を扱うことにより、ディープニューラルネットワークの透明性を高める。
本研究では,Laplace-approximated NAM (LA-NAMs) を開発した。
論文 参考訳(メタデータ) (2023-05-26T13:19:15Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Are Negative Samples Necessary in Entity Alignment? An Approach with
High Performance, Scalability and Robustness [26.04006507181558]
本稿では,高パフォーマンス,高スケーラビリティ,高ロバスト性を実現する3つの新しいコンポーネントを持つ新しいEA手法を提案する。
提案手法の有効性と有効性を検討するために,いくつかの公開データセットについて詳細な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T15:20:41Z) - LIME: Learning Inductive Bias for Primitives of Mathematical Reasoning [30.610670366488943]
データセットに誘導バイアスを符号化することでアーキテクチャ工学を置き換える。
推論、帰納、帰納は推論プリミティブの既約集合を形成するというパースの見解に触発され、これらの3つの能力を持つためにモデルを必要とする3つの合成タスクを設計する。
LIMEで訓練されたモデルは、3つの非常に異なる大きな数学的推論ベンチマークでバニラトランスを大幅に上回る。
論文 参考訳(メタデータ) (2021-01-15T17:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。