論文の概要: Measuring the Biases and Effectiveness of Content-Style Disentanglement
- arxiv url: http://arxiv.org/abs/2008.12378v4
- Date: Wed, 15 Sep 2021 19:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 08:11:52.757354
- Title: Measuring the Biases and Effectiveness of Content-Style Disentanglement
- Title(参考訳): コンテンツ型ディスタングルのバイアスと有効性の測定
- Authors: Xiao Liu, Spyridon Thermos, Gabriele Valvano, Agisilaos Chartsias,
Alison O'Neil and Sotirios A. Tsaftaris
- Abstract要約: コンテンツスタイルのゆがみ設定における異なるバイアスの役割について検討する。
絡み合い、タスクパフォーマンス、コンテンツ解釈可能性の間には"スイートスポット"があることが分かりました。
本研究は,コンテンツスタイルの表現が有用であるタスクに対して,新しいモデルの設計と選択を導くのに有用である。
- 参考スコア(独自算出の注目度): 19.116194918912573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent spate of state-of-the-art semi- and un-supervised solutions
disentangle and encode image "content" into a spatial tensor and image
appearance or "style" into a vector, to achieve good performance in spatially
equivariant tasks (e.g. image-to-image translation). To achieve this, they
employ different model design, learning objective, and data biases. While
considerable effort has been made to measure disentanglement in vector
representations, and assess its impact on task performance, such analysis for
(spatial) content - style disentanglement is lacking. In this paper, we conduct
an empirical study to investigate the role of different biases in content-style
disentanglement settings and unveil the relationship between the degree of
disentanglement and task performance. In particular, we consider the setting
where we: (i) identify key design choices and learning constraints for three
popular content-style disentanglement models; (ii) relax or remove such
constraints in an ablation fashion; and (iii) use two metrics to measure the
degree of disentanglement and assess its effect on each task performance. Our
experiments reveal that there is a "sweet spot" between disentanglement, task
performance and - surprisingly - content interpretability, suggesting that
blindly forcing for higher disentanglement can hurt model performance and
content factors semanticness. Our findings, as well as the used
task-independent metrics, can be used to guide the design and selection of new
models for tasks where content-style representations are useful.
- Abstract(参考訳): 最近の最先端の半教師なしソリューションは、画像"コンテンツ"を空間テンソルに、画像の外観または"スタイル"をベクトルに切り離し、空間的に不変なタスク(画像から画像への変換など)で優れたパフォーマンスを達成する。
これを実現するために、異なるモデル設計、学習目標、データバイアスを採用している。
ベクトル表現のゆがみを測定し、そのタスクパフォーマンスへの影響を評価するために、かなりの努力がなされているが、そのような(空間的な)コンテンツに対する分析は欠落している。
本稿では,コンテンツスタイルのゆがみ設定における異なるバイアスの役割を実証的に検討し,ゆがみ度とタスクパフォーマンスの関係を明らかにする。
特に、私たちは次のような設定を考えます。
一 人気コンテンツスタイルのゆがみモデルの鍵となる設計選択及び学習制約を特定すること。
(二 アブレーション方式でそのような制約を緩和又は取り除くこと。)
(iii)2つの指標を用いて、絡み合いの程度を計測し、各タスクの性能に与える影響を評価する。
実験の結果,不等角性,タスク性能,および驚くほどのコンテンツ解釈性との間には「スイートスポット」があることが明らかとなり,不等角性が高まるとモデル性能やコンテンツ要因の意味性が損なわれる可能性が示唆された。
本研究の成果は,コンテンツスタイルの表現が有用であるタスクに対して,新しいモデルの設計と選択を導くのに有効である。
関連論文リスト
- Debiasing Large Visual Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Invariant Test-Time Adaptation for Vision-Language Model Generalization [90.70743356588996]
学習可能なプロンプトを最適化するテスト時間プロンプトチューニングのパラダイムを導入し,真の因果不変性を活用できるようにモデルを説得する。
提案手法は,潜在的に誤解を招く可能性のあるタスク関連文脈情報への過度な依存を効果的に軽減する。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - Towards Robust and Expressive Whole-body Human Pose and Shape Estimation [51.457517178632756]
全体のポーズと形状の推定は、単眼画像から人体全体の異なる振る舞いを共同で予測することを目的としている。
既存の手法では、既存のシナリオの複雑さの下で、しばしば劣化したパフォーマンスを示す。
全身のポーズと形状推定の堅牢性を高める新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-14T08:17:42Z) - SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Rethinking Content and Style: Exploring Bias for Unsupervised
Disentanglement [59.033559925639075]
本研究では,異なる要因が画像再構成において重要度や人気度が異なるという仮定に基づいて,教師なしc-s異節の定式化を提案する。
モデルインダクティブバイアスは,提案したC-Sアンタングルメントモジュール(C-S DisMo)によって導入された。
いくつかの一般的なデータセットに対する実験により、我々の手法が最先端の教師なしC-Sアンタングルメントを実現することを示す。
論文 参考訳(メタデータ) (2021-02-21T08:04:33Z) - The MAMe Dataset: On the relevance of High Resolution and Variable Shape
image properties [0.0]
我々は,高分解能および可変形状特性を有する画像分類データセットであるMAMeデータセットを紹介する。
MAMeデータセットには、3つの異なる博物館から何千ものアートワークが含まれている。
論文 参考訳(メタデータ) (2020-07-27T17:13:14Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z) - Analyzing Visual Representations in Embodied Navigation Tasks [45.35107294831313]
我々は、最近提案されたプロジェクション重み付き正準相関解析(PWCCA)を用いて、異なるタスクを実行することで、同じ環境で学習した視覚的表現の類似度を測定する。
次に、あるタスクで学習した視覚的表現が、別のタスクに効果的に転送できることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-12T19:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。