論文の概要: Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective
- arxiv url: http://arxiv.org/abs/2410.10291v2
- Date: Fri, 18 Oct 2024 09:26:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 22:34:36.397827
- Title: Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective
- Title(参考訳): テキスト・画像合成における意味的変動の評価:因果的視点
- Authors: Xiangru Zhu, Penglei Sun, Yaoxian Song, Yanghua Xiao, Zhixu Li, Chengyu Wang, Jun Huang, Bei Yang, Xiaoxiao Xu,
- Abstract要約: 本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
- 参考スコア(独自算出の注目度): 50.261681681643076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate interpretation and visualization of human instructions are crucial for text-to-image (T2I) synthesis. However, current models struggle to capture semantic variations from word order changes, and existing evaluations, relying on indirect metrics like text-image similarity, fail to reliably assess these challenges. This often obscures poor performance on complex or uncommon linguistic patterns by the focus on frequent word combinations. To address these deficiencies, we propose a novel metric called SemVarEffect and a benchmark named SemVarBench, designed to evaluate the causality between semantic variations in inputs and outputs in T2I synthesis. Semantic variations are achieved through two types of linguistic permutations, while avoiding easily predictable literal variations. Experiments reveal that the CogView-3-Plus and Ideogram 2 performed the best, achieving a score of 0.2/1. Semantic variations in object relations are less understood than attributes, scoring 0.07/1 compared to 0.17-0.19/1. We found that cross-modal alignment in UNet or Transformers plays a crucial role in handling semantic variations, a factor previously overlooked by a focus on textual encoders. Our work establishes an effective evaluation framework that advances the T2I synthesis community's exploration of human instruction understanding. Our benchmark and code are available at https://github.com/zhuxiangru/SemVarBench .
- Abstract(参考訳): 人間の指示の正確な解釈と可視化は、テキスト・トゥ・イメージ(T2I)合成に不可欠である。
しかし、現在のモデルは、単語の順序の変化から意味的なバリエーションを捉えるのに苦労しており、既存の評価は、テキストと画像の類似性のような間接的な指標に依存して、これらの課題を確実に評価することができない。
これはしばしば、頻繁な単語の組み合わせに焦点をあてることで、複雑な言語パターンや一般的でない言語パターンのパフォーマンスが低下する。
これらの欠陥に対処するために、SemVarEffectとSemVarBenchというベンチマークと呼ばれる新しいメトリクスを提案し、T2I合成における入力のセマンティックなバリエーションと出力の因果性を評価する。
意味的変異は2種類の言語置換によって達成されるが、予測可能なリテラル変異は避けられる。
実験の結果、CagView-3-PlusとIdeogram 2のスコアは0.2/1となった。
対象関係の意味的変動は属性よりも理解されにくく、0.07/1と0.17-0.19/1と評価される。
UNetやTransformersの相互モーダルアライメントはセマンティックなバリエーションを扱う上で重要な役割を担っていることがわかった。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
私たちのベンチマークとコードはhttps://github.com/zhuxiangru/SemVarBench で公開されています。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - Boosting the Performance of Transformer Architectures for Semantic
Textual Similarity [0.0]
セマンティックテキスト類似性ベンチマークのセマンティックテキスト類似性のためのトランスフォーマーアーキテクチャについて述べる。
BERT,RoBERTa,DeBERTaV3のクロスエンコーダをバイナリ分類タスクや回帰タスクとして利用して実験を行った。
論文 参考訳(メタデータ) (2023-06-01T14:16:53Z) - Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。
提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:39:54Z) - Semantic-aware Contrastive Learning for More Accurate Semantic Parsing [32.74456368167872]
そこで本研究では,意味表現の微粒化を学習できる意味認識型コントラスト学習アルゴリズムを提案する。
2つの標準データセットの実験により、我々の手法はMLEベースラインよりも大幅に改善されていることが示された。
論文 参考訳(メタデータ) (2023-01-19T07:04:32Z) - ContraFeat: Contrasting Deep Features for Semantic Discovery [102.4163768995288]
StyleGANは、アンタングル化セマンティックコントロールの強い可能性を示している。
StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。
本稿では,このプロセスを自動化し,最先端のセマンティック発見性能を実現するモデルを提案する。
論文 参考訳(メタデータ) (2022-12-14T15:22:13Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Statistically significant detection of semantic shifts using contextual
word embeddings [7.439525715543974]
文脈的単語埋め込みと順列に基づく統計的テストを組み合わせて意味的変化を推定する手法を提案する。
本手法の性能をシミュレーションで実証し,偽陽性を抑圧することにより,一貫して高精度に達成する。
また,SemEval-2020 Task 1 と Liverpool FC subreddit corpus の実際のデータも分析した。
論文 参考訳(メタデータ) (2021-04-08T13:58:54Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。