論文の概要: Are Any-to-Any Models More Consistent Across Modality Transfers Than Specialists?
- arxiv url: http://arxiv.org/abs/2505.24211v1
- Date: Fri, 30 May 2025 04:51:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.774502
- Title: Are Any-to-Any Models More Consistent Across Modality Transfers Than Specialists?
- Title(参考訳): スペシャリストよりもモダリティに一貫性のあるモデルはあるか?
- Authors: Jiwan Chung, Janghan Yoon, Junhyeong Park, Sangeyl Lee, Joowon Yang, Sooyeon Park, Youngjae Yu,
- Abstract要約: ACONは、字幕、編集命令、Q&Aペアと組み合わせた1000枚の画像からなるデータセットで、モーダル間転送を評価する。
実験の結果,任意のモデルが,ポイントワイド評価において,特定のモデルよりも一貫した相互整合性を示さないことが明らかとなった。
- 参考スコア(独自算出の注目度): 14.044169097789034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Any-to-any generative models aim to enable seamless interpretation and generation across multiple modalities within a unified framework, yet their ability to preserve relationships across modalities remains uncertain. Do unified models truly achieve cross-modal coherence, or is this coherence merely perceived? To explore this, we introduce ACON, a dataset of 1,000 images (500 newly contributed) paired with captions, editing instructions, and Q&A pairs to evaluate cross-modal transfers rigorously. Using three consistency criteria-cyclic consistency, forward equivariance, and conjugated equivariance-our experiments reveal that any-to-any models do not consistently demonstrate greater cross-modal consistency than specialized models in pointwise evaluations such as cyclic consistency. However, equivariance evaluations uncover weak but observable consistency through structured analyses of the intermediate latent space enabled by multiple editing operations. We release our code and data at https://github.com/JiwanChung/ACON.
- Abstract(参考訳): 任意の生成モデルは、統一されたフレームワーク内で複数のモダリティをまたいだシームレスな解釈と生成を可能にすることを目的としているが、それらのモダリティ間の関係を維持する能力は依然として不確実である。
統一モデルは真にクロスモーダルコヒーレンスを達成するのか、それともこのコヒーレンスが単に認識されているだけなのか?
そこで本研究では,1000枚の画像(新たに提供された500枚)にキャプション,編集命令,Q&Aペアを組み合わせ,クロスモーダル転送を厳格に評価するデータセットであるACONを紹介する。
3つの整合性基準-巡回整合性、前方同値性、共役同値-our実験を用いることで、任意の-to-anyモデルが巡回整合性のような点的評価において、特別なモデルよりも一貫したクロスモーダル整合性を示さないことが分かる。
しかし、同値評価は、複数の編集操作で可能となる中間潜伏空間の構造解析を通して、弱いが観測可能な一貫性を明らかにする。
コードとデータはhttps://github.com/JiwanChung/ACON.comで公開しています。
関連論文リスト
- Multi-Level Collaboration in Model Merging [56.31088116526825]
本稿では,モデルマージとモデルアンサンブルの本質的な関係について考察する。
これまでの制限が満たされていない場合でも、モデルのマージによって、アンサンブルと同じような、ほぼ同一かつ優れたパフォーマンスを達成する方法がまだ存在することが分かっています。
論文 参考訳(メタデータ) (2025-03-03T07:45:04Z) - Bridging the inference gap in Mutimodal Variational Autoencoders [6.246098300155483]
マルチモーダル変分オートエンコーダは、観測されたモダリティから観測されていないモダリティを生成するための多目的でスケーラブルな方法を提供する。
エキスパートの混合集合を用いた最近のモデルは、複雑なデータセットにおける生成品質を制限する理論的に基礎的な制限に悩まされている。
本稿では,混合アグリゲーションを導入することなく,結合分布と条件分布の両方を学習できる新しい解釈可能なモデルを提案する。
論文 参考訳(メタデータ) (2025-02-06T10:43:55Z) - Recurrent Complex-Weighted Autoencoders for Unsupervised Object Discovery [62.43562856605473]
複雑な重み付き再帰的アーキテクチャの計算上の優位性について論じる。
本稿では,反復的制約満足度を実現する完全畳み込みオートエンコーダSynCxを提案する。
論文 参考訳(メタデータ) (2024-05-27T15:47:03Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency [66.8685113725007]
BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。
3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-03-22T09:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。