Fugu-MT 論文翻訳(概要): Asymmetric Idiosyncrasies in Multimodal Models

論文の概要: Asymmetric Idiosyncrasies in Multimodal Models

arxiv url: http://arxiv.org/abs/2602.22734v1
Date: Thu, 26 Feb 2026 08:16:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.592288
Title: Asymmetric Idiosyncrasies in Multimodal Models
Title（参考訳）: マルチモーダルモデルにおける非対称イディオシクス
Authors: Muzi Tao, Chufan Shi, Huijuan Wang, Shengbang Tong, Xuezhe Ma,
Abstract要約: キャプションモデルにおけるイディオシンプレッションと、テキスト・ツー・イメージモデルに対する下流の影響について検討する。以上の結果から,テキスト分類の精度は非常に高い(99.70%)。本フレームワークは,キャプションモデルのスタイリスティックな慣用性と,テキスト・ツー・イメージシステムの迅速な追従能力の両方を定量化する新しい手法を提供する。
参考スコア（独自算出の注目度）: 22.359102255231004
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we study idiosyncrasies in the caption models and their downstream impact on text-to-image models. We design a systematic analysis: given either a generated caption or the corresponding image, we train neural networks to predict the originating caption model. Our results show that text classification yields very high accuracy (99.70\%), indicating that captioning models embed distinctive stylistic signatures. In contrast, these signatures largely disappear in the generated images, with classification accuracy dropping to at most 50\% even for the state-of-the-art Flux model. To better understand this cross-modal discrepancy, we further analyze the data and find that the generated images fail to preserve key variations present in captions, such as differences in the level of detail, emphasis on color and texture, and the distribution of objects within a scene. Overall, our classification-based framework provides a novel methodology for quantifying both the stylistic idiosyncrasies of caption models and the prompt-following ability of text-to-image systems.
Abstract（参考訳）: 本研究では,キャプションモデルにおける慣用的同期と,テキスト・ツー・イメージモデルに対する下流の影響について検討する。生成したキャプションまたは対応する画像から、ニューラルネットワークをトレーニングして、生成されたキャプションモデルを予測する。以上の結果から,文字分類の精度は非常に高く (99.70 %) ,キャプションモデルに特徴的なスタイル的シグネチャが組み込まれていることが示唆された。対照的に、これらのシグネチャは生成した画像にほとんど消失し、最先端のFluxモデルであっても、分類精度は50%以上低下する。さらに, 画像の細部の違い, 色やテクスチャの強調, シーン内の物体の分布など, キャプションに存在する重要な変化を保存できないことが確認された。全体として、分類に基づくフレームワークは、キャプションモデルのスタイリスティックな慣用性と、テキスト・ツー・イメージシステムの迅速な追従能力の両方を定量化する新しい手法を提供する。

関連論文リスト

How to Train your Text-to-Image Model: Evaluating Design Choices for Synthetic Training Captions [29.52344052330828]
テキスト・ツー・イメージ・モデルの下流性能に異なる合成キャプション戦略がどのような影響を及ぼすかを検討する。実験の結果,高品位な字幕はテキストアライメントを高めるが,出力美学や多様性にトレードオフをもたらす可能性が示唆された。本研究は,最適なモデル性能を実現する上で,キャプション設計の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-20T01:52:17Z)
Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文参考訳（メタデータ） (2024-10-01T17:50:17Z)
Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文参考訳（メタデータ） (2024-06-19T08:07:14Z)
Hypernymy Understanding Evaluation of Text-to-Image Models via WordNet Hierarchy [12.82992353036576]
我々は、textithypernymy$や単語間の"is-a"関係を理解するために、人気のあるテキスト・画像モデルの有用性を測定する。私たちのメトリクスが、一般的なテキスト・ツー・イメージモデルの個々の長所と短所をよりよく理解する上で、どのように役立つかを示します。
論文参考訳（メタデータ） (2023-10-13T16:53:25Z)
Dense Text-to-Image Generation with Attention Modulation [49.287458275920514]
既存のテキストと画像の拡散モデルは、高密度キャプションを与えられた現実的なイメージを合成するのに苦労する。そこで我々はDenseDiffusionを提案する。DenseDiffusionは、訓練済みのテキスト・ツー・イメージ・モデルを用いて、そのような高密度キャプションを扱う訓練自由な方法である。レイアウト条件に特化して訓練したモデルを用いて、同様の品質の視覚的結果を得る。
論文参考訳（メタデータ） (2023-08-24T17:59:01Z)
Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文参考訳（メタデータ） (2023-05-18T05:41:36Z)
Discriminative Class Tokens for Text-to-Image Diffusion Models [102.88033622546251]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。 i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文参考訳（メタデータ） (2023-03-30T05:25:20Z)
Improving Generation and Evaluation of Visual Stories via Semantic Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文参考訳（メタデータ） (2021-05-20T20:42:42Z)
An application of a pseudo-parabolic modeling to texture image recognition [0.0]
偏微分方程式モデルを用いたテクスチャ画像認識のための新しい手法を提案する。擬似パラボリックなBuckley-Leverett方程式を用いて、デジタル画像表現のダイナミクスを提供し、時間とともに進化するそれらの画像から局所的な記述子を収集する。
論文参考訳（メタデータ） (2021-02-09T18:08:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。