論文の概要: PromptSplit: Revealing Prompt-Level Disagreement in Generative Models
- arxiv url: http://arxiv.org/abs/2602.04009v1
- Date: Tue, 03 Feb 2026 20:53:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.271777
- Title: PromptSplit: Revealing Prompt-Level Disagreement in Generative Models
- Title(参考訳): PromptSplit: 生成モデルにおけるPrompt-Levelの分解
- Authors: Mehdi Lotfian, Mohammad Jalali, Farzan Farnia,
- Abstract要約: プロンプト誘導型生成AIモデルは、視覚領域と言語領域に急速に拡張されている。
本稿では,生成モデル間の即時依存不一致を検出し解析するためのカーネルベースのフレームワークであるPromptSplitを提案する。
テキスト・ツー・イメージ、テキスト・トゥ・テキスト、イメージ・キャプション設定にわたる実験は、PromptSplitが地面と真実の行動の違いを正確に検出していることを示している。
- 参考スコア(独自算出の注目度): 18.957478338649114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt-guided generative AI models have rapidly expanded across vision and language domains, producing realistic and diverse outputs from textual inputs. The growing variety of such models, trained with different data and architectures, calls for principled methods to identify which types of prompts lead to distinct model behaviors. In this work, we propose PromptSplit, a kernel-based framework for detecting and analyzing prompt-dependent disagreement between generative models. For each compared model pair, PromptSplit constructs a joint prompt--output representation by forming tensor-product embeddings of the prompt and image (or text) features, and then computes the corresponding kernel covariance matrix. We utilize the eigenspace of the weighted difference between these matrices to identify the main directions of behavioral difference across prompts. To ensure scalability, we employ a random-projection approximation that reduces computational complexity to $O(nr^2 + r^3)$ for projection dimension $r$. We further provide a theoretical analysis showing that this approximation yields an eigenstructure estimate whose expected deviation from the full-dimensional result is bounded by $O(1/r^2)$. Experiments across text-to-image, text-to-text, and image-captioning settings demonstrate that PromptSplit accurately detects ground-truth behavioral differences and isolates the prompts responsible, offering an interpretable tool for detecting where generative models disagree.
- Abstract(参考訳): プロンプト誘導型生成AIモデルは、視覚と言語領域にわたって急速に拡張され、テキスト入力から現実的で多様なアウトプットを生み出している。
異なるデータやアーキテクチャで訓練されたこのようなモデルの多様さは、どのタイプのプロンプトが異なるモデル行動を引き起こすかを特定するための原則的な方法を要求する。
本研究では,生成モデル間の即時依存不一致を検出し解析するカーネルベースのフレームワークであるPromptSplitを提案する。
比較されたモデルペアごとに、PromptSplitは、プロンプトと画像(またはテキスト)の特徴のテンソル積の埋め込みを形成し、対応するカーネル共分散行列を計算することで、共同でプロンプト-アウトプット表現を構築する。
我々はこれらの行列間の重み付き差の固有空間を利用して、プロンプト間の行動差の主な方向を特定する。
スケーラビリティを確保するために、予測次元$r$に対して計算複雑性を$O(nr^2 + r^3)$に還元するランダム射影近似を用いる。
さらに、この近似が全次元結果から期待される偏差が$O(1/r^2)$で有界となる固有構造推定値が得られることを示す理論解析を行った。
テキスト・ツー・イメージ、テキスト・トゥ・テキスト、イメージ・キャプションといった設定での実験では、PromptSplitが正確に地味な行動の違いを検知し、責任を負うプロンプトを分離し、生成モデルが一致しない場所を検出するための解釈可能なツールを提供する。
関連論文リスト
- Comateformer: Combined Attention Transformer for Semantic Sentence Matching [11.746010399185437]
本稿では,トランスフォーマーモデルに基づくコンバインド・アテンション・ネットワークという新しい意味文マッチングモデルを提案する。
Comateformer モデルでは,構成特性を持つ新しい変圧器を用いた準アテンション機構を設計する。
提案手法は,双対親和性スコアを計算する際の類似性と相似性(負親和性)の直感に基づく。
論文 参考訳(メタデータ) (2024-12-10T06:18:07Z) - Conditional Vendi Score: An Information-Theoretic Approach to Diversity Evaluation of Prompt-based Generative Models [15.40817940713399]
モデルの内部の多様性を定量化するために,$H(X|T)$に基づく条件付きVendiスコアを導入する。
テキスト条件付き生成モデルの条件-ベンダースコアと内部の多様性との相関を示すために,いくつかの数値実験を行った。
論文 参考訳(メタデータ) (2024-11-05T05:30:39Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Interpretable time series neural representation for classification
purposes [3.1201323892302444]
提案したモデルは、一貫した、離散的で、解釈可能で、可視化可能な表現を生成する。
実験の結果,提案したモデルでは,複数のデータセットに対する他の解釈可能なアプローチよりも平均的に優れた結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-25T15:06:57Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Multivariate Representation Learning for Information Retrieval [31.31440742912932]
本稿では,高密度検索のための新しい表現学習フレームワークを提案する。
クエリやドキュメント毎にベクトルを学習する代わりに、我々のフレームワークは多変量分布を学習する。
近似した近似近似アルゴリズムにシームレスに統合できることが示される。
論文 参考訳(メタデータ) (2023-04-27T20:30:46Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - It's FLAN time! Summing feature-wise latent representations for
interpretability [0.0]
FLAN(Feature-wise Latent Additive Networks)と呼ばれる構造拘束型ニューラルネットワークの新たなクラスを提案する。
FLANは各入力機能を別々に処理し、それぞれに共通の潜在空間の表現を演算する。
これらの特徴的潜在表現は単純に要約され、集約された表現は予測に使用される。
論文 参考訳(メタデータ) (2021-06-18T12:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。