論文の概要: Interactive Visual Assessment for Text-to-Image Generation Models
- arxiv url: http://arxiv.org/abs/2411.15509v1
- Date: Sat, 23 Nov 2024 10:06:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:41.390633
- Title: Interactive Visual Assessment for Text-to-Image Generation Models
- Title(参考訳): テキスト・画像生成モデルのためのインタラクティブビジュアルアセスメント
- Authors: Xiaoyue Mi, Fan Tang, Juan Cao, Qiang Sheng, Ziyao Huang, Peng Li, Yang Liu, Tong-Yee Lee,
- Abstract要約: 生成モデルのための動的インタラクティブビジュアルアセスメントフレームワークDyEvalを提案する。
DyEvalは直感的なビジュアルインターフェースを備えており、ユーザーは対話的にモデルの振る舞いを探索し分析することができる。
我々のフレームワークは、生成モデルを改善するための貴重な洞察を提供し、視覚生成システムの信頼性と能力を向上するための幅広い意味を持つ。
- 参考スコア(独自算出の注目度): 28.526897072724662
- License:
- Abstract: Visual generation models have achieved remarkable progress in computer graphics applications but still face significant challenges in real-world deployment. Current assessment approaches for visual generation tasks typically follow an isolated three-phase framework: test input collection, model output generation, and user assessment. These fashions suffer from fixed coverage, evolving difficulty, and data leakage risks, limiting their effectiveness in comprehensively evaluating increasingly complex generation models. To address these limitations, we propose DyEval, an LLM-powered dynamic interactive visual assessment framework that facilitates collaborative evaluation between humans and generative models for text-to-image systems. DyEval features an intuitive visual interface that enables users to interactively explore and analyze model behaviors, while adaptively generating hierarchical, fine-grained, and diverse textual inputs to continuously probe the capability boundaries of the models based on their feedback. Additionally, to provide interpretable analysis for users to further improve tested models, we develop a contextual reflection module that mines failure triggers of test inputs and reflects model potential failure patterns supporting in-depth analysis using the logical reasoning ability of LLM. Qualitative and quantitative experiments demonstrate that DyEval can effectively help users identify max up to 2.56 times generation failures than conventional methods, and uncover complex and rare failure patterns, such as issues with pronoun generation and specific cultural context generation. Our framework provides valuable insights for improving generative models and has broad implications for advancing the reliability and capabilities of visual generation systems across various domains.
- Abstract(参考訳): ビジュアル・ジェネレーション・モデルはコンピュータ・グラフィックス・アプリケーションにおいて目覚ましい進歩を遂げてきたが、現実の展開において依然として大きな課題に直面している。
視覚生成タスクに対する現在のアセスメントアプローチは、通常、テスト入力収集、モデル出力生成、ユーザアセスメントという、孤立した3段階のフレームワークに従う。
これらのファッションは、一定のカバレッジ、進化の難しさ、データ漏洩のリスクに悩まされ、ますます複雑な生成モデルを包括的に評価する効果が制限される。
このような制約に対処するため,テキスト・ツー・イメージ・システムにおける人間と生成モデルとの協調的な評価を容易にするLLMを利用した動的インタラクティブ視覚評価フレームワークであるDyEvalを提案する。
DyEvalは直感的なビジュアルインターフェースを備えており、ユーザーはモデル動作をインタラクティブに探索し分析できると同時に、階層的できめ細かな多様なテキスト入力を生成して、フィードバックに基づいてモデルの能力境界を継続的に調査することができる。
さらに,ユーザがテストモデルをさらに改善するための解釈可能な解析を行うために,テスト入力の障害トリガをマイニングし,LLMの論理的推論能力を用いた奥行き解析をサポートするモデル潜在的な障害パターンを反映するコンテキストリフレクションモジュールを開発した。
定性的かつ定量的な実験により、DyEvalはユーザーが従来の手法の最大2.56倍のエラーを識別し、代名詞生成問題や特定の文化的文脈生成問題などの複雑で稀な障害パターンを明らかにするのに有効であることが示された。
我々のフレームワークは、生成モデルを改善するための貴重な洞察を提供し、様々な領域にわたる視覚生成システムの信頼性と能力を向上させるために幅広い意味を持つ。
関連論文リスト
- On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - A Survey on Vision Autoregressive Model [15.042485771127346]
自然言語処理(NLP)における自己回帰モデルの性能を実証した
NLP分野での顕著な成功にインスパイアされた自己回帰モデルは、近年コンピュータビジョンにおいて集中的に研究されている。
本稿では,既存の手法の分類学の発展を含む,視覚自己回帰モデルに関する体系的なレビューを行う。
論文 参考訳(メタデータ) (2024-11-13T14:59:41Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - A Reliable Framework for Human-in-the-Loop Anomaly Detection in Time Series [17.08674819906415]
HILADは、人間とAIの動的かつ双方向なコラボレーションを促進するために設計された、新しいフレームワークである。
ビジュアルインターフェースを通じて、HILADはドメインの専門家に、大規模な予期せぬモデルの振る舞いを検出し、解釈し、修正する権限を与えます。
論文 参考訳(メタデータ) (2024-05-06T07:44:07Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - FABRIC: Personalizing Diffusion Models with Iterative Feedback [0.0]
視覚コンテンツ生成が機械学習によってますます推進される時代において、人間のフィードバックを生成モデルに統合することは、ユーザエクスペリエンスと出力品質を高める重要な機会となる。
FABRICは,広範に普及している拡散モデルに適用可能な学習自由アプローチであり,最も広く使用されているアーキテクチャにおける自己認識層を利用して,フィードバック画像の集合に拡散過程を条件付ける。
本研究では,複数ラウンドの反復的フィードバックに対して,任意のユーザの好みを暗黙的に最適化することで,生成結果が改良されることを示す。
論文 参考訳(メタデータ) (2023-07-19T17:39:39Z) - Robustness and Generalization Performance of Deep Learning Models on
Cyber-Physical Systems: A Comparative Study [71.84852429039881]
調査は、センサーの故障やノイズなど、様々な摂動を扱うモデルの能力に焦点を当てている。
我々は,これらのモデルの一般化と伝達学習能力を,アウト・オブ・ディストリビューション(OOD)サンプルに公開することによって検証する。
論文 参考訳(メタデータ) (2023-06-13T12:43:59Z) - Counterfactual Edits for Generative Evaluation [0.0]
本稿では,画素の代わりに概念に基づく合成結果の評価と説明のためのフレームワークを提案する。
我々のフレームワークは、どのオブジェクトや属性を挿入、削除、または置き換えるべきかを下記した知識ベースの偽物編集を利用する。
局所的な編集を蓄積したグローバルな説明は、モデルが合計で生成できない概念を明らかにすることもできる。
論文 参考訳(メタデータ) (2023-03-02T20:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。