論文の概要: Fine-Grained Human Pose Editing Assessment via Layer-Selective MLLMs
- arxiv url: http://arxiv.org/abs/2601.10369v1
- Date: Thu, 15 Jan 2026 13:22:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.139924
- Title: Fine-Grained Human Pose Editing Assessment via Layer-Selective MLLMs
- Title(参考訳): 層選択型MLLMによる微粒化人間詩編集評価
- Authors: Ningyu Sun, Zhaolin Cai, Zitong Xu, Peihang Chen, Huiyu Duan, Yichao Yan, Xiongkuo Min, Xiaokang Yang,
- Abstract要約: 我々は17の最先端編集モデルから1,700の標準化されたサンプルをベンチマークで紹介する。
層選択型マルチモーダル言語モデル(MLLM)に基づく統一フレームワークを提案する。
本フレームワークは,信頼性検出と多次元品質回帰の両方において優れた性能を実現する。
- 参考スコア(独自算出の注目度): 70.31435391393642
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-guided human pose editing has gained significant traction in AIGC applications. However,it remains plagued by structural anomalies and generative artifacts. Existing evaluation metrics often isolate authenticity detection from quality assessment, failing to provide fine-grained insights into pose-specific inconsistencies. To address these limitations, we introduce HPE-Bench, a specialized benchmark comprising 1,700 standardized samples from 17 state-of-the-art editing models, offering both authenticity labels and multi-dimensional quality scores. Furthermore, we propose a unified framework based on layer-selective multimodal large language models (MLLMs). By employing contrastive LoRA tuning and a novel layer sensitivity analysis (LSA) mechanism, we identify the optimal feature layer for pose evaluation. Our framework achieves superior performance in both authenticity detection and multi-dimensional quality regression, effectively bridging the gap between forensic detection and quality assessment.
- Abstract(参考訳): テキスト誘導型ヒューマンポーズ編集はAIGCアプリケーションで大きな注目を集めている。
しかし、構造上の異常や生成物に悩まされている。
既存の評価指標は、しばしば品質評価から真正性検出を分離し、ポーズ固有の不整合に関する詳細な洞察を得られない。
HPE-Benchは、17の最先端編集モデルから1,700の標準化されたサンプルからなる特殊なベンチマークであり、認証ラベルと多次元品質スコアの両方を提供する。
さらに,層選択型マルチモーダル言語モデル(MLLM)に基づく統一フレームワークを提案する。
対照的なLoRAチューニングと新しい層感度解析(LSA)機構を用いることで,ポーズ評価のための最適特徴層を同定する。
本フレームワークは, 信頼性検出と多次元品質回帰の両方において優れた性能を達成し, 法医学的検出と品質評価のギャップを効果的に埋める。
関連論文リスト
- Q-REAL: Towards Realism and Plausibility Evaluation for AI-Generated Content [71.46991494014382]
本稿では,AI生成画像におけるリアリズムと妥当性の詳細な評価のための新しいデータセットであるQ-Realを紹介する。
Q-Realは、人気のあるテキスト・ツー・イメージ・モデルによって生成される3,088のイメージで構成されている。
そこで本研究では,Q-Real Benchを2つの課題,すなわち判断と推論による根拠付けに基づいて評価する。
論文 参考訳(メタデータ) (2025-11-21T02:43:17Z) - Span-level Detection of AI-generated Scientific Text via Contrastive Learning and Structural Calibration [2.105564340986074]
Sci-SpanDetはAI生成した学術テキストを検出するための構造認識フレームワークである。
セクション条件付きスタイリスティックモデリングとマルチレベルコントラスト学習を組み合わせることで、人間のニュアンスとAIの違いを捉える。
F1(AI)は80.17、AUROCは92.63、Span-F1は74.36である。
論文 参考訳(メタデータ) (2025-10-01T13:35:14Z) - AGHI-QA: A Subjective-Aligned Dataset and Metric for AI-Generated Human Images [58.87047247313503]
本稿では,人体画像の品質評価のための大規模ベンチマークAGHI-QAを紹介する。
データセットは、400の慎重に作成されたテキストプロンプトから生成される4,000の画像で構成され、10の最先端のT2Iモデルを使用している。
我々は,視覚的品質スコア,テキスト画像対応スコア,可視および歪んだ身体部分ラベルを含む多次元アノテーションの収集のために,体系的な主観的研究を行う。
論文 参考訳(メタデータ) (2025-04-30T04:36:56Z) - Towards Explainable Partial-AIGC Image Quality Assessment [51.42831861127991]
AI生成画像(AGI)に対する画像品質評価(IQA)に関する広範な研究にもかかわらず、ほとんどの研究は完全なAI生成出力に焦点を当てている。
我々は、説明可能な部分AIGC画像品質評価(EPAIQA)を目的とした、最初の大規模PAIデータセットを構築した。
我々の研究は、総合的なPAI品質評価のためのIQA分野における先駆的な取り組みである。
論文 参考訳(メタデータ) (2025-04-12T17:27:50Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - TISE: A Toolbox for Text-to-Image Synthesis Evaluation [9.092600296992925]
単目的と多目的のテキスト・ツー・イメージ合成のための最先端手法の研究を行う。
これらの手法を評価するための共通フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-02T16:39:35Z) - Cross-Quality LFW: A Database for Analyzing Cross-Resolution Image Face
Recognition in Unconstrained Environments [8.368543987898732]
現実世界の顔認識アプリケーションは、異なるキャプチャ条件のために、最適な画像の品質や解像度を扱うことが多い。
最近のクロスレゾリューション顔認識手法は、画像品質における現実のエッジケースとの距離を測定するために、単純で任意で非現実的なダウンスケールとアップスケーリングの手法を用いている。
本稿では,Wildにおける有名なラベル付き顔から派生した,新しい標準ベンチマークデータセットと評価プロトコルを提案する。
論文 参考訳(メタデータ) (2021-08-23T17:04:32Z) - Generating Adversarial Examples with an Optimized Quality [12.747258403133035]
ディープラーニングモデルは、Adversarial Examples(AE)に対して脆弱であり、これらのモデルを欺くために慎重に作られたサンプルである。
近年の研究では、新たな敵攻撃法が導入されたが、工芸品の品質は保証されていない。
本稿では,画像品質評価(IQA)メトリクスをAEの設計・生成プロセスに組み込む。
論文 参考訳(メタデータ) (2020-06-30T23:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。