Fugu-MT 論文翻訳(概要): AIM-Bench: Benchmarking and Improving Affective Image Manipulation via Fine-Grained Hierarchical Control

論文の概要: AIM-Bench: Benchmarking and Improving Affective Image Manipulation via Fine-Grained Hierarchical Control

arxiv url: http://arxiv.org/abs/2604.10454v1
Date: Sun, 12 Apr 2026 04:32:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:16.025449
Title: AIM-Bench: Benchmarking and Improving Affective Image Manipulation via Fine-Grained Hierarchical Control
Title（参考訳）: AIM-Bench:微細階層制御による画像操作のベンチマークと改善
Authors: Shi Chen, Xuecheng Wu, Heli Sun, Yunyun Shi, Xinyi Yin, Fengjian Xue, Jinheng Xie, Dingkang Yang, Hao Wang, Junxiao Xue, Liang He,
Abstract要約: Affective Image Manipulation (AIM)は、ターゲットの編集を通じて特定の感情を誘発することを目的としている。我々はAIM-Benchと呼ばれるAIM向けに設計された最初のベンチマークを紹介する。このベンチマークは、Michelsの感情分類とValence-Arousal-Dominanceフレームワークを統合したデュアルパス感情モデリングスキームに基づいている。
参考スコア（独自算出の注目度）: 30.172679310027533
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Affective Image Manipulation (AIM) aims to evoke specific emotions through targeted editing. Current image editing benchmarks primarily focus on object-level modifications in general scenarios, lacking the fine-grained granularity to capture affective dimensions. To bridge this gap, we introduce the first benchmark designed for AIM termed AIM-Bench. This benchmark is built upon a dual-path affective modeling scheme that integrates the Mikels emotion taxonomy with the Valence-Arousal-Dominance framework, enabling high-level semantic and fine-grained continuous manipulation. Through a hierarchical human-in-the-loop workflow, we finally curate 800 high-quality samples covering 8 emotional categories and 5 editing types. To effectively assess performance, we also design a composite evaluation suite combining rule-based and model-based metrics to holistically assess instruction consistency, aesthetics, and emotional expressiveness. Extensive evaluations reveal that current editing models face significant challenges, most notably a prevalent positivity bias, which stemming from inherent imbalances in training data distribution. To tackle this, we propose a scalable data engine utilizing an inverse repainting strategy to construct AIM-40k, a balanced instruction-tuning dataset comprising 40k samples. Concretely, we enhance raw affective images via generative redrawing to establish high-fidelity ground truths, and synthesize input images with divergent emotions and paired precise instructions. Fine-tuning a baseline model on AIM-40k yields a 9.15% relative improvement in overall performance, demonstrating the effectiveness of our AIM-40k. Our data and related code will be made open soon.
Abstract（参考訳）: Affective Image Manipulation (AIM)は、ターゲットの編集を通じて特定の感情を誘発することを目的としている。現在の画像編集ベンチマークは、主に一般的なシナリオにおけるオブジェクトレベルの修正に焦点を当てており、感情的な次元を捉えるためのきめ細かい粒度が欠如している。このギャップを埋めるために、AIM-Benchと呼ばれるAIM用に設計された最初のベンチマークを導入する。このベンチマークは、Mikelsの感情分類をValence-Arousal-Dominanceフレームワークと統合し、高レベルなセマンティクスときめ細かい連続的な操作を可能にするデュアルパス感情モデリングスキームに基づいている。階層的なヒューマン・イン・ザ・ループのワークフローを通じて、最終的に8つの感情カテゴリーと5つの編集タイプを含む800の高品質なサンプルをキュレートする。また,ルールベースとモデルベースのメトリクスを組み合わせた複合評価スイートを設計し,命令の整合性,美学,情緒的表現性を均等に評価する。大規模な評価では、現在の編集モデルは重要な課題に直面しており、特に、トレーニングデータの分散に固有の不均衡から生じる、有意な肯定バイアスが顕著である。そこで本研究では,40kサンプルからなるバランスの取れた命令チューニングデータセットであるAIM-40kを構築するために,逆塗り替え方式を利用したスケーラブルなデータエンジンを提案する。具体的には、生成的再描画により生の感情画像を強化し、高忠実度基底真理を確立し、異なる感情とペアの正確な指示で入力画像を合成する。 AIM-40kのベースラインモデルを微調整すると、全体的な性能が9.15%向上し、AIM-40kの有効性が示された。当社のデータおよび関連コードは間もなく公開されます。

関連論文リスト

AIM: Intent-Aware Unified world action Modeling with Spatial Value Maps [7.710034405765985]
AIMは、明示的な空間的インターフェースを通じてこのギャップを橋渡しする意図認識の統一世界行動モデルである。事前訓練されたビデオ生成モデルに基づいて構築されたAIMは、共有変換器アーキテクチャ内の将来の観測と値マップを共同でモデル化する。 RoboTwin 2.0ベンチマークの実験では、AIMは平均94.0%の成功率に達し、以前の統合された世界行動ベースラインを著しく上回っている。
論文参考訳（メタデータ） (2026-04-13T07:48:58Z)
EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model [56.53617289548353]
EchoGenは、主観駆動生成機能を備えたVisual Auto-Regressive(VAR)モデルを強化する先駆的なフレームワークである。対象の抽象的アイデンティティを抽出するためにセマンティックエンコーダを用いており、このエンコーダは分離されたクロスアテンションを通して注入され、全体の構成を導出する。私たちの知る限りでは、EchoGenはVARモデル上に構築された最初のフィードフォワードの主観駆動フレームワークです。
論文参考訳（メタデータ） (2025-09-30T11:45:48Z)
AIM: Amending Inherent Interpretability via Self-Supervised Masking [57.17600766859953]
自己スーパーバイザード・マスキング(AIM)によるインテリジェント・インタプリタビリティの向上について提案する。 AIMは、追加のアノテーションを必要とせずに、刺激的な代替品よりも真の機能の利用を促進する。我々は、分布外一般化ときめ細かい視覚的理解の両方をテストする、さまざまな挑戦的なデータセットでAIMを検証する。
論文参考訳（メタデータ） (2025-08-15T14:29:59Z)
Resilience of Vision Transformers for Domain Generalisation in the Presence of Out-of-Distribution Noisy Images [2.2124795371148616]
マスク付き画像モデリング(MIM)で事前訓練した視覚トラスフォーマーを,OODベンチマークと比較した。実験では、BEITの既知の堅牢性を実証し、PACSでは94%、Office-Homeでは87%の精度を維持した。これらの洞察は、実験室で訓練されたモデルと、不確実性の下で確実に一般化するAIシステムを構築するための青写真を提供する現実世界のデプロイメントのギャップを埋めるものだ。
論文参考訳（メタデータ） (2025-04-05T16:25:34Z)
Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文参考訳（メタデータ） (2024-07-21T18:08:44Z)
Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文参考訳（メタデータ） (2024-07-16T06:38:49Z)
Scalable Pre-training of Large Autoregressive Image Models [65.824197847617]
本稿では,自己回帰目標を事前学習した視覚モデル集であるAIMを紹介する。そこで本研究では,(1)モデルキャパシティとデータ量の両方で視覚的特徴がスケールし,(2)目標関数の値は下流タスクにおけるモデルの性能と相関することを示す。
論文参考訳（メタデータ） (2024-01-16T18:03:37Z)
Semantic-Aware Autoregressive Image Modeling for Visual Representation Learning [9.960835000101115]
本稿では,セマンティック・アウェア・オートレグレッシブ・イメージ・モデリング(SemAIM)手法を提案する。 SemAIMの主な洞察は、セマンティックパッチから、セマンティックパッチの少ないセマンティックパッチへの自動回帰モデルイメージである。 ViT-Bで、SemAIMはImageNet上での微調整で84.1%のトップ-1精度、オブジェクト検出とインスタンス/セマンティックセグメンテーションで51.3%AP、45.4%APを達成した。
論文参考訳（メタデータ） (2023-12-16T14:03:10Z)
Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。 AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文参考訳（メタデータ） (2022-06-30T17:55:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。