Fugu-MT 論文翻訳(概要): Learning Action and Reasoning-Centric Image Editing from Videos and Simulations

論文の概要: Learning Action and Reasoning-Centric Image Editing from Videos and Simulations

arxiv url: http://arxiv.org/abs/2407.03471v1
Date: Wed, 3 Jul 2024 19:36:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 20:00:48.309090
Title: Learning Action and Reasoning-Centric Image Editing from Videos and Simulations
Title（参考訳）: ビデオとシミュレーションからの学習行動と推論中心画像編集
Authors: Benno Krojer, Dheeraj Vattikonda, Luis Lara, Varun Jampani, Eva Portelance, Christopher Pal, Siva Reddy,
Abstract要約: AURORAデータセット(AURORA data)は、ビデオやシミュレーションエンジンから人間に注釈を付け、キュレートされた高品質なトレーニングデータの集合である。 AURORA-finetuned model on a new expert-curated benchmark across 8 various editing task。我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。
参考スコア（独自算出の注目度）: 45.637947364341436
License: http://creativecommons.org/licenses/by/4.0/
Abstract: An image editing model should be able to perform diverse edits, ranging from object replacement, changing attributes or style, to performing actions or movement, which require many forms of reasoning. Current general instruction-guided editing models have significant shortcomings with action and reasoning-centric edits. Object, attribute or stylistic changes can be learned from visually static datasets. On the other hand, high-quality data for action and reasoning-centric edits is scarce and has to come from entirely different sources that cover e.g. physical dynamics, temporality and spatial reasoning. To this end, we meticulously curate the AURORA Dataset (Action-Reasoning-Object-Attribute), a collection of high-quality training data, human-annotated and curated from videos and simulation engines. We focus on a key aspect of quality training data: triplets (source image, prompt, target image) contain a single meaningful visual change described by the prompt, i.e., truly minimal changes between source and target images. To demonstrate the value of our dataset, we evaluate an AURORA-finetuned model on a new expert-curated benchmark (AURORA-Bench) covering 8 diverse editing tasks. Our model significantly outperforms previous editing models as judged by human raters. For automatic evaluations, we find important flaws in previous metrics and caution their use for semantically hard editing tasks. Instead, we propose a new automatic metric that focuses on discriminative understanding. We hope that our efforts : (1) curating a quality training dataset and an evaluation benchmark, (2) developing critical evaluations, and (3) releasing a state-of-the-art model, will fuel further progress on general image editing.
Abstract（参考訳）: 画像編集モデルは、オブジェクトの置換、属性やスタイルの変更、アクションやムーブメントの実行など、さまざまな形式の推論を必要とするさまざまな編集を行うことができるべきである。現在の一般的な命令誘導編集モデルは、アクションや推論中心の編集に重大な欠点がある。オブジェクト、属性、スタイリスティックな変更は、視覚的に静的なデータセットから学ぶことができる。一方、アクションや推論中心の編集のための高品質なデータは乏しく、物理的ダイナミクス、時間性、空間的推論などをカバーする全く異なるソースから来る必要がある。この目的のために,ビデオやシミュレーションエンジンから,高品質なトレーニングデータを集めたAURORAデータセット(Action-Reasoning-Object-Attribute)を慎重にキュレートする。我々は、高品質なトレーニングデータの重要な側面に焦点を当てる:三脚(ソースイメージ、プロンプト、ターゲットイメージ)には、プロンプトによって記述された1つの意味のある視覚的変化、すなわち、ソースとターゲットイメージの真に最小限の変更が含まれている。 AURORA-Bench(AURORA-Bench)を用いて,8種類の編集タスクを対象としたAURORA-fintunedモデルの評価を行った。我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。自動評価では、過去のメトリクスに重要な欠陥を見つけ、セマンティックにハードな編集作業に使用することを注意する。代わりに、差別的理解に焦点を当てた新しい自動尺度を提案する。我々は,(1)品質トレーニングデータセットと評価ベンチマークのキュレーション,(2)批判的評価の展開,(3)最先端のモデルをリリースすることで,画像編集のさらなる進歩を期待する。

関連論文リスト

What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models [88.398085358514]
DICEは、原画像と編集画像の局所的な差異を検出するために設計されたモデルである。自己監督、塗布ネットワークからの蒸留、全監督を利用する戦略を用いて訓練されている。 DICEは一貫性のある編集を効果的に識別し、異なる編集モデルによって生成された画像を人間の判断と強く相関して効果的に評価する。
論文参考訳（メタデータ） (2025-05-26T18:00:10Z)
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。 RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文参考訳（メタデータ） (2025-04-03T17:59:56Z)
EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文参考訳（メタデータ） (2025-01-08T18:59:35Z)
DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。このコラボレーションは、編集性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-12-22T17:17:28Z)
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision [32.33777277141083]
我々は,7種類の画像編集タスクをシームレスに処理できる全能なエディタであるomnieditを提案する。 omnieditは7つの異なるスペシャリストモデルの監督を利用して、タスクカバレッジを確保することで訓練される。当社のモデルが野生のどんな画像でも扱えるように、アスペクト比の異なる画像を提供しています。
論文参考訳（メタデータ） (2024-11-11T18:21:43Z)
PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM [17.89238060470998]
拡散に基づく画像編集モデルを評価することは、生成AIの分野において重要な課題である。我々のベンチマークであるPixLensは、編集品質と遅延表現の絡み合いを総合的に評価する。
論文参考訳（メタデータ） (2024-10-08T06:05:15Z)
Learning Feature-Preserving Portrait Editing from Generated Pairs [11.122956539965761]
そこで本研究では,自動生成ペアデータを活用して,所望の編集を学習する学習手法を提案する。本手法は,最先端の品質を定量的かつ質的に達成する。
論文参考訳（メタデータ） (2024-07-29T23:19:42Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
Learning to Follow Object-Centric Image Editing Instructions Faithfully [26.69032113274608]
自然言語命令による画像編集に焦点をあてる現在のアプローチは、自動生成されたペアデータに依存している。我々は、ペアデータの品質を大幅に改善し、監視信号を強化する。我々のモデルは、最先端のベースラインよりもきめ細かいオブジェクト中心の編集を行うことができる。
論文参考訳（メタデータ） (2023-10-29T20:39:11Z)
Learning Transferable Pedestrian Representation from Multimodal Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文参考訳（メタデータ） (2023-04-12T01:20:58Z)
Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。 SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。 SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文参考訳（メタデータ） (2022-06-13T23:40:34Z)
End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文参考訳（メタデータ） (2022-05-03T17:59:30Z)
Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文参考訳（メタデータ） (2021-02-01T21:38:36Z)
TailorGAN: Making User-Defined Fashion Designs [28.805686791183618]
そこで本研究では,2組のデータを使わずに,不整合特性を持つ衣服画像を合成する,新たな自己教師型モデルを提案する。本手法は,再構築学習ステップと逆学習ステップから構成される。このデータセットと実世界のサンプルを用いた実験により、我々の手法は最先端の手法よりもはるかに優れた結果を合成できることを示した。
論文参考訳（メタデータ） (2020-01-17T16:54:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。