論文の概要: PICABench: How Far Are We from Physically Realistic Image Editing?
- arxiv url: http://arxiv.org/abs/2510.17681v1
- Date: Mon, 20 Oct 2025 15:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.509141
- Title: PICABench: How Far Are We from Physically Realistic Image Editing?
- Title(参考訳): PICABench: 物理的にリアルなイメージ編集からどこまで遠いのか?
- Authors: Yuandong Pu, Le Zhuo, Songhao Han, Jinbo Xing, Kaiwen Zhu, Shuo Cao, Bin Fu, Si Liu, Hongsheng Li, Yu Qiao, Wenlong Zhang, Xi Chen, Yihao Liu,
- Abstract要約: PICABenchを導入し、8つのサブ次元にわたる物理的リアリズムを体系的に評価する。
本稿では,VLM-as-a-judgeをケースごとの領域レベルの人間のアノテーションで利用する信頼性評価プロトコルであるPICAEvalを提案する。
また、ビデオから物理を学習し、トレーニングデータセットPICA-100Kを構築することで、効果的な解を探索する。
- 参考スコア(独自算出の注目度): 71.82009431774311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image editing has achieved remarkable progress recently. Modern editing models could already follow complex instructions to manipulate the original content. However, beyond completing the editing instructions, the accompanying physical effects are the key to the generation realism. For example, removing an object should also remove its shadow, reflections, and interactions with nearby objects. Unfortunately, existing models and benchmarks mainly focus on instruction completion but overlook these physical effects. So, at this moment, how far are we from physically realistic image editing? To answer this, we introduce PICABench, which systematically evaluates physical realism across eight sub-dimension (spanning optics, mechanics, and state transitions) for most of the common editing operations (add, remove, attribute change, etc). We further propose the PICAEval, a reliable evaluation protocol that uses VLM-as-a-judge with per-case, region-level human annotations and questions. Beyond benchmarking, we also explore effective solutions by learning physics from videos and construct a training dataset PICA-100K. After evaluating most of the mainstream models, we observe that physical realism remains a challenging problem with large rooms to explore. We hope that our benchmark and proposed solutions can serve as a foundation for future work moving from naive content editing toward physically consistent realism.
- Abstract(参考訳): 画像編集は近年顕著な進歩を遂げている。
現代の編集モデルは、オリジナルのコンテンツを操作するための複雑な命令に従うことができる。
しかし、編集命令の完成を超えて、それに付随する物理的効果が世代リアリズムの鍵となる。
例えば、オブジェクトを削除するには、近くのオブジェクトとのシャドー、リフレクション、インタラクションを削除する必要がある。
残念ながら、既存のモデルとベンチマークは主に命令補完に焦点を当てているが、これらの物理的効果を見落としている。
では、現段階では、物理的なリアルな画像編集からどのくらい離れているのか?
そこで本研究では, 一般的な編集作業(追加, 削除, 属性変更など)のほとんどに対して, 8つのサブ次元(スパンニング光学, メカニクス, 状態遷移)で物理的リアリズムを体系的に評価するPICABenchを紹介する。
さらに,ケースごとのVLM-as-a-judgeを用いた信頼性評価プロトコルであるPICAEvalを提案する。
ベンチマークの他に、ビデオから物理を学習し、トレーニングデータセットPICA-100Kを構築することで効果的なソリューションについても検討する。
主流モデルのほとんどを評価した後、我々は、物理リアリズムが大きな部屋を探索する上で難しい問題であり続けていることを観察した。
われわれのベンチマークと提案したソリューションが、コンテンツ編集から物理的に一貫したリアリズムへ移行する将来の作業の基盤となることを願っている。
関連論文リスト
- PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning [49.88366485306749]
現代のビデオ生成モデルは、視覚的にリアルなビデオを生成することができるが、物理法則に従わないことが多い。
本稿では,物理認識力を高めるため,映像生成モデルを導くための表現として,物理知識を捉えたPhysMasterを提案する。
論文 参考訳(メタデータ) (2025-10-15T17:59:59Z) - LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference [57.086932851733145]
ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。
現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。
経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
論文 参考訳(メタデータ) (2025-10-13T15:19:07Z) - TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility [70.24211591214528]
ビデオ生成モデルは、浮動、テレポート、モーフィングのような直感的な物理法則に違反したシーケンスを生成する。
既存のビデオランゲージモデル(VLM)は、物理違反の特定に苦慮し、時間的および因果的推論における根本的な制限を明らかにしている。
我々は、バランスの取れたトレーニングデータセットと軌道認識型アテンションモジュールを組み合わせた微調整レシピTRAVLを導入し、モーションエンコーディングを改善する。
言語バイアスを除去し,視覚的時間的理解を分離する300本のビデオ(150本実写150本)のベンチマークであるImplausiBenchを提案する。
論文 参考訳(メタデータ) (2025-10-08T21:03:46Z) - PhysHMR: Learning Humanoid Control Policies from Vision for Physically Plausible Human Motion Reconstruction [52.44375492811009]
物理学に基づくシミュレーターにおいて,ヒューマノイド制御のための視覚行動ポリシーを学習する統合フレームワークであるPhysHMRを提案する。
我々のアプローチの重要な要素はピクセル・アズ・レイ戦略であり、2次元のキーポイントを3次元空間に上げ、それらを大域空間に変換する。
PhysHMRは多種多様なシナリオにまたがって高忠実で物理的に妥当な動きを生じさせ、視覚的精度と身体的リアリズムの両方において以前のアプローチより優れている。
論文 参考訳(メタデータ) (2025-10-02T21:01:11Z) - Learning Action and Reasoning-Centric Image Editing from Videos and Simulations [45.637947364341436]
AURORAデータセット(AURORA data)は、ビデオやシミュレーションエンジンから人間に注釈を付け、キュレートされた高品質なトレーニングデータの集合である。
AURORA-finetuned model on a new expert-curated benchmark across 8 various editing task。
我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。
論文 参考訳(メタデータ) (2024-07-03T19:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。