論文の概要: EVLM: Self-Reflective Multimodal Reasoning for Cross-Dimensional Visual Editing
- arxiv url: http://arxiv.org/abs/2412.10566v2
- Date: Sat, 08 Nov 2025 02:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.301655
- Title: EVLM: Self-Reflective Multimodal Reasoning for Cross-Dimensional Visual Editing
- Title(参考訳): EVLM:多次元視覚編集のための自己反射型マルチモーダル推論
- Authors: Umar Khalid, Kashif Munir, Hasan Iqbal, Azib Farooq, Jing Hua, Nazanin Rahnavard, Chen Chen, Victor Zhu, Zhengping Ji,
- Abstract要約: 曖昧な命令や部分的に指定された命令から複雑な視覚コンテンツを編集することは、視覚言語モデリングにおける中核的な課題である。
本稿では、参照ビジュアルと連動して曖昧な指示を解釈し、正確な文脈対応編集プロンプトを生成するEVLM(Editing Vision-Language Model)を提案する。
- 参考スコア(独自算出の注目度): 19.019168402650457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Editing complex visual content from ambiguous or partially specified instructions remains a core challenge in vision-language modeling. Existing models can contextualize content but often fail to infer the underlying intent within a reference image or scene, leading to inconsistent or misaligned edits. We introduce the Editing Vision-Language Model (EVLM), a system that interprets ambiguous instructions in conjunction with reference visuals to produce precise, context-aware editing prompts. EVLM's key innovation is a reflective reasoning framework that translates subjective user intent into structured, actionable outputs by aligning with human-rated rationales through Reflection-Aware KL-Divergence Target Optimization (RKTO). By combining Chain-of-Thought (CoT) reasoning with RKTO alignment, EVLM captures fine-grained editing preferences without relying on binary supervision. Trained on a dataset of 30,000 CoT examples with human-annotated rationale quality, EVLM achieves substantial gains in alignment with human intent. Experiments across image, video, 3D, and 4D editing tasks show that EVLM generates coherent and high-quality instructions, providing a scalable foundation for multimodal editing and reasoning.
- Abstract(参考訳): 曖昧な命令や部分的に指定された命令から複雑な視覚コンテンツを編集することは、視覚言語モデリングにおける中核的な課題である。
既存のモデルではコンテクスト化が可能であるが、参照イメージやシーン内で根底にある意図を推測できない場合が多いため、一貫性や不整合が生じる。
本稿では、参照ビジュアルと連動して曖昧な指示を解釈し、正確な文脈対応編集プロンプトを生成するEVLM(Editing Vision-Language Model)を提案する。
EVLM の重要な革新は、リフレクション・アウェア KL-Divergence Target Optimization (RKTO) を通じて、主観的ユーザ意図を人格的論理と整合することで、構造化された実行可能なアウトプットに変換する反射的推論フレームワークである。
CoT(Chain-of-Thought)推論とRKTOアライメントを組み合わせることで、EVLMはバイナリ管理に頼ることなく、きめ細かい編集の好みをキャプチャする。
EVLMは、人間に注釈を付けた合理性品質を持つ3万のCoTサンプルのデータセットに基づいて、人間の意図に合わせてかなりの利益を達成している。
画像、ビデオ、3D、および4D編集タスクにわたる実験により、EVLMは一貫性のある高品質な命令を生成し、マルチモーダルな編集と推論のためのスケーラブルな基盤を提供する。
関連論文リスト
- Hallucination at a Glance: Controlled Visual Edits and Fine-Grained Multimodal Learning [27.33722610773045]
マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクにおいて高い性能を達成しているが、細かな視覚的差異に苦慮している。
本稿では,最小限に編集された画像対を意味的に一致した字幕で生成する制御データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2025-06-08T17:23:36Z) - MIND-Edit: MLLM Insight-Driven Editing via Language-Vision Projection [13.467269066605452]
MLLMと事前学習拡散モデルを組み合わせたエンドツーエンド画像編集フレームワークであるMIND-Editを提案する。
MIND-Editは,(1)MLLMからの意味的推論に基づく曖昧なユーザ指示を明確化するテキスト命令最適化戦略,(2)MLLMの本質的な視覚的理解能力を明示的に活用して編集意図を推測するMLLM洞察駆動型編集戦略,の2つの補完戦略を導入している。
大規模な実験により、MIND-Editは、特に複雑で困難なシナリオにおいて、定量的メトリクスと視覚的品質の両方において、最先端の画像編集方法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-25T13:54:31Z) - Decoupled Visual Interpretation and Linguistic Reasoning for Math Problem Solving [57.22004912994658]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - LLM Code Customization with Visual Results: A Benchmark on TikZ [6.3303908500560615]
我々は,協調的な視覚的成果を保ちながらコードをカスタマイズする大規模言語モデルの能力を評価する最初のベンチマークであるvTikZを紹介した。
我々のベンチマークは、慎重にキュレートされたvTikZ編集シナリオ、パラメータ化された基底真理、そして視覚フィードバックを利用して正当性を評価するレビューツールから構成されている。
論文 参考訳(メタデータ) (2025-05-07T08:26:54Z) - Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。
視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。
本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:33:31Z) - AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding [63.09928907734156]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
オープン・ユニバース3Dレイアウト生成は、言語命令で条件付けられたラベルのない3Dアセットをアレンジする。
大規模言語モデル(LLM)は、物理的に妥当な3Dシーンの生成と入力命令の遵守に苦慮している。
本稿では,視覚言語モデルのセマンティック知識を活用するフレームワークとシーンレイアウト表現であるLayoutVLMを紹介する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models [15.029014337718849]
大きな視覚言語モデル(LVLM)は、視覚情報を大きな言語モデルに統合し、目覚ましい多モーダルな会話能力を示す。
一般に、LVLMは視覚エンコーダに頼って画像を視覚トークンに変換するが、これは言語モデルが画像の内容を効果的に知覚するのに不可欠である。
本稿では,VT-Attackと呼ばれる非標的攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T09:06:56Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。
コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。
SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - Guiding Instruction-based Image Editing via Multimodal Large Language
Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。
MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。
MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-09-29T10:01:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。