論文の概要: EVLM: Self-Reflective Multimodal Reasoning for Cross-Dimensional Visual Editing
- arxiv url: http://arxiv.org/abs/2412.10566v1
- Date: Fri, 13 Dec 2024 21:15:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:54.694328
- Title: EVLM: Self-Reflective Multimodal Reasoning for Cross-Dimensional Visual Editing
- Title(参考訳): EVLM:多次元視覚編集のための自己反射型マルチモーダル推論
- Authors: Umar Khalid, Hasan Iqbal, Azib Farooq, Nazanin Rahnavard, Jing Hua, Chen Chen Umar Khalid, Hasan Iqbal, Azib Farooq, Nazanin Rahnavard, Jing Hua, Chen Chen Umar Khalid, Hasan Iqbal, Azib Farooq, Nazanin Rahnavard, Jing Hua, Chen Chen Umar Khalid, Hasan Iqbal, Azib Farooq, Nazanin Rahnavard, Jing Hua, Chen Chen,
- Abstract要約: EVLM (Editing Vision-Language Model) は、参照視覚とともに曖昧な指示を解釈するように設計されている。
EVLMはバイナリラベルを必要とせずに主観的な編集の好みをキャプチャする。
画像、ビデオ、3D、および4D編集タスクにわたる実験は、EVLMが一貫性のある高品質な命令を生成することを示している。
- 参考スコア(独自算出の注目度): 27.578516354454063
- License:
- Abstract: Editing complex visual content based on ambiguous instructions remains a challenging problem in vision-language modeling. While existing models can contextualize content, they often struggle to grasp the underlying intent within a reference image or scene, leading to misaligned edits. We introduce the Editing Vision-Language Model (EVLM), a system designed to interpret such instructions in conjunction with reference visuals, producing precise and context-aware editing prompts. Leveraging Chain-of-Thought (CoT) reasoning and KL-Divergence Target Optimization (KTO) alignment technique, EVLM captures subjective editing preferences without requiring binary labels. Fine-tuned on a dataset of 30,000 CoT examples, with rationale paths rated by human evaluators, EVLM demonstrates substantial improvements in alignment with human intentions. Experiments across image, video, 3D, and 4D editing tasks show that EVLM generates coherent, high-quality instructions, supporting a scalable framework for complex vision-language applications.
- Abstract(参考訳): 曖昧な指示に基づいて複雑な視覚コンテンツを編集することは、視覚言語モデリングにおいて難しい問題である。
既存のモデルはコンテンツをコンテキスト化できるが、参照画像やシーン内で基盤となる意図を理解するのに苦労することが多く、編集ミスにつながる。
本稿では、参照視覚と連動してこれらの命令を解釈し、正確な文脈対応の編集プロンプトを生成するEVLM(Editing Vision-Language Model)を提案する。
CoT(Chain-of-Thought)推論とKL-Divergence Target Optimization(KTO)アライメント技術を活用して、EVLMはバイナリラベルを必要とせずに主観的な編集の好みをキャプチャする。
EVLMは、人間の評価者によって評価される合理的パスを持つ3万個のCoTサンプルのデータセットに基づいて微調整され、人間の意図に沿った大幅な改善が示されている。
画像、ビデオ、3D、および4D編集タスクにわたる実験は、EVLMがコヒーレントで高品質な命令を生成し、複雑な視覚言語アプリケーションのためのスケーラブルなフレームワークをサポートすることを示している。
関連論文リスト
- AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding [63.09928907734156]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
オープン・ユニバース3Dレイアウト生成は、言語命令で条件付けられたラベルのない3Dアセットをアレンジする。
大規模言語モデル(LLM)は、物理的に妥当な3Dシーンの生成と入力命令の遵守に苦慮している。
本稿では,視覚言語モデルのセマンティック知識を活用するフレームワークとシーンレイアウト表現であるLayoutVLMを紹介する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models [15.029014337718849]
大きな視覚言語モデル(LVLM)は、視覚情報を大きな言語モデルに統合し、目覚ましい多モーダルな会話能力を示す。
一般に、LVLMは視覚エンコーダに頼って画像を視覚トークンに変換するが、これは言語モデルが画像の内容を効果的に知覚するのに不可欠である。
本稿では,VT-Attackと呼ばれる非標的攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T09:06:56Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - Guiding Instruction-based Image Editing via Multimodal Large Language
Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。
MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。
MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-09-29T10:01:50Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。