Fugu-MT 論文翻訳(概要): EVLM: Self-Reflective Multimodal Reasoning for Cross-Dimensional Visual Editing

論文の概要: EVLM: Self-Reflective Multimodal Reasoning for Cross-Dimensional Visual Editing

arxiv url: http://arxiv.org/abs/2412.10566v1
Date: Fri, 13 Dec 2024 21:15:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.683892
Title: EVLM: Self-Reflective Multimodal Reasoning for Cross-Dimensional Visual Editing
Title（参考訳）: EVLM:多次元視覚編集のための自己反射型マルチモーダル推論
Authors: Umar Khalid, Hasan Iqbal, Azib Farooq, Nazanin Rahnavard, Jing Hua, Chen Chen Umar Khalid, Hasan Iqbal, Azib Farooq, Nazanin Rahnavard, Jing Hua, Chen Chen Umar Khalid, Hasan Iqbal, Azib Farooq, Nazanin Rahnavard, Jing Hua, Chen Chen Umar Khalid, Hasan Iqbal, Azib Farooq, Nazanin Rahnavard, Jing Hua, Chen Chen,
Abstract要約: EVLM (Editing Vision-Language Model) は、参照視覚とともに曖昧な指示を解釈するように設計されている。 EVLMはバイナリラベルを必要とせずに主観的な編集の好みをキャプチャする。画像、ビデオ、3D、および4D編集タスクにわたる実験は、EVLMが一貫性のある高品質な命令を生成することを示している。
参考スコア（独自算出の注目度）: 27.578516354454063
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Editing complex visual content based on ambiguous instructions remains a challenging problem in vision-language modeling. While existing models can contextualize content, they often struggle to grasp the underlying intent within a reference image or scene, leading to misaligned edits. We introduce the Editing Vision-Language Model (EVLM), a system designed to interpret such instructions in conjunction with reference visuals, producing precise and context-aware editing prompts. Leveraging Chain-of-Thought (CoT) reasoning and KL-Divergence Target Optimization (KTO) alignment technique, EVLM captures subjective editing preferences without requiring binary labels. Fine-tuned on a dataset of 30,000 CoT examples, with rationale paths rated by human evaluators, EVLM demonstrates substantial improvements in alignment with human intentions. Experiments across image, video, 3D, and 4D editing tasks show that EVLM generates coherent, high-quality instructions, supporting a scalable framework for complex vision-language applications.
Abstract（参考訳）: 曖昧な指示に基づいて複雑な視覚コンテンツを編集することは、視覚言語モデリングにおいて難しい問題である。既存のモデルはコンテンツをコンテキスト化できるが、参照画像やシーン内で基盤となる意図を理解するのに苦労することが多く、編集ミスにつながる。本稿では、参照視覚と連動してこれらの命令を解釈し、正確な文脈対応の編集プロンプトを生成するEVLM(Editing Vision-Language Model)を提案する。 CoT(Chain-of-Thought)推論とKL-Divergence Target Optimization(KTO)アライメント技術を活用して、EVLMはバイナリラベルを必要とせずに主観的な編集の好みをキャプチャする。 EVLMは、人間の評価者によって評価される合理的パスを持つ3万個のCoTサンプルのデータセットに基づいて微調整され、人間の意図に沿った大幅な改善が示されている。画像、ビデオ、3D、および4D編集タスクにわたる実験は、EVLMがコヒーレントで高品質な命令を生成し、複雑な視覚言語アプリケーションのためのスケーラブルなフレームワークをサポートすることを示している。

関連論文リスト

Hallucination at a Glance: Controlled Visual Edits and Fine-Grained Multimodal Learning [27.33722610773045]
マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクにおいて高い性能を達成しているが、細かな視覚的差異に苦慮している。本稿では,最小限に編集された画像対を意味的に一致した字幕で生成する制御データ生成パイプラインを提案する。
論文参考訳（メタデータ） (2025-06-08T17:23:36Z)
MIND-Edit: MLLM Insight-Driven Editing via Language-Vision Projection [13.467269066605452]
MLLMと事前学習拡散モデルを組み合わせたエンドツーエンド画像編集フレームワークであるMIND-Editを提案する。 MIND-Editは,(1)MLLMからの意味的推論に基づく曖昧なユーザ指示を明確化するテキスト命令最適化戦略,(2)MLLMの本質的な視覚的理解能力を明示的に活用して編集意図を推測するMLLM洞察駆動型編集戦略,の2つの補完戦略を導入している。大規模な実験により、MIND-Editは、特に複雑で困難なシナリオにおいて、定量的メトリクスと視覚的品質の両方において、最先端の画像編集方法より優れていることが示された。
論文参考訳（メタデータ） (2025-05-25T13:54:31Z)
Decoupled Visual Interpretation and Linguistic Reasoning for Math Problem Solving [57.22004912994658]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文参考訳（メタデータ） (2025-05-23T08:18:00Z)
LLM Code Customization with Visual Results: A Benchmark on TikZ [6.3303908500560615]
我々は,協調的な視覚的成果を保ちながらコードをカスタマイズする大規模言語モデルの能力を評価する最初のベンチマークであるvTikZを紹介した。我々のベンチマークは、慎重にキュレートされたvTikZ編集シナリオ、パラメータ化された基底真理、そして視覚フィードバックを利用して正当性を評価するレビューツールから構成されている。
論文参考訳（メタデータ） (2025-05-07T08:26:54Z)
Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-14T18:33:31Z)
AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding [63.09928907734156]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-02-03T13:34:51Z)
LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
オープン・ユニバース3Dレイアウト生成は、言語命令で条件付けられたラベルのない3Dアセットをアレンジする。大規模言語モデル(LLM)は、物理的に妥当な3Dシーンの生成と入力命令の遵守に苦慮している。本稿では,視覚言語モデルのセマンティック知識を活用するフレームワークとシーンレイアウト表現であるLayoutVLMを紹介する。
論文参考訳（メタデータ） (2024-12-03T06:15:04Z)
Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文参考訳（メタデータ） (2024-10-18T03:34:32Z)
Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models [15.029014337718849]
大きな視覚言語モデル(LVLM)は、視覚情報を大きな言語モデルに統合し、目覚ましい多モーダルな会話能力を示す。一般に、LVLMは視覚エンコーダに頼って画像を視覚トークンに変換するが、これは言語モデルが画像の内容を効果的に知覚するのに不可欠である。本稿では,VT-Attackと呼ばれる非標的攻撃手法を提案する。
論文参考訳（メタデータ） (2024-10-09T09:06:56Z)
Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。 SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文参考訳（メタデータ） (2024-05-24T23:09:27Z)
Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。 LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文参考訳（メタデータ） (2024-05-23T14:30:33Z)
Guiding Instruction-based Image Editing via Multimodal Large Language Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。 MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。 MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文参考訳（メタデータ） (2023-09-29T10:01:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。