論文の概要: Enhance Multimodal Consistency and Coherence for Text-Image Plan Generation
- arxiv url: http://arxiv.org/abs/2506.11380v1
- Date: Fri, 13 Jun 2025 01:03:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.617059
- Title: Enhance Multimodal Consistency and Coherence for Text-Image Plan Generation
- Title(参考訳): テキスト・イメージ・プラン作成のためのマルチモーダル一貫性とコヒーレンス
- Authors: Xiaoxin Lu, Ranran Haoran Zhang, Yusen Zhang, Rui Zhang,
- Abstract要約: テキスト画像プランの提供における大規模モデルの可能性はまだ検討されていない。
そこで本研究では,テキスト・イメージ・プランを段階的に作成・改善する新しいフレームワークを提案する。
このアプローチは、様々なバックボーンモデルにプラグアンドプレイの改善を提供します。
- 参考スコア(独自算出の注目度): 8.12586545293824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People get informed of a daily task plan through diverse media involving both texts and images. However, most prior research only focuses on LLM's capability of textual plan generation. The potential of large-scale models in providing text-image plans remains understudied. Generating high-quality text-image plans faces two main challenges: ensuring consistent alignment between two modalities and keeping coherence among visual steps. To address these challenges, we propose a novel framework that generates and refines text-image plans step-by-step. At each iteration, our framework (1) drafts the next textual step based on the prediction history; (2) edits the last visual step to obtain the next one; (3) extracts PDDL-like visual information; and (4) refines the draft with the extracted visual information. The textual and visual step produced in stage (4) and (2) will then serve as inputs for the next iteration. Our approach offers a plug-and-play improvement to various backbone models, such as Mistral-7B, Gemini-1.5, and GPT-4o. To evaluate the effectiveness of our approach, we collect a new benchmark consisting of 1,100 tasks and their text-image pair solutions covering 11 daily topics. We also design and validate a new set of metrics to evaluate the multimodal consistency and coherence in text-image plans. Extensive experiment results show the effectiveness of our approach on a range of backbone models against competitive baselines. Our code and data are available at https://github.com/psunlpgroup/MPlanner.
- Abstract(参考訳): 人々は、テキストと画像の両方を含む多様なメディアを通じて、毎日のタスクプランを知らせられる。
しかし、これまでのほとんどの研究は、LLMのテキストプラン生成能力にのみ焦点を当てている。
テキスト画像プランの提供における大規模モデルの可能性はまだ検討されていない。
高品質なテキスト画像プランの生成には,2つのモダリティの整合性の確保と,視覚ステップ間の一貫性維持という,2つの大きな課題がある。
これらの課題に対処するために,テキスト・イメージ・プランを段階的に作成・改善する新しいフレームワークを提案する。
各イテレーションにおいて、(1)は予測履歴に基づいて次のテキストステップをドラフトし、(2)最後のビジュアルステップを編集し、(3)PDDLのようなビジュアル情報を抽出し、(4)抽出したビジュアル情報でドラフトを洗練する。
ステージ (4) と (2) で生成されたテキストと視覚のステップは、次のイテレーションの入力として機能する。
このアプローチは,Mistral-7B,Gemini-1.5,GPT-4oなどのバックボーンモデルに対して,プラグアンドプレイの改善を提供する。
提案手法の有効性を評価するために,1100のタスクからなる新しいベンチマークと,11のトピックをカバーするテキストイメージペアソリューションを収集した。
また,テキストイメージ計画におけるマルチモーダル一貫性とコヒーレンスを評価するために,新しいメトリクスセットの設計と検証を行う。
広範囲な実験結果から,提案手法が競争ベースラインに対するバックボーンモデルに有効であることが示唆された。
私たちのコードとデータはhttps://github.com/psunlpgroup/MPlanner.comで公開されています。
関連論文リスト
- Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - Harmonizing Visual Text Comprehension and Generation [31.605599298507293]
視覚テキストの理解と生成に長けた,統一的で汎用的なマルチモーダル生成モデルであるTextHarmonyを提案する。
我々は,多モード生成空間を部分的に分離して,モダリティ特化およびモダリティ非依存のLoRAエキスパートを集約するSlide-LoRAを提案する。
様々なベンチマークによる総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-23T10:11:56Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - Multimodal Procedural Planning via Dual Text-Image Prompting [78.73875275944711]
エンボディードエージェントは、タスクを完了するための人間の指示に従う際、顕著なパフォーマンスを達成した。
提案するマルチモーダル手続き計画タスクでは,高レベルな目標をモデルに与え,ペア化されたテキストイメージステップの計画を生成する。
MPPの主な課題は、モダリティを越えた計画の情報性、時間的一貫性、正確性を保証することである。
論文 参考訳(メタデータ) (2023-05-02T21:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。