論文の概要: FlexMUSE: Multimodal Unification and Semantics Enhancement Framework with Flexible interaction for Creative Writing
- arxiv url: http://arxiv.org/abs/2508.16230v1
- Date: Fri, 22 Aug 2025 09:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.330078
- Title: FlexMUSE: Multimodal Unification and Semantics Enhancement Framework with Flexible interaction for Creative Writing
- Title(参考訳): FlexMUSE: 創造的記述のためのフレキシブルインタラクションを備えたマルチモーダル統一とセマンティックス強化フレームワーク
- Authors: Jiahao Chen, Zhiyong Ma, Wenbiao Du, Qingyuan Chuai,
- Abstract要約: マルチモーダル・クリエイティブ・ライティング(MMCW)は、イラスト入り記事を作成することを目的としている。
MMCWは完全に新しい、より抽象的な課題であり、テキストと視覚のコンテキストは互いに厳密に関連していない。
任意の視覚入力を可能にするために,T2Iモジュールを用いたFlexMUSEを提案する。
- 参考スコア(独自算出の注目度): 4.587146567965601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal creative writing (MMCW) aims to produce illustrated articles. Unlike common multi-modal generative (MMG) tasks such as storytelling or caption generation, MMCW is an entirely new and more abstract challenge where textual and visual contexts are not strictly related to each other. Existing methods for related tasks can be forcibly migrated to this track, but they require specific modality inputs or costly training, and often suffer from semantic inconsistencies between modalities. Therefore, the main challenge lies in economically performing MMCW with flexible interactive patterns, where the semantics between the modalities of the output are more aligned. In this work, we propose FlexMUSE with a T2I module to enable optional visual input. FlexMUSE promotes creativity and emphasizes the unification between modalities by proposing the modality semantic alignment gating (msaGate) to restrict the textual input. Besides, an attention-based cross-modality fusion is proposed to augment the input features for semantic enhancement. The modality semantic creative direct preference optimization (mscDPO) within FlexMUSE is designed by extending the rejected samples to facilitate the writing creativity. Moreover, to advance the MMCW, we expose a dataset called ArtMUSE which contains with around 3k calibrated text-image pairs. FlexMUSE achieves promising results, demonstrating its consistency, creativity and coherence.
- Abstract(参考訳): マルチモーダル・クリエイティブ・ライティング(MMCW)は、イラスト入り記事を作成することを目的としている。
ストーリーテリングやキャプション生成のような一般的なマルチモーダル生成(MMG)タスクとは異なり、MCCWは完全に新しく抽象的な課題であり、テキストと視覚的コンテキストは厳密には関係しない。
既存のタスクの方法は強制的にこのトラックに移行することができるが、それらは特定のモダリティ入力やコストのかかる訓練を必要とし、しばしばモダリティ間の意味的不整合に悩まされる。
したがって、主な課題は、出力のモダリティ間のセマンティクスがより整合している柔軟な対話パターンでMCCWを経済的に実行することである。
本稿では,任意の視覚入力を可能にするために,T2Iモジュールを用いたFlexMUSEを提案する。
FlexMUSEは創造性を促進し、モダリティ間の統一を強調し、テキスト入力を制限するためにモダリティセマンティックアライメントゲーティング(msaGate)を提案している。
さらに, セマンティックエンハンスメントのための入力機能を強化するために, 注意に基づく相互モーダリティ融合を提案する。
FlexMUSE内のモダリティ・セマンティック・クリエイティブ・ダイレクト・プライオリティ・最適化(mscDPO)は、記述のクリエイティビティを促進するために、削除されたサンプルを拡張して設計されている。
さらに、MCCWを前進させるために、約3kの校正されたテキストイメージペアを含むArtMUSEと呼ばれるデータセットを公開する。
FlexMUSEは、一貫性、創造性、一貫性を示し、有望な結果を達成する。
関連論文リスト
- Multimodal Chain of Continuous Thought for Latent-Space Reasoning in Vision-Language Models [0.0]
本稿では,連続思考のマルチモーダル連鎖(MCOUT)を提案する。
MCOUTはマルチモーダル推論を継続的に改善し,高いベースラインに対して最大8.23%の精度向上が得られることを示す。
以上の結果から,言語関連CoTを超えてLMMを推し進めるための有望な方向として,潜時的連続推論が注目されている。
論文 参考訳(メタデータ) (2025-08-18T02:50:20Z) - Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model [43.533849239738394]
Stream-Omniは、効率的なモダリティアライメントを備えた大きな言語ビジョン音声モデルである。
様々なモダリティの組み合わせの下での相互作用を同時にサポートすることができる。
視覚的理解、音声対話、および視覚的な音声対話タスクにおいて、高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-16T16:06:45Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。