論文の概要: IUT-Plug: A Plug-in tool for Interleaved Image-Text Generation
- arxiv url: http://arxiv.org/abs/2510.10969v1
- Date: Mon, 13 Oct 2025 03:19:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.180446
- Title: IUT-Plug: A Plug-in tool for Interleaved Image-Text Generation
- Title(参考訳): IUT-Plug: インターリーブ画像テキスト生成のためのプラグインツール
- Authors: Zeteng Lin, Xingxing Li, Wen You, Xiaoyang Li, Zehan Lu, Yujun Cai, Jing Tang,
- Abstract要約: IUT-Plugはイメージ理解ツリー(IUT)に基盤を置くモジュールである
動的IUT-Plug抽出モジュールは、視覚シーンを階層的なシンボル構造に解析する。
協調した物語フローと画像合成機構は、相互整合性を保証する。
- 参考スコア(独自算出の注目度): 23.61167100602915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing vision language models (VLMs), including GPT-4 and DALL-E, often struggle to preserve logic, object identity, and style in multimodal image-text generation. This limitation significantly hinders the generalization capability of VLMs in complex image-text input-output scenarios. To address this issue, we propose IUT-Plug, a module grounded in an Image Understanding Tree (IUT), which enhances existing interleaved VLMs through explicit structured reasoning, thereby mitigating context drift in logic, entity identity, and style. The proposed framework operates in two stages. (1) A dynamic IUT-Plug extraction module parses visual scenes into hierarchical symbolic structures. (2) A coordinated narrative-flow and image synthesis mechanism ensures cross-modal consistency. To evaluate our approach, we construct a novel benchmark based on 3,000 real human-generated question-answer pairs over fine-tuned large models, introducing a dynamic evaluation protocol for quantifying context drift in interleaved VLMs. Experimental results demonstrate that IUT-Plug not only improves accuracy on established benchmarks but also effectively alleviates the three critical forms of context drift across diverse multimodal question answering (QA) scenarios.
- Abstract(参考訳): GPT-4やDALL-Eを含む既存の視覚言語モデル(VLM)は、論理、オブジェクトのアイデンティティ、スタイルをマルチモーダルな画像テキスト生成で保持するのにしばしば苦労する。
この制限は、複雑な画像テキスト入力出力シナリオにおけるVLMの一般化能力を著しく阻害する。
この問題に対処するため,画像理解木 (IUT) を基盤としたモジュール IUT-Plug を提案する。
提案するフレームワークは2段階で動作する。
1)動的IUT-Plug抽出モジュールは視覚シーンを階層的なシンボル構造に解析する。
2) 協調した物語フローと画像合成機構は, 相互整合性を保証する。
提案手法を評価するため,我々は,細調整された大規模モデルに対して,3000個の実人生成質問応答ペアに基づく新しいベンチマークを構築し,VLM間のコンテキストドリフトを定量化するための動的評価プロトコルを導入した。
実験の結果、IUT-Plugは確立されたベンチマークの精度を向上するだけでなく、様々なマルチモーダル質問応答(QA)シナリオにおけるコンテキストドリフトの3つの重要な形態を効果的に緩和することが示された。
関連論文リスト
- Prototype-Aware Multimodal Alignment for Open-Vocabulary Visual Grounding [11.244257545057508]
Prototype-Aware Multimodal Learning (PAML) は、視覚的・言語的モダリティの不完全整合、クロスモーダルな特徴融合の欠如、意味的プロトタイプ情報の有効利用に対処する革新的なフレームワークである。
我々のフレームワークは,オープン語彙シーンにおける最先端の成果を達成しつつ,標準的な場面での競争性能を示す。
論文 参考訳(メタデータ) (2025-09-08T02:27:10Z) - Visual Semantic Description Generation with MLLMs for Image-Text Matching [7.246705430021142]
本稿では,マルチモーダル大言語モデル(MLLM)を視覚的意味論として活用することにより,モダリティギャップを橋渡しする新しいフレームワークを提案する。
提案手法は,(1)視覚特徴とVSDを融合して画像表現の言語表現性を高めることによるインスタンスレベルのアライメント,(2)カテゴリレベルのアライメントを確保するためのVSDクラスタリングによるプロトタイプレベルのアライメントを組み合わせたものである。
論文 参考訳(メタデータ) (2025-07-11T13:38:01Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Unlocking the Capabilities of Large Vision-Language Models for Generalizable and Explainable Deepfake Detection [18.125287697902813]
現在のLVLM(Large Vision-Language Models)は、マルチモーダルデータの理解において顕著な能力を示している。
深度検出のためのLVLMの潜在能力を解き放つ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:20:03Z) - IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。
我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。
3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-03-13T13:00:31Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。