論文の概要: ContextQFormer: A New Context Modeling Method for Multi-Turn Multi-Modal Conversations
- arxiv url: http://arxiv.org/abs/2505.23121v1
- Date: Thu, 29 May 2025 05:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.701364
- Title: ContextQFormer: A New Context Modeling Method for Multi-Turn Multi-Modal Conversations
- Title(参考訳): ContextQFormer:マルチターンマルチモーダル会話のための新しいコンテキストモデリング手法
- Authors: Yiming Lei, Zhizheng Yang, Zeming Liu, Haitao Leng, Shaoguo Liu, Tingting Gao, Qingjie Liu, Yunhong Wang,
- Abstract要約: コンテキスト情報表現を強化するためのコンテキストモデリングモジュールであるContextQFormerを導入する。
さらなる研究を容易にするために, 事前学習, 指導指導, 評価のためのマルチターンマルチモーダル対話データセット(TMDialog)を構築した。
さらに、ContextQFormerはTMDialogの3つのベースラインと比較され、実験の結果、ContextQFormerはベースラインよりも利用率2%-4%の改善を実現している。
- 参考スコア(独自算出の注目度): 38.40471808648207
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-modal large language models have demonstrated remarkable zero-shot abilities and powerful image-understanding capabilities. However, the existing open-source multi-modal models suffer from the weak capability of multi-turn interaction, especially for long contexts. To address the issue, we first introduce a context modeling module, termed ContextQFormer, which utilizes a memory block to enhance the presentation of contextual information. Furthermore, to facilitate further research, we carefully build a new multi-turn multi-modal dialogue dataset (TMDialog) for pre-training, instruction-tuning, and evaluation, which will be open-sourced lately. Compared with other multi-modal dialogue datasets, TMDialog contains longer conversations, which supports the research of multi-turn multi-modal dialogue. In addition, ContextQFormer is compared with three baselines on TMDialog and experimental results illustrate that ContextQFormer achieves an improvement of 2%-4% in available rate over baselines.
- Abstract(参考訳): マルチモーダルな大言語モデルは、目覚ましいゼロショット能力と強力な画像理解能力を示してきた。
しかし、既存のオープンソースマルチモーダルモデルは、特に長いコンテキストにおいて、マルチターン相互作用の弱い能力に悩まされている。
この問題に対処するために,我々はまずコンテキストモデリングモジュールであるContextQFormerを紹介した。
さらに,新たなマルチターン多モード対話データセット (TMDialog) を慎重に構築し,事前学習,命令チューニング,評価を行う。
他のマルチモーダル対話データセットと比較すると、TMDialogには長い会話が含まれており、マルチターン多モーダル対話の研究を支援する。
さらに、ContextQFormerはTMDialogの3つのベースラインと比較され、実験の結果、ContextQFormerはベースラインよりも利用率2%-4%の改善を実現している。
関連論文リスト
- DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via
Multi-Modal Causal Attention [55.2825684201129]
DeepSpeed-VisualChatは、マルチモーダル機能を組み込むことで、LLM(Large Language Models)を最適化するように設計されている。
筆者らのフレームワークは,(1)マルチラウンド・マルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果注意機構の導入,(3)既存のデータセットにデータブレンディング技術を活用してシームレスな対話を実現すること,などが特徴である。
論文 参考訳(メタデータ) (2023-09-25T17:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。