論文の概要: Stark: Social Long-Term Multi-Modal Conversation with Persona Commonsense Knowledge
- arxiv url: http://arxiv.org/abs/2407.03958v1
- Date: Thu, 4 Jul 2024 14:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 17:43:28.626131
- Title: Stark: Social Long-Term Multi-Modal Conversation with Persona Commonsense Knowledge
- Title(参考訳): Stark:ペルソナ・コモンセンス知識を用いた長期多言語会話
- Authors: Young-Jun Lee, Dokyong Lee, Junyoung Youn, Kyeongjin Oh, Byungsoo Ko, Jonghwan Hyeon, Ho-Jin Choi,
- Abstract要約: マルチモダリティフォーマット、時間間隔、イメージで、幅広いソーシャルペルソナをカバーするデータセットであるStarkを紹介した。
Starkを自動構築するために,新しいマルチモーダル文脈化フレームワークであるMcuを提案する。
Starkを使ってマルチモーダルな会話モデルUltron 7Bをトレーニングします。
- 参考スコア(独自算出の注目度): 13.983067497822615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans share a wide variety of images related to their personal experiences within conversations via instant messaging tools. However, existing works focus on (1) image-sharing behavior in singular sessions, leading to limited long-term social interaction, and (2) a lack of personalized image-sharing behavior. In this work, we introduce Stark, a large-scale long-term multi-modal conversation dataset that covers a wide range of social personas in a multi-modality format, time intervals, and images. To construct Stark automatically, we propose a novel multi-modal contextualization framework, Mcu, that generates long-term multi-modal dialogue distilled from ChatGPT and our proposed Plan-and-Execute image aligner. Using our Stark, we train a multi-modal conversation model, Ultron 7B, which demonstrates impressive visual imagination ability. Furthermore, we demonstrate the effectiveness of our dataset in human evaluation. We make our source code and dataset publicly available.
- Abstract(参考訳): 人間はインスタントメッセージングツールを通じて会話の中での個人的な経験に関連するさまざまな画像を共有する。
しかし,既存の研究は,(1)特定のセッションにおける画像共有行動に着目し,(2)個人化された画像共有行動が欠如していることに焦点が当てられている。
本稿では,マルチモーダル形式,時間間隔,画像など,幅広いソーシャルペルソナをカバーする大規模長期マルチモーダル会話データセットであるStarkを紹介する。
Starkを自動構築するために,ChatGPTと提案したPlan-and-Execute画像整合器から抽出した長期マルチモーダル対話を生成する,新しいマルチモーダル文脈化フレームワークMcuを提案する。
Starkを使ってマルチモーダルな会話モデルUltron 7Bをトレーニングします。
さらに,人間の評価におけるデータセットの有効性を示す。
ソースコードとデータセットを公開しています。
関連論文リスト
- Thanos: Enhancing Conversational Agents with Skill-of-Mind-Infused Large Language Model [5.505013339790826]
本稿では,多様な社会的文脈を基盤とした,ミンドのスキル・オブ・アノテートされた会話データセットを提案する。
モデルサイズは1B, 3B, 8B である。
広範な実験により、これらのモデルはミルドのスキル・オブ・ミンド・プロセスの実証に成功し、強力な一般化性を示す。
論文 参考訳(メタデータ) (2024-11-07T07:46:06Z) - SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via
Multi-Modal Causal Attention [55.2825684201129]
DeepSpeed-VisualChatは、マルチモーダル機能を組み込むことで、LLM(Large Language Models)を最適化するように設計されている。
筆者らのフレームワークは,(1)マルチラウンド・マルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果注意機構の導入,(3)既存のデータセットにデータブレンディング技術を活用してシームレスな対話を実現すること,などが特徴である。
論文 参考訳(メタデータ) (2023-09-25T17:53:29Z) - Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models [60.81438804824749]
マルチモーダル命令追従モデルは、テキストと画像を統合することで機能を拡張する。
MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で課題に直面している。
本稿では,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介する。
次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。
論文 参考訳(メタデータ) (2023-08-31T05:15:27Z) - MPCHAT: Towards Multimodal Persona-Grounded Conversation [54.800425322314105]
我々はペルソナに基づく対話をマルチモーダル領域に拡張し、2つの主要な貢献をする。
まず,MPCHATという対話データセットを提案する。
第2に,マルチモーダル・ペルソナを組み込んだ多モーダル・ペルソナの対話タスクが,統計的に有意な性能向上をもたらすことを実証的に示す。
論文 参考訳(メタデータ) (2023-05-27T06:46:42Z) - DialogCC: An Automated Pipeline for Creating High-Quality Multi-Modal Dialogue Dataset [18.449076451976236]
本稿では,マルチモーダル対話データセットを構築するための自動パイプラインを提案する。
我々のパイプラインでは、画像と対話のコヒーレンスを保証するため、GPT-4に潜在的な画像共有モーメントを推測するよう促す。
このパイプラインを通じて、高品質で多様な多モード対話データセットであるDialogCCを紹介する。
論文 参考訳(メタデータ) (2022-12-08T07:29:07Z) - MMChat: Multi-Modal Chat Dataset on Social Media [8.904627457711683]
MMChatは大規模多モード対話コーパス(32.4Mの生対話と120.84Kのフィルタリング対話)
架空の映画からクラウドソースまたは収集された以前のコーパスとは異なり、MMChatはソーシャルメディア上の実際の会話から収集された画像付き対話を含んでいる。
画像特徴量にアテンションルーティング機構を適用することで,対話生成タスクにおけるこの問題に対処するベンチマークモデルを開発した。
論文 参考訳(メタデータ) (2021-08-16T15:27:49Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。