論文の概要: Multimodal Interactions Using Pretrained Unimodal Models for SIMMC 2.0
- arxiv url: http://arxiv.org/abs/2112.05328v2
- Date: Mon, 13 Dec 2021 04:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 11:40:38.708256
- Title: Multimodal Interactions Using Pretrained Unimodal Models for SIMMC 2.0
- Title(参考訳): SIMMC 2.0のための事前訓練単モーダルモデルを用いたマルチモーダルインタラクション
- Authors: Joosung Lee, Kijong Han
- Abstract要約: 本稿では,Dialog State Tracking Challenge 10で実施されたSituated Interactive MultiModal Conversations 2.0の課題について述べる。
本稿では,サブタスク#1,#2およびサブタスク#5の生成に対するマルチモーダルアプローチを紹介する。
サブタスク#1,#2では3位,サブタスク#5では1位である。
- 参考スコア(独自算出の注目度): 1.599072005190786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents our work on the Situated Interactive MultiModal
Conversations 2.0 challenge held at Dialog State Tracking Challenge 10. SIMMC
2.0 includes 4 subtasks, and we introduce our multimodal approaches for the
subtask \#1, \#2 and the generation of subtask \#4. SIMMC 2.0 dataset is a
multimodal dataset containing image and text information, which is more
challenging than the problem of only text-based conversations because it must
be solved by understanding the relationship between image and text. Therefore,
since there is a limit to solving only text models such as BERT or GPT2, we
propose a multimodal model combining image and text. We first pretrain the
multimodal model to understand the relationship between image and text, then
finetune our model for each task. We achieve the 3rd best performance in
subtask \#1, \#2 and a runner-up in the generation of subtask \#4. The source
code is available at https://github.com/rungjoo/simmc2.0.
- Abstract(参考訳): 本稿では,Dialog State Tracking Challenge 10で実施されたSituated Interactive MultiModal Conversations 2.0の課題について述べる。
SIMMC 2.0には4つのサブタスクが含まれており、サブタスク \#1, \#2 とサブタスク \#4 の生成に対するマルチモーダルアプローチを導入しています。
SIMMC 2.0データセットは、画像とテキスト情報を含むマルチモーダルデータセットであり、画像とテキストの関係を理解することで解決する必要があるため、テキストベースの会話の問題よりも難しい。
したがって,BERT や GPT2 のようなテキストモデルのみを解決するには限界があるため,画像とテキストを組み合わせたマルチモーダルモデルを提案する。
まず、画像とテキストの関係を理解するためにマルチモーダルモデルを事前訓練し、タスク毎にモデルを微調整する。
我々は,subtask \#1, \#2における3番目に優れた性能と,subtask \#4の生成におけるランナーアップを達成する。
ソースコードはhttps://github.com/rungjoo/simmc2.0で入手できる。
関連論文リスト
- Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。
本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。
本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文 参考訳(メタデータ) (2024-07-14T07:12:25Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - A Dual-way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking [17.847936914174543]
マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及を多モーダル情報にリンクすることを目的としている。
我々は、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題として、マルチモーダルエンティティリンクを定式化する。
本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:15:50Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models [60.81438804824749]
マルチモーダル命令追従モデルは、テキストと画像を統合することで機能を拡張する。
MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で課題に直面している。
本稿では,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介する。
次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。
論文 参考訳(メタデータ) (2023-08-31T05:15:27Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - SIMMC 2.0: A Task-oriented Dialog Dataset for Immersive Multimodal
Conversations [9.626560177660634]
SIMMC 2.0は、マルチモーダルアシスタントエージェントの構築を成功に導くことを目的としています。
このデータセットは、ショッピングドメイン上のユーザーと仮想アシスタントの間の11Kタスク指向ダイアログ(117K発話)を備えています。
論文 参考訳(メタデータ) (2021-04-18T00:14:29Z) - Visual Grounding Strategies for Text-Only Natural Language Processing [1.2183405753834562]
BERTのマルチモーダル拡張は、視覚的質問回答などのマルチモーダルタスクに最先端の結果をもたらすテキストと画像の共同モデリングを可能にします。
本稿では,マルチモーダル事前学習がテキスト処理精度を向上させる基礎となることを期待して,純粋にテキストタスクにマルチモーダルモデリングを利用する。
転送グラウンドと呼ばれる最初のタイプの戦略は、テキストのみのタスクにマルチモーダルモデルを適用し、プレースホルダーを使って画像入力を置き換える。
2つ目は「連想的接地」と呼ばれ、画像検索を利用してテキストと関連画像のマッチングを行う。
論文 参考訳(メタデータ) (2021-03-25T16:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。