論文の概要: UNITER-Based Situated Coreference Resolution with Rich Multimodal Input
- arxiv url: http://arxiv.org/abs/2112.03521v1
- Date: Tue, 7 Dec 2021 06:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 13:34:15.879486
- Title: UNITER-Based Situated Coreference Resolution with Rich Multimodal Input
- Title(参考訳): リッチマルチモーダル入力を用いたUNITER-based Situated Coreference Resolution
- Authors: Yichen Huang, Yuchen Wang, Yik-Cheung Tam
- Abstract要約: 本稿では,Situated and Interactive Multimodal Conversation 2.0データセットのマルチモーダルコア参照解決タスクについて述べる。
本稿では, リッチなマルチモーダルコンテキストを利用して, 現在のダイアログターンで現在シーンの各オブジェクトが言及されているかどうかを判定するUNITERモデルを提案する。
モデルアンサンブル後のF1スコアは73.3%であった。
- 参考スコア(独自算出の注目度): 9.227651071050339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present our work on the multimodal coreference resolution task of the
Situated and Interactive Multimodal Conversation 2.0 (SIMMC 2.0) dataset as a
part of the tenth Dialog System Technology Challenge (DSTC10). We propose a
UNITER-based model utilizing rich multimodal context such as textual dialog
history, object knowledge base and visual dialog scenes to determine whether
each object in the current scene is mentioned in the current dialog turn.
Results show that the proposed approach outperforms the official DSTC10
baseline substantially, with the object F1 score boosted from 36.6% to 77.3% on
the development set, demonstrating the effectiveness of the proposed object
representations from rich multimodal input. Our model ranks second in the
official evaluation on the object coreference resolution task with an F1 score
of 73.3% after model ensembling.
- Abstract(参考訳): 本稿では,第10回Dialog System Technology Challenge(DSTC10)の一環として,Situated and Interactive Multimodal Conversation 2.0 (SIMMC 2.0)データセットのマルチモーダルコア参照解決タスクについて述べる。
テキストダイアログ履歴やオブジェクト知識ベース,ビジュアルダイアログシーンなどのリッチなマルチモーダルコンテキストを利用して,現在のダイアログターンで各オブジェクトが言及されているかどうかを判定する。
その結果,提案手法はDSTC10ベースラインを著しく上回り,オブジェクトF1スコアは36.6%から77.3%に向上し,リッチマルチモーダル入力によるオブジェクト表現の有効性が示された。
提案手法は,モデル・センスリング後のf1得点73.3%で,オブジェクト・コリファレンス解決タスクの公式評価で第2位にランクする。
関連論文リスト
- S3: A Simple Strong Sample-effective Multimodal Dialog System [61.31055673156622]
本稿では,多モーダルダイアログタスクであるS3モデルに対して,概念的にシンプルだが強力なベースラインを提案する。
このシステムは、訓練済みの大規模言語モデル、画像とオーディオのための訓練済みのモダリティエンコーダ、および訓練可能なモダリティプロジェクタに基づいている。
論文 参考訳(メタデータ) (2024-06-26T12:45:43Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - ChatterBox: Multi-round Multimodal Referring and Grounding [108.9673313949746]
この目的のために,新しいベンチマークと効率的な視覚言語モデルを提案する。
提案したChatterBoxは、2ブランチアーキテクチャを使って視覚と言語タスクを協調的に処理する。
実験の結果、ChatterBoxはMRGの既存のモデルよりも定量的にも質的にも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-24T09:02:00Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Application of frozen large-scale models to multimodal task-oriented
dialogue [0.0]
既存のLarge Language Models ENnhanced to See Framework(LENS Framework)を使用して、マルチモーダルタスク指向対話の実現可能性をテストする。
LENS Frameworkは、追加のトレーニングや事前訓練されたモデルの固定パラメータなしでコンピュータビジョンタスクを解く方法として提案されている。
論文 参考訳(メタデータ) (2023-10-02T01:42:28Z) - Which One Are You Referring To? Multimodal Object Identification in
Situated Dialogue [50.279206765971125]
本稿では,会話や状況から多モーダル入力を解釈する3つの手法について検討する。
最適手法であるシーン対話アライメントは,SIMMC 2.1ベースラインと比較して20%F1スコアで性能を向上する。
論文 参考訳(メタデータ) (2023-02-28T15:45:20Z) - Modeling Long Context for Task-Oriented Dialogue State Generation [51.044300192906995]
本稿では,シンプルで効果的な発話タグ付け手法と双方向言語モデルを用いたマルチタスク学習モデルを提案する。
提案手法は,入力対話コンテキストシーケンスが長い場合に,ベースラインの性能が著しく低下する,という問題を解決する。
本実験では,MultiWOZ 2.0データセットにおいて,ベースラインに対して7.03%の相対的改善を実現し,新しい最先端のジョイントゴール精度を52.04%に設定した。
論文 参考訳(メタデータ) (2020-04-29T11:02:25Z) - Multi-step Joint-Modality Attention Network for Scene-Aware Dialogue
System [13.687071779732285]
本稿では,リカレントニューラルネットワーク(RNN)に基づく多段階共同モダリティアテンションネットワーク(JMAN)を提案する。
本モデルでは,ROUGE-LスコアとCIDErスコアのベースラインよりも12.1%,22.4%向上した。
論文 参考訳(メタデータ) (2020-01-17T09:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。