論文の概要: Which One Are You Referring To? Multimodal Object Identification in
Situated Dialogue
- arxiv url: http://arxiv.org/abs/2302.14680v1
- Date: Tue, 28 Feb 2023 15:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 15:47:54.363910
- Title: Which One Are You Referring To? Multimodal Object Identification in
Situated Dialogue
- Title(参考訳): どちらに言及していますか。
位置対話におけるマルチモーダル物体識別
- Authors: Holy Lovenia, Samuel Cahyawijaya, Pascale Fung
- Abstract要約: 本稿では,会話や状況から多モーダル入力を解釈する3つの手法について検討する。
最適手法であるシーン対話アライメントは,SIMMC 2.1ベースラインと比較して20%F1スコアで性能を向上する。
- 参考スコア(独自算出の注目度): 50.279206765971125
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The demand for multimodal dialogue systems has been rising in various
domains, emphasizing the importance of interpreting multimodal inputs from
conversational and situational contexts. We explore three methods to tackle
this problem and evaluate them on the largest situated dialogue dataset, SIMMC
2.1. Our best method, scene-dialogue alignment, improves the performance by
~20% F1-score compared to the SIMMC 2.1 baselines. We provide analysis and
discussion regarding the limitation of our methods and the potential directions
for future works. Our code is publicly available at
https://github.com/holylovenia/multimodal-object-identification.
- Abstract(参考訳): 様々な領域においてマルチモーダル対話システムに対する需要が高まり、会話的・状況的文脈からのマルチモーダル入力の解釈の重要性が強調されている。
本稿では,この問題に対処する3つの手法を探索し,最大位置の対話データセット SIMMC 2.1 で評価する。
最良手法であるシーン対話アライメントは,SIMMC 2.1ベースラインに比べてF1スコアが約20%向上する。
我々は,本手法の限界と今後の研究の今後の方向性について,分析と議論を行う。
私たちのコードはhttps://github.com/holylovenia/multimodal-object-identificationで公開されています。
関連論文リスト
- ChatterBox: Multi-round Multimodal Referring and Grounding [108.9673313949746]
この目的のために,新しいベンチマークと効率的な視覚言語モデルを提案する。
提案したChatterBoxは、2ブランチアーキテクチャを使って視覚と言語タスクを協調的に処理する。
実験の結果、ChatterBoxはMRGの既存のモデルよりも定量的にも質的にも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-24T09:02:00Z) - Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal
Open-domain Conversation [68.53133207668856]
マルチモーダル会話をより容易にするためのMDDialogデータセットを導入する。
MMDialogは1億800万の現実世界の対話と4,184のトピックにわたる1億3300万のユニークな画像からなるキュレートされたセットで構成されている。
このデータセットを用いて対話システムを構築するために,2つの応答生成タスクを提案し,標準化する。
論文 参考訳(メタデータ) (2022-11-10T17:37:04Z) - Beyond the Granularity: Multi-Perspective Dialogue Collaborative
Selection for Dialogue State Tracking [18.172993687706708]
対話状態追跡においては、対話履歴は重要な材料であり、その利用法は異なるモデルによって異なる。
状態更新のために各スロットに対応する対話内容を動的に選択するDiCoS-DSTを提案する。
提案手法は,MultiWOZ 2.1およびMultiWOZ 2.2上での最先端性能を実現し,複数の主流ベンチマークデータセット上での優れた性能を実現する。
論文 参考訳(メタデータ) (2022-05-20T10:08:45Z) - M3ED: Multi-modal Multi-scene Multi-label Emotional Dialogue Database [139.08528216461502]
マルチモーダルマルチシーンマルチラベル感情対話データセットM3EDを提案する。
M3EDには56の異なるテレビシリーズの990のダイアドの感情対話があり、合計9,082回、24,449発の発声がある。
我々の知る限りでは、M3EDは中国語における最初のマルチモーダル感情対話データセットである。
論文 参考訳(メタデータ) (2022-05-09T06:52:51Z) - UNITER-Based Situated Coreference Resolution with Rich Multimodal Input [9.227651071050339]
本稿では,Situated and Interactive Multimodal Conversation 2.0データセットのマルチモーダルコア参照解決タスクについて述べる。
本稿では, リッチなマルチモーダルコンテキストを利用して, 現在のダイアログターンで現在シーンの各オブジェクトが言及されているかどうかを判定するUNITERモデルを提案する。
モデルアンサンブル後のF1スコアは73.3%であった。
論文 参考訳(メタデータ) (2021-12-07T06:31:18Z) - SIMMC 2.0: A Task-oriented Dialog Dataset for Immersive Multimodal
Conversations [9.626560177660634]
SIMMC 2.0は、マルチモーダルアシスタントエージェントの構築を成功に導くことを目的としています。
このデータセットは、ショッピングドメイン上のユーザーと仮想アシスタントの間の11Kタスク指向ダイアログ(117K発話)を備えています。
論文 参考訳(メタデータ) (2021-04-18T00:14:29Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - Multi-View Attention Network for Visual Dialog [5.731758300670842]
1) エージェントが質問の意味的意図を判断し, 2) 質問関連テキスト, 視覚的内容の調整を行う必要がある。
異種入力に関する複数のビューを利用するマルチビュー注意ネットワーク(MVAN)を提案する。
MVANは、2つの補完モジュールでダイアログ履歴から質問関連情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。