論文の概要: DiaLoc: An Iterative Approach to Embodied Dialog Localization
- arxiv url: http://arxiv.org/abs/2403.06846v1
- Date: Mon, 11 Mar 2024 16:03:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 18:26:38.399066
- Title: DiaLoc: An Iterative Approach to Embodied Dialog Localization
- Title(参考訳): DiaLoc: 身体的ダイアログの局在化への反復的アプローチ
- Authors: Chao Zhang, Mohan Li, Ignas Budvytis, Stephan Liwicki
- Abstract要約: そこで我々は,実際の人間の動作に合わせたダイアログベースの新たなローカライゼーションフレームワークであるDiaLocを提案する。
DiaLocはマルチモーダルデータをマルチショットローカライズに効果的に利用し、融合エンコーダは視覚と対話情報を反復的に融合する。
Acc5@valUnseenでは+7.08%) とマルチショット設定(Acc5@valUnseenでは+10.85%) で、エンボディダイアログベースのローカライゼーションタスクの最先端結果を得る。
- 参考スコア(独自算出の注目度): 19.70282217413456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal learning has advanced the performance for many vision-language
tasks. However, most existing works in embodied dialog research focus on
navigation and leave the localization task understudied. The few existing
dialog-based localization approaches assume the availability of entire dialog
prior to localizaiton, which is impractical for deployed dialog-based
localization. In this paper, we propose DiaLoc, a new dialog-based localization
framework which aligns with a real human operator behavior. Specifically, we
produce an iterative refinement of location predictions which can visualize
current pose believes after each dialog turn. DiaLoc effectively utilizes the
multimodal data for multi-shot localization, where a fusion encoder fuses
vision and dialog information iteratively. We achieve state-of-the-art results
on embodied dialog-based localization task, in single-shot (+7.08% in
Acc5@valUnseen) and multi- shot settings (+10.85% in Acc5@valUnseen). DiaLoc
narrows the gap between simulation and real-world applications, opening doors
for future research on collaborative localization and navigation.
- Abstract(参考訳): マルチモーダル学習は多くの視覚言語タスクのパフォーマンスが向上した。
しかし、具体化ダイアログ研究の既存の作品の多くはナビゲーションに重点を置いており、ローカライズ作業は未検討のままである。
既存のダイアログベースのローカライゼーションアプローチでは,ローカライザイトンよりも前のダイアログ全体の可用性を前提としている。
本稿では,実際の人間の動作に合わせた対話型ローカライズフレームワークDiaLocを提案する。
具体的には、各ダイアログのターン後に現在のポーズを可視化する位置予測を反復的に改善する。
DiaLocはマルチモーダルデータをマルチショットローカライズに有効利用し、融合エンコーダは視覚と対話情報を反復的に融合する。
本研究では,シングルショット (acc5@valunseen で+7.08%) とマルチショット設定 (acc5@valunseen で+10.85%) において,具体化されたダイアログベースのローカライゼーションタスクの最先端結果を得る。
DiaLocはシミュレーションと現実世界のアプリケーションの間のギャップを狭め、将来の共同ローカライゼーションとナビゲーションの研究の扉を開く。
関連論文リスト
- ChatZero:Zero-shot Cross-Lingual Dialogue Generation via Pseudo-Target Language [53.8622516025736]
そこで本研究では,言語間符号切替方式に基づく,エンドツーエンドのゼロショット対話生成モデルChatZeroを提案する。
多言語DailyDialogとDSTC7-AVSDデータセットの実験は、ChatZeroが元のパフォーマンスの90%以上を達成することを示した。
論文 参考訳(メタデータ) (2024-08-16T13:11:53Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Contextual Data Augmentation for Task-Oriented Dialog Systems [8.085645180329417]
本研究では,ユーザターンを生成する新しいダイアログ拡張モデルを構築し,完全なダイアログコンテキストを条件づける。
言語モデルの新しいプロンプト設計と出力の再ランク付けにより、我々のモデルから生成されたダイアログを直接使用して、下流ダイアログシステムのトレーニングを行うことができる。
論文 参考訳(メタデータ) (2023-10-16T13:22:34Z) - DialogStudio: Towards Richest and Most Diverse Unified Dataset
Collection for Conversational AI [92.29874802394167]
DialogStudioは対話データセットの最大かつ最も多様なコレクションである。
本コレクションは,オープンドメイン対話,タスク指向対話,自然言語理解,対話レコメンデーション,対話要約,知識基底対話などのデータを含む。
論文 参考訳(メタデータ) (2023-07-19T17:57:53Z) - DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.714919036388]
DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。
実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-20T06:21:21Z) - Multimodal Dialogue State Tracking [97.25466640240619]
Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。
VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
論文 参考訳(メタデータ) (2022-06-16T03:18:42Z) - "Think Before You Speak": Improving Multi-Action Dialog Policy by
Planning Single-Action Dialogs [33.78889030078026]
マルチアクションダイアログポリシー(MADP)は、ターンごとに複数のアトミックダイアログアクションを生成する。
シングルアクションダイアログダイナミクスを学習する新しいマルチタスク学習フレームワークであるPlanning Enhanced Dialog Policy (PEDP)を提案する。
完全教師付き学習ベース手法は, タスク成功率90.6%を達成し, 最先端の手法に比べて3%向上した。
論文 参考訳(メタデータ) (2022-04-25T07:55:53Z) - What Did You Say? Task-Oriented Dialog Datasets Are Not Conversational!? [4.022057598291766]
我々は,MultiWOZ,SGD,SMCalFlowの対話効果と文脈効果の分類を概説する。
我々は、MultiWOZのターンの4%未満、SGDのターンの10%が会話型であるのに対して、SMCalFlowは現在のリリースでは会話型ではないことを発見した。
論文 参考訳(メタデータ) (2022-03-07T14:26:23Z) - A Context-Aware Hierarchical BERT Fusion Network for Multi-turn Dialog
Act Detection [6.361198391681688]
CaBERT-SLUはコンテキスト対応階層型BERT融合ネットワーク(CaBERT-SLU)である
提案手法は,2つの複雑なマルチターン対話データセットにおいて,最新技術(SOTA)のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2021-09-03T02:00:03Z) - CrossWOZ: A Large-Scale Chinese Cross-Domain Task-Oriented Dialogue
Dataset [58.910961297314415]
CrossWOZは、中国のCross-Domain Wizard-of-Ozタスク指向データセットとしては初めての大規模である。
6K対話セッションと、ホテル、レストラン、アトラクション、メトロ、タクシーを含む5つのドメインの102K発話が含まれている。
論文 参考訳(メタデータ) (2020-02-27T03:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。