論文の概要: Reference Resolution and Context Change in Multimodal Situated Dialogue
for Exploring Data Visualizations
- arxiv url: http://arxiv.org/abs/2209.02215v1
- Date: Tue, 6 Sep 2022 04:43:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 13:37:09.022501
- Title: Reference Resolution and Context Change in Multimodal Situated Dialogue
for Exploring Data Visualizations
- Title(参考訳): データ可視化のためのマルチモーダル対話における参照分解能と文脈変化
- Authors: Abhinav Kumar, Barbara Di Eugenio, Abari Bhattacharya, Jillian
Aurisano, Andrew Johnson
- Abstract要約: マルチモーダル対話における大画面ディスプレイ上での可視化への参照の解決に焦点をあてる。
言語と手振りで大画面に表示される視覚化へのユーザ参照に関するアノテーションについて述べる。
本稿では,参照の検出と解決,モデル上でのコンテキスト情報の有効性,視覚化のための不特定要求について報告する。
- 参考スコア(独自算出の注目度): 3.5813777917429515
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reference resolution, which aims to identify entities being referred to by a
speaker, is more complex in real world settings: new referents may be created
by processes the agents engage in and/or be salient only because they belong to
the shared physical setting. Our focus is on resolving references to
visualizations on a large screen display in multimodal dialogue; crucially,
reference resolution is directly involved in the process of creating new
visualizations. We describe our annotations for user references to
visualizations appearing on a large screen via language and hand gesture and
also new entity establishment, which results from executing the user request to
create a new visualization. We also describe our reference resolution pipeline
which relies on an information-state architecture to maintain dialogue context.
We report results on detecting and resolving references, effectiveness of
contextual information on the model, and under-specified requests for creating
visualizations. We also experiment with conventional CRF and deep learning /
transformer models (BiLSTM-CRF and BERT-CRF) for tagging references in user
utterance text. Our results show that transfer learning significantly boost
performance of the deep learning methods, although CRF still out-performs them,
suggesting that conventional methods may generalize better for low resource
data.
- Abstract(参考訳): 話者によって参照されるエンティティを特定することを目的とした参照解決は、現実世界の設定ではより複雑である。
我々の焦点は、マルチモーダル対話において、大きな画面ディスプレイ上の視覚化への参照を解決することであり、重要なことに、参照解決は、新しい視覚化を作成するプロセスに直接関係している。
言語や手の動きを通じて大きな画面に現れる視覚化や,ユーザ要求を実行して新たな視覚化を作成する新たなエンティティの確立など,ユーザリファレンスに対するアノテーションについて述べる。
また,対話コンテキストを維持するための情報状態アーキテクチャに依存する参照解決パイプラインについても述べる。
本報告では,参照の検出と解決,モデルの文脈情報の有効性,可視化作成のための不特定要求について報告する。
また,従来のCRFおよびディープラーニング/トランスフォーマーモデル(BiLSTM-CRFとBERT-CRF)を用いて,ユーザの発話テキストの参照をタグ付けする実験を行った。
以上の結果から,移動学習は深層学習法の性能を著しく向上させるが,CRFはそれよりも優れており,従来の手法が低資源データに対してより良く一般化できることが示唆された。
関連論文リスト
- Enhancing Multimodal Query Representation via Visual Dialogues for End-to-End Knowledge Retrieval [26.585985828583304]
本稿では,マルチモーダルクエリを理解可能なテキスト検索機能を実現するために,エンドツーエンドのマルチモーダル検索システムRet-XKnowを提案する。
マルチモーダルインタラクションを効果的に学習するために、視覚対話データセットから構築したVisual Dialogue-to-Retrievalデータセットも導入する。
提案手法は,ゼロショット設定における検索性能を大幅に向上するだけでなく,微調整シナリオの大幅な改善も達成できることを示す。
論文 参考訳(メタデータ) (2024-11-13T04:32:58Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Knowledge Graphs and Pre-trained Language Models enhanced Representation Learning for Conversational Recommender Systems [58.561904356651276]
本稿では,対話型推薦システムのためのエンティティの意味理解を改善するために,知識強化型エンティティ表現学習(KERL)フレームワークを紹介する。
KERLは知識グラフと事前訓練された言語モデルを使用して、エンティティの意味的理解を改善する。
KERLはレコメンデーションとレスポンス生成の両方のタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-12-18T06:41:23Z) - Resolving References in Visually-Grounded Dialogue via Text Generation [3.8673630752805446]
視覚言語モデル(VLM)は、単純なテキストクエリに基づく画像検索に有効であることが示されているが、会話入力に基づくテキスト画像検索は依然として課題である。
本稿では,言語文脈における中核的情報を要約した明確な記述を生成するために,因果的大言語モデル(LLM)の微調整を提案する。
次に、予め訓練されたVLMを使用して、生成された記述、ゼロショットに基づいて参照を識別する。
論文 参考訳(メタデータ) (2023-09-23T17:07:54Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - ReSee: Responding through Seeing Fine-grained Visual Knowledge in
Open-domain Dialogue [34.223466503256766]
視覚的知識をよりきめ細かな粒度に分割することで多モーダル対話を構築するための新しいパラダイムを提供する。
拡張視覚情報の精度と多様性を高めるため、インターネットや大規模な画像データセットからそれらを検索する。
テキストと視覚知識を活用することで、ReSeeは現実世界の視覚概念による情報応答を生成できる。
論文 参考訳(メタデータ) (2023-05-23T02:08:56Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Learning from Context or Names? An Empirical Study on Neural Relation
Extraction [112.06614505580501]
テキストにおける2つの主要な情報ソースの効果について検討する:テキストコンテキストとエンティティ参照(名前)
本稿では,関係抽出のための実体型コントラスト事前学習フレームワーク(RE)を提案する。
我々のフレームワークは、異なるREシナリオにおけるニューラルモデルの有効性と堅牢性を改善することができる。
論文 参考訳(メタデータ) (2020-10-05T11:21:59Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。