論文の概要: MARRS: Multimodal Reference Resolution System
- arxiv url: http://arxiv.org/abs/2311.01650v1
- Date: Fri, 3 Nov 2023 00:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 15:36:52.024596
- Title: MARRS: Multimodal Reference Resolution System
- Title(参考訳): marrs:マルチモーダル参照解像度システム
- Authors: Halim Cagri Ates, Shruti Bhargava, Site Li, Jiarui Lu, Siddhardha
Maddula, Joel Ruben Antony Moniz, Anil Kumar Nalamalapu, Roman Hoang Nguyen,
Melis Ozyildirim, Alkesh Patel, Dhivya Piraviperumal, Vincent Renkens, Ankit
Samal, Thy Tran, Bo-Hsiang Tseng, Hong Yu, Yuan Zhang, Rong Zou
- Abstract要約: 本稿では,自然言語理解システムにおけるデバイス上でのMARRS(Multimodal Reference Resolution System)の概要を紹介する。
我々は、コンテキストクエリのハンドリングを可能にするために、異なる機械学習モデルを提案する。
さらに、これらのモデルが相互に補完して、統一的で一貫性のある軽量なシステムを形成する方法について説明する。
- 参考スコア(独自算出の注目度): 14.841571888096109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Successfully handling context is essential for any dialog understanding task.
This context maybe be conversational (relying on previous user queries or
system responses), visual (relying on what the user sees, for example, on their
screen), or background (based on signals such as a ringing alarm or playing
music). In this work, we present an overview of MARRS, or Multimodal Reference
Resolution System, an on-device framework within a Natural Language
Understanding system, responsible for handling conversational, visual and
background context. In particular, we present different machine learning models
to enable handing contextual queries; specifically, one to enable reference
resolution, and one to handle context via query rewriting. We also describe how
these models complement each other to form a unified, coherent, lightweight
system that can understand context while preserving user privacy.
- Abstract(参考訳): コンテキストの適切な処理は、任意のダイアログ理解タスクに不可欠です。
このコンテキストは、会話型(以前のユーザクエリやシステムレスポンスに基づいて)、視覚的(例えば、ユーザが画面で見ているものに基づいて)、背景(リングアラームや音楽を演奏するような信号に基づいて)である。
本稿では,自然言語理解システムにおけるオンデバイスフレームワークであるmarrs(multimodal reference resolution system)の概要について述べる。
特に,コンテキストクエリのハンドリングを可能にするために,さまざまな機械学習モデルを提案する。
また,これらのモデルが相互補完して,ユーザのプライバシを保ちながらコンテキストを理解可能な統一的で一貫性のある軽量システムを形成する方法について説明する。
関連論文リスト
- Enhancing Multimodal Query Representation via Visual Dialogues for End-to-End Knowledge Retrieval [26.585985828583304]
本稿では,マルチモーダルクエリを理解可能なテキスト検索機能を実現するために,エンドツーエンドのマルチモーダル検索システムRet-XKnowを提案する。
マルチモーダルインタラクションを効果的に学習するために、視覚対話データセットから構築したVisual Dialogue-to-Retrievalデータセットも導入する。
提案手法は,ゼロショット設定における検索性能を大幅に向上するだけでなく,微調整シナリオの大幅な改善も達成できることを示す。
論文 参考訳(メタデータ) (2024-11-13T04:32:58Z) - OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。
本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。
提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文 参考訳(メタデータ) (2024-06-07T06:45:28Z) - Parameter-Efficient Conversational Recommender System as a Language
Processing Task [52.47087212618396]
会話レコメンデータシステム(CRS)は,自然言語会話を通じてユーザの嗜好を喚起することで,ユーザに対して関連項目を推薦することを目的としている。
先行作業では、アイテムのセマンティック情報、対話生成のための言語モデル、関連する項目のランク付けのためのレコメンデーションモジュールとして、外部知識グラフを利用することが多い。
本稿では、自然言語の項目を表現し、CRSを自然言語処理タスクとして定式化する。
論文 参考訳(メタデータ) (2024-01-25T14:07:34Z) - A Unified Framework for Slot based Response Generation in a Multimodal
Dialogue System [25.17100881568308]
自然言語理解(NLU)と自然言語生成(NLG)は、すべての会話システムにおいて重要な要素である。
発話から必要なスロット値を抽出できるエンドツーエンドフレームワークを提案する。
事前学習したダイアロGPTを用いたマルチモーダル階層エンコーダを用いて、両方のタスクに対してより強力なコンテキストを提供する。
論文 参考訳(メタデータ) (2023-05-27T10:06:03Z) - Learning to Retrieve Videos by Asking Questions [29.046045230398708]
本稿では,ダイアログ(ViReD)を用いたビデオ検索のための新しいフレームワークを提案する。
このフレームワークの主な貢献は、その後のビデオ検索性能を最大化する質問を学習する、新しいマルチモーダル質問生成器である。
AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-11T19:14:39Z) - Modeling Text-visual Mutual Dependency for Multi-modal Dialog Generation [35.45552689723718]
実世界におけるマルチモーダルダイアログ生成の特定の事例を解決するためのフレームワークを提案する。
具体的には,テキスト・視覚的特徴間の相互依存をモデル化することを提案する。
テキストと視覚的特徴間の相互依存がモデル化されている場合、バニラモデルよりも顕著なパフォーマンス向上が観察される。
論文 参考訳(メタデータ) (2021-05-30T07:20:28Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Learning Reasoning Paths over Semantic Graphs for Video-grounded
Dialogues [73.04906599884868]
対話文脈(PDC)における推論経路の新しい枠組みを提案する。
PDCモデルは、各質問と回答の語彙成分に基づいて構築されたセマンティックグラフを通じて、対話間の情報フローを発見する。
本モデルでは,この推論経路を通じて視覚情報とテキスト情報を逐次的に処理し,提案する特徴を用いて回答を生成する。
論文 参考訳(メタデータ) (2021-03-01T07:39:26Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Multi-View Attention Network for Visual Dialog [5.731758300670842]
1) エージェントが質問の意味的意図を判断し, 2) 質問関連テキスト, 視覚的内容の調整を行う必要がある。
異種入力に関する複数のビューを利用するマルチビュー注意ネットワーク(MVAN)を提案する。
MVANは、2つの補完モジュールでダイアログ履歴から質問関連情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。