論文の概要: Video Dialog as Conversation about Objects Living in Space-Time
- arxiv url: http://arxiv.org/abs/2207.03656v1
- Date: Fri, 8 Jul 2022 02:34:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 13:11:04.390146
- Title: Video Dialog as Conversation about Objects Living in Space-Time
- Title(参考訳): 時空に生きる物体の会話としてのビデオダイアログ
- Authors: Hoang-Anh Pham, Thao Minh Le, Vuong Le, Tu Minh Phuong, Truyen Tran
- Abstract要約: 我々はCOSTと呼ばれるニューラル推論をサポートするビデオダイアログのための新しいオブジェクト中心フレームワークを提案する。
COSTは、新しい質問を受けたときに更新されるオブジェクト関連ダイアログの状態を管理し、追跡する。
DSTC7 と DSTC8 のベンチマークで COST を評価し,最先端技術に対する競合性を実証した。
- 参考スコア(独自算出の注目度): 35.54055886856042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It would be a technological feat to be able to create a system that can hold
a meaningful conversation with humans about what they watch. A setup toward
that goal is presented as a video dialog task, where the system is asked to
generate natural utterances in response to a question in an ongoing dialog. The
task poses great visual, linguistic, and reasoning challenges that cannot be
easily overcome without an appropriate representation scheme over video and
dialog that supports high-level reasoning. To tackle these challenges we
present a new object-centric framework for video dialog that supports neural
reasoning dubbed COST - which stands for Conversation about Objects in
Space-Time. Here dynamic space-time visual content in videos is first parsed
into object trajectories. Given this video abstraction, COST maintains and
tracks object-associated dialog states, which are updated upon receiving new
questions. Object interactions are dynamically and conditionally inferred for
each question, and these serve as the basis for relational reasoning among
them. COST also maintains a history of previous answers, and this allows
retrieval of relevant object-centric information to enrich the answer forming
process. Language production then proceeds in a step-wise manner, taking into
the context of the current utterance, the existing dialog, the current
question. We evaluate COST on the DSTC7 and DSTC8 benchmarks, demonstrating its
competitiveness against state-of-the-arts.
- Abstract(参考訳): 彼らが見ているものについて人間と有意義な会話ができるシステムを作ることは、技術的な偉業だ。
その目標に向けてのセットアップはビデオダイアログタスクとして提示され、システムは進行中のダイアログに応答して自然な発話を生成するように要求される。
このタスクは、高レベルの推論をサポートするビデオやダイアログ上の適切な表現スキームなしでは簡単に克服できない、視覚的、言語的、推論上の大きな課題をもたらす。
これらの課題に取り組むために、私たちは、COSTと呼ばれるニューラル推論をサポートするビデオダイアログのための新しいオブジェクト指向フレームワークを紹介します。
ここで、ビデオ内の動的時空ビジュアルコンテンツは、まずオブジェクトの軌跡にパースされる。
このビデオ抽象化を前提として、COSTはオブジェクト関連ダイアログの状態を管理し、追跡する。
オブジェクトの相互作用は各質問に対して動的かつ条件付きで推論され、それらの間の関係推論の基礎となる。
COSTは過去の回答の履歴も保持しており、関連するオブジェクト中心の情報を取得して回答形成プロセスを強化することができる。
言語生産はステップワイズに進み、現在の発話、既存のダイアログ、現在の質問のコンテキストを取り入れます。
我々はdstc7およびdstc8ベンチマークのコストを評価し,最新技術との競争力を示す。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Enhancing Visual Dialog State Tracking through Iterative Object-Entity Alignment in Multi-Round Conversations [3.784841749866846]
MDST(Multi-round Dialogue State Tracking Model)を導入する。
MDSTは、内的対話状態表現を視覚言語表現の2-タプルとして定義し、各ラウンドの対話履歴をキャプチャする。
VisDial v1.0データセットの実験結果は、MDSTが生成環境において新しい最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2024-08-13T08:36:15Z) - OLViT: Multi-Modal State Tracking via Attention-Based Embeddings for
Video-Grounded Dialog [10.290057801577662]
OLViTは、マルチモーダルアテンションベースのダイアログ状態トラッカー上で動作するビデオダイアログの新しいモデルである。
オブジェクト状態追跡器(OST)と言語状態追跡器(LST)の出力に基づいてグローバルなダイアログ状態を保持する。
論文 参考訳(メタデータ) (2024-02-20T17:00:59Z) - Uncovering Hidden Connections: Iterative Search and Reasoning for Video-grounded Dialog [83.63849872250651]
ビデオグラウンドダイアログは、正確な応答生成のために、ダイアログ履歴とビデオコンテンツの両方を深く理解する必要がある。
本稿では,テキストエンコーダ,ビジュアルエンコーダ,ジェネレータで構成される反復探索・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T07:37:13Z) - Multimodal Dialogue State Tracking [97.25466640240619]
Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。
VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
論文 参考訳(メタデータ) (2022-06-16T03:18:42Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Unified Questioner Transformer for Descriptive Question Generation in
Goal-Oriented Visual Dialogue [0.0]
現実世界について質問できる対話型人工知能の構築は、ビジョンと言語問題における最大の課題の1つだ。
我々はUnified Questioner Transformer (UniQer) と呼ばれる新しい問合せアーキテクチャを提案する。
我々は、CLEVR Askと呼ばれる目標指向の視覚対話タスクを構築し、質問者に対して説明的質問を生成する複雑なシーンを合成する。
論文 参考訳(メタデータ) (2021-06-29T16:36:34Z) - Hierarchical Object-oriented Spatio-Temporal Reasoning for Video
Question Answering [27.979053252431306]
Video Question Answering (ビデオQA)は、新しいAI機能を開発するための強力なテストベッドである。
本稿では,対話するオブジェクトの動的ストリームとして動画を抽象化するオブジェクト指向推論手法を提案する。
このメカニズムは汎用神経ユニットのファミリーと多層アーキテクチャに実体化されている。
論文 参考訳(メタデータ) (2021-06-25T05:12:42Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。