論文の概要: Video Dialog as Conversation about Objects Living in Space-Time
- arxiv url: http://arxiv.org/abs/2207.03656v1
- Date: Fri, 8 Jul 2022 02:34:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 13:11:04.390146
- Title: Video Dialog as Conversation about Objects Living in Space-Time
- Title(参考訳): 時空に生きる物体の会話としてのビデオダイアログ
- Authors: Hoang-Anh Pham, Thao Minh Le, Vuong Le, Tu Minh Phuong, Truyen Tran
- Abstract要約: 我々はCOSTと呼ばれるニューラル推論をサポートするビデオダイアログのための新しいオブジェクト中心フレームワークを提案する。
COSTは、新しい質問を受けたときに更新されるオブジェクト関連ダイアログの状態を管理し、追跡する。
DSTC7 と DSTC8 のベンチマークで COST を評価し,最先端技術に対する競合性を実証した。
- 参考スコア(独自算出の注目度): 35.54055886856042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It would be a technological feat to be able to create a system that can hold
a meaningful conversation with humans about what they watch. A setup toward
that goal is presented as a video dialog task, where the system is asked to
generate natural utterances in response to a question in an ongoing dialog. The
task poses great visual, linguistic, and reasoning challenges that cannot be
easily overcome without an appropriate representation scheme over video and
dialog that supports high-level reasoning. To tackle these challenges we
present a new object-centric framework for video dialog that supports neural
reasoning dubbed COST - which stands for Conversation about Objects in
Space-Time. Here dynamic space-time visual content in videos is first parsed
into object trajectories. Given this video abstraction, COST maintains and
tracks object-associated dialog states, which are updated upon receiving new
questions. Object interactions are dynamically and conditionally inferred for
each question, and these serve as the basis for relational reasoning among
them. COST also maintains a history of previous answers, and this allows
retrieval of relevant object-centric information to enrich the answer forming
process. Language production then proceeds in a step-wise manner, taking into
the context of the current utterance, the existing dialog, the current
question. We evaluate COST on the DSTC7 and DSTC8 benchmarks, demonstrating its
competitiveness against state-of-the-arts.
- Abstract(参考訳): 彼らが見ているものについて人間と有意義な会話ができるシステムを作ることは、技術的な偉業だ。
その目標に向けてのセットアップはビデオダイアログタスクとして提示され、システムは進行中のダイアログに応答して自然な発話を生成するように要求される。
このタスクは、高レベルの推論をサポートするビデオやダイアログ上の適切な表現スキームなしでは簡単に克服できない、視覚的、言語的、推論上の大きな課題をもたらす。
これらの課題に取り組むために、私たちは、COSTと呼ばれるニューラル推論をサポートするビデオダイアログのための新しいオブジェクト指向フレームワークを紹介します。
ここで、ビデオ内の動的時空ビジュアルコンテンツは、まずオブジェクトの軌跡にパースされる。
このビデオ抽象化を前提として、COSTはオブジェクト関連ダイアログの状態を管理し、追跡する。
オブジェクトの相互作用は各質問に対して動的かつ条件付きで推論され、それらの間の関係推論の基礎となる。
COSTは過去の回答の履歴も保持しており、関連するオブジェクト中心の情報を取得して回答形成プロセスを強化することができる。
言語生産はステップワイズに進み、現在の発話、既存のダイアログ、現在の質問のコンテキストを取り入れます。
我々はdstc7およびdstc8ベンチマークのコストを評価し,最新技術との競争力を示す。
関連論文リスト
- OLViT: Multi-Modal State Tracking via Attention-Based Embeddings for
Video-Grounded Dialog [10.290057801577662]
OLViTは、マルチモーダルアテンションベースのダイアログ状態トラッカー上で動作するビデオダイアログの新しいモデルである。
オブジェクト状態追跡器(OST)と言語状態追跡器(LST)の出力に基づいてグローバルなダイアログ状態を保持する。
論文 参考訳(メタデータ) (2024-02-20T17:00:59Z) - Uncovering Hidden Connections: Iterative Tracking and Reasoning for
Video-grounded Dialog [88.6246765178364]
本稿では,テキストエンコーダ,ビジュアルエンコーダ,ジェネレータを併用する反復的追跡・推論手法を提案する。
2つの有名なデータセットで実施した経験的評価は、提案した設計の長所と順応性を証明するものである。
論文 参考訳(メタデータ) (2023-10-11T07:37:13Z) - VSTAR: A Video-grounded Dialogue Dataset for Situated Semantic
Understanding with Scene and Topic Transitions [47.94531693056304]
ビデオ地上対話理解は、機械が位置するセマンティクスを知覚し、解析し、理性を必要とする難しい問題である。
395のテレビシリーズをベースとした大規模ビデオ地上対話理解データセットであるビデオ地上Scene&Topic AwaRe対話データセットを提案する。
論文 参考訳(メタデータ) (2023-05-30T05:40:37Z) - Multimodal Dialogue State Tracking [97.25466640240619]
Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。
VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
論文 参考訳(メタデータ) (2022-06-16T03:18:42Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Unified Questioner Transformer for Descriptive Question Generation in
Goal-Oriented Visual Dialogue [0.0]
現実世界について質問できる対話型人工知能の構築は、ビジョンと言語問題における最大の課題の1つだ。
我々はUnified Questioner Transformer (UniQer) と呼ばれる新しい問合せアーキテクチャを提案する。
我々は、CLEVR Askと呼ばれる目標指向の視覚対話タスクを構築し、質問者に対して説明的質問を生成する複雑なシーンを合成する。
論文 参考訳(メタデータ) (2021-06-29T16:36:34Z) - Hierarchical Object-oriented Spatio-Temporal Reasoning for Video
Question Answering [27.979053252431306]
Video Question Answering (ビデオQA)は、新しいAI機能を開発するための強力なテストベッドである。
本稿では,対話するオブジェクトの動的ストリームとして動画を抽象化するオブジェクト指向推論手法を提案する。
このメカニズムは汎用神経ユニットのファミリーと多層アーキテクチャに実体化されている。
論文 参考訳(メタデータ) (2021-06-25T05:12:42Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - Multimodal Transformer with Pointer Network for the DSTC8 AVSD Challenge [48.905496060794114]
第8回対話システム技術チャレンジのAVSDトラックへの提出について述べる。
入力ビデオのテキスト機能と非テキスト機能を組み合わせるために,ドット商品の注意を取り入れた。
自動測定では高い性能を達成し, 人的評価では5位, 6位となった。
論文 参考訳(メタデータ) (2020-02-25T06:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。