論文の概要: Describing Unseen Videos via Multi-Modal Cooperative Dialog Agents
- arxiv url: http://arxiv.org/abs/2008.07935v2
- Date: Sat, 22 Aug 2020 12:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 21:38:32.258794
- Title: Describing Unseen Videos via Multi-Modal Cooperative Dialog Agents
- Title(参考訳): マルチモーダル協調対話エージェントによる未知のビデオ記述
- Authors: Ye Zhu, Yu Wu, Yi Yang, and Yan Yan
- Abstract要約: 2つのマルチモーダル協調ダイアログエージェントによるビデオ記述という新しいタスクを導入する。
Q-BOTはビデオの開始と終了から2つの静的フレームが与えられ、関連する自然言語の質問をする機会は限られている。
ビデオ全体を見た他のエージェントであるA-BOTは、Q-BOTがこれらの質問に対する回答を提供することで目標を達成するのを支援している。
- 参考スコア(独自算出の注目度): 37.120459786999724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the arising concerns for the AI systems provided with direct access to
abundant sensitive information, researchers seek to develop more reliable AI
with implicit information sources. To this end, in this paper, we introduce a
new task called video description via two multi-modal cooperative dialog
agents, whose ultimate goal is for one conversational agent to describe an
unseen video based on the dialog and two static frames. Specifically, one of
the intelligent agents - Q-BOT - is given two static frames from the beginning
and the end of the video, as well as a finite number of opportunities to ask
relevant natural language questions before describing the unseen video. A-BOT,
the other agent who has already seen the entire video, assists Q-BOT to
accomplish the goal by providing answers to those questions. We propose a
QA-Cooperative Network with a dynamic dialog history update learning mechanism
to transfer knowledge from A-BOT to Q-BOT, thus helping Q-BOT to better
describe the video. Extensive experiments demonstrate that Q-BOT can
effectively learn to describe an unseen video by the proposed model and the
cooperative learning method, achieving the promising performance where Q-BOT is
given the full ground truth history dialog.
- Abstract(参考訳): 豊富な機密情報に直接アクセスするためのAIシステムに対する懸念が高まっているため、研究者は暗黙の情報ソースを用いたより信頼性の高いAIの開発を目指している。
そこで,本稿では,対話型対話エージェントが対話型対話と静的な2つのフレームをベースとした未確認ビデオを記述することを最終目標とする,複数モーダル協調型対話エージェントによるビデオ記述という新たなタスクを提案する。
具体的には、インテリジェントエージェントの1つ、Q-BOTは、ビデオの開始と終了から2つの静的フレームが与えられ、未確認のビデオを記述する前に、関連する自然言語の質問をする機会は有限である。
ビデオ全体を見た他のエージェントであるA-BOTは、Q-BOTがこれらの質問に対する回答を提供することで目標を達成するのを支援している。
本稿では,a-botからq-botへ知識を伝達する動的ダイアログ履歴更新学習機構を備えたqa協調ネットワークを提案する。
広汎な実験により,Q-BOTは,提案したモデルと協調学習手法によって映像を効果的に記述できることが示され,Q-BOTが真理履歴の全文ダイアログを付与されることを示す。
関連論文リスト
- Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - Learning to Retrieve Videos by Asking Questions [29.046045230398708]
本稿では,ダイアログ(ViReD)を用いたビデオ検索のための新しいフレームワークを提案する。
このフレームワークの主な貢献は、その後のビデオ検索性能を最大化する質問を学習する、新しいマルチモーダル質問生成器である。
AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-11T19:14:39Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Few-Shot Bot: Prompt-Based Learning for Dialogue Systems [58.27337673451943]
ごく少数の例を使って会話を学ぶことは、会話型AIにおける大きな課題である。
現在の最良の会話モデルは、良いチャットシャッター(例:BlenderBot)またはゴール指向システム(例:MinTL)である。
グラデーションベースの微調整を必要とせず、学習の唯一の源としていくつかの例を用いるプロンプトベースの数ショット学習を提案する。
論文 参考訳(メタデータ) (2021-10-15T14:36:45Z) - Saying the Unseen: Video Descriptions via Dialog Agents [37.16726118481626]
本稿では,2つのエージェント間の自然言語対話を用いたビデオ記述を目的とした新しいタスクを提案する。
Q-BOTは、ビデオの開始と終了から2つのセマンティックセグメンテーションフレームが与えられる。
ビデオ全体にアクセスする他のエージェントであるA-BOTは、Q-BOTが質問に答えることによってゴールを達成するのを支援する。
論文 参考訳(メタデータ) (2021-06-26T17:36:31Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z) - Multimodal Dialogue State Tracking By QA Approach with Data Augmentation [16.436557991074068]
本稿では,オープンドメイン質問応答(QA)の観点から,AVSD(Audio-Video Scene-Aware Dialogue)タスクを解釈する。
提案するQAシステムは,マルチモーダル融合とアテンションを備えた共通エンコーダデコーダフレームワークを用いる。
実験の結果,DSTC7-AVSDデータセットのベースラインモデルに対して,我々のモデルと手法が大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2020-07-20T06:23:18Z) - VD-BERT: A Unified Vision and Dialog Transformer with BERT [161.0016161052714]
VD-BERTは,視覚対話型トランスフォーマーの簡易かつ効果的なフレームワークである。
我々は、視覚的グラウンドトレーニングにより、視覚と対話内容の効果的な融合にBERTを適用した。
我々のモデルは新たな芸術状態をもたらし、シングルモデルとアンサンブル設定の両方で最高位を達成する。
論文 参考訳(メタデータ) (2020-04-28T04:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。