論文の概要: Saying the Unseen: Video Descriptions via Dialog Agents
- arxiv url: http://arxiv.org/abs/2106.14069v1
- Date: Sat, 26 Jun 2021 17:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 18:09:16.242112
- Title: Saying the Unseen: Video Descriptions via Dialog Agents
- Title(参考訳): unseenについて語る: 対話エージェントによるビデオ記述
- Authors: Ye Zhu, Yu Wu, Yi Yang, Yan Yan
- Abstract要約: 本稿では,2つのエージェント間の自然言語対話を用いたビデオ記述を目的とした新しいタスクを提案する。
Q-BOTは、ビデオの開始と終了から2つのセマンティックセグメンテーションフレームが与えられる。
ビデオ全体にアクセスする他のエージェントであるA-BOTは、Q-BOTが質問に答えることによってゴールを達成するのを支援する。
- 参考スコア(独自算出の注目度): 37.16726118481626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current vision and language tasks usually take complete visual data (e.g.,
raw images or videos) as input, however, practical scenarios may often consist
the situations where part of the visual information becomes inaccessible due to
various reasons e.g., restricted view with fixed camera or intentional vision
block for security concerns. As a step towards the more practical application
scenarios, we introduce a novel task that aims to describe a video using the
natural language dialog between two agents as a supplementary information
source given incomplete visual data. Different from most existing
vision-language tasks where AI systems have full access to images or video
clips, which may reveal sensitive information such as recognizable human faces
or voices, we intentionally limit the visual input for AI systems and seek a
more secure and transparent information medium, i.e., the natural language
dialog, to supplement the missing visual information. Specifically, one of the
intelligent agents - Q-BOT - is given two semantic segmented frames from the
beginning and the end of the video, as well as a finite number of opportunities
to ask relevant natural language questions before describing the unseen video.
A-BOT, the other agent who has access to the entire video, assists Q-BOT to
accomplish the goal by answering the asked questions. We introduce two
different experimental settings with either a generative (i.e., agents generate
questions and answers freely) or a discriminative (i.e., agents select the
questions and answers from candidates) internal dialog generation process. With
the proposed unified QA-Cooperative networks, we experimentally demonstrate the
knowledge transfer process between the two dialog agents and the effectiveness
of using the natural language dialog as a supplement for incomplete implicit
visions.
- Abstract(参考訳): 現在の視覚と言語タスクは通常、完全な視覚データ(例えば、生の画像やビデオ)を入力として取り込むが、実際のシナリオでは、セキュリティ上の懸念のために固定カメラによる制限ビューや意図的な視覚ブロックなどの様々な理由により、視覚情報の一部がアクセス不能な状況を含むことが多い。
より実用的なアプリケーションシナリオに向けたステップとして,不完全な視覚データに対して,2つのエージェント間の自然言語ダイアログを補足情報源として用いる映像を記述することを目的とした新しいタスクを提案する。
aiシステムが画像やビデオクリップに完全にアクセスできる既存の視覚言語タスクとは異なり、人間の顔や声を認識するなどのセンシティブな情報を明らかにするため、私たちは意図的にaiシステムの視覚入力を制限し、よりセキュアで透明な情報媒体、すなわち自然言語ダイアログを探し、行方不明の視覚情報を補完します。
具体的には、インテリジェントエージェントの1つ、Q-BOTは、ビデオの開始と終了から2つのセマンティックセグメンテーションフレームが与えられ、未確認のビデオを記述する前に、関連する自然言語の質問をする機会は有限である。
ビデオ全体にアクセスする他のエージェントであるA-BOTは、Q-BOTが質問に答えて目標を達成するのを支援する。
生成的(エージェントが自由に質問や回答を生成)または識別的(エージェントが候補者から質問や回答を選択する)な内部ダイアログ生成プロセスの2つの異なる実験環境を導入する。
提案する統合qa協調ネットワークを用いて,2つの対話エージェント間の知識伝達過程と,自然言語ダイアログを不完全な暗黙的視覚の補足として用いる効果を実験的に実証する。
関連論文リスト
- VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。
VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。
我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-01T07:44:24Z) - Contextual Object Detection with Multimodal Large Language Models [78.30374204127418]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Describing Unseen Videos via Multi-Modal Cooperative Dialog Agents [37.120459786999724]
2つのマルチモーダル協調ダイアログエージェントによるビデオ記述という新しいタスクを導入する。
Q-BOTはビデオの開始と終了から2つの静的フレームが与えられ、関連する自然言語の質問をする機会は限られている。
ビデオ全体を見た他のエージェントであるA-BOTは、Q-BOTがこれらの質問に対する回答を提供することで目標を達成するのを支援している。
論文 参考訳(メタデータ) (2020-08-18T14:01:09Z) - Knowledge-Based Video Question Answering with Unsupervised Scene
Descriptions [27.63022376316052]
知識に基づくビデオストーリー質問応答モデルであるROLLを設計する。
ROLLでは,各タスクが,1)シーン対話処理,2)教師なし映像シーン記述生成,3)弱い教師付き方式で外部知識を取得することによって,リッチで多様な情報を抽出する役割を担っている。
与えられた質問に正しく答えるために、各インスパイアされた認知タスクによって生成された情報はトランスフォーマーを介して符号化され、モダリティ重み付け機構を介して融合される。
論文 参考訳(メタデータ) (2020-07-17T04:26:38Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z) - Multi-View Attention Network for Visual Dialog [5.731758300670842]
1) エージェントが質問の意味的意図を判断し, 2) 質問関連テキスト, 視覚的内容の調整を行う必要がある。
異種入力に関する複数のビューを利用するマルチビュー注意ネットワーク(MVAN)を提案する。
MVANは、2つの補完モジュールでダイアログ履歴から質問関連情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z) - Multimodal Transformer with Pointer Network for the DSTC8 AVSD Challenge [48.905496060794114]
第8回対話システム技術チャレンジのAVSDトラックへの提出について述べる。
入力ビデオのテキスト機能と非テキスト機能を組み合わせるために,ドット商品の注意を取り入れた。
自動測定では高い性能を達成し, 人的評価では5位, 6位となった。
論文 参考訳(メタデータ) (2020-02-25T06:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。