論文の概要: Uncovering Hidden Connections: Iterative Tracking and Reasoning for
Video-grounded Dialog
- arxiv url: http://arxiv.org/abs/2310.07259v1
- Date: Wed, 11 Oct 2023 07:37:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 23:55:43.756678
- Title: Uncovering Hidden Connections: Iterative Tracking and Reasoning for
Video-grounded Dialog
- Title(参考訳): 隠れたつながりを明らかにする:ビデオグラウンドダイアログの反復的追跡と推論
- Authors: Haoyu Zhang, Meng Liu, Yaowei Wang, Da Cao, Weili Guan, Liqiang Nie
- Abstract要約: 本稿では,テキストエンコーダ,ビジュアルエンコーダ,ジェネレータを併用する反復的追跡・推論手法を提案する。
2つの有名なデータセットで実施した経験的評価は、提案した設計の長所と順応性を証明するものである。
- 参考スコア(独自算出の注目度): 88.6246765178364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contrast to conventional visual question answering, video-grounded dialog
necessitates a profound understanding of both dialog history and video content
for accurate response generation. Despite commendable strides made by existing
methodologies, they often grapple with the challenges of incrementally
understanding intricate dialog histories and assimilating video information. In
response to this gap, we present an iterative tracking and reasoning strategy
that amalgamates a textual encoder, a visual encoder, and a generator. At its
core, our textual encoder is fortified with a path tracking and aggregation
mechanism, adept at gleaning nuances from dialog history that are pivotal to
deciphering the posed questions. Concurrently, our visual encoder harnesses an
iterative reasoning network, meticulously crafted to distill and emphasize
critical visual markers from videos, enhancing the depth of visual
comprehension. Culminating this enriched information, we employ the pre-trained
GPT-2 model as our response generator, stitching together coherent and
contextually apt answers. Our empirical assessments, conducted on two renowned
datasets, testify to the prowess and adaptability of our proposed design.
- Abstract(参考訳): 従来の視覚的質問応答とは対照的に、ビデオ接地ダイアログは、正確な応答生成のためにダイアログ履歴とビデオコンテンツの両方を深く理解する必要がある。
既存の手法による見事な進歩にもかかわらず、彼らは複雑なダイアログの履歴を段階的に理解し、ビデオ情報を同化するという課題にしばしば取り組んだ。
このギャップに対応するために,テキストエンコーダとビジュアルエンコーダ,ジェネレータを融合した反復追跡と推論戦略を提案する。
テキストエンコーダの中核は経路追跡と集約機構で強化され,提案した質問の解読に重要な対話履歴からニュアンスを抽出する。
同時に,映像から重要な視覚的マーカーを抽出・強調するために細心の注意を払って作られた反復的推論ネットワークを利用し,視覚理解の深さを高める。
この豊富な情報をもとに,事前学習したgpt-2モデルを応答生成器として活用し,コヒーレントと文脈的aptの回答を合成した。
2つの有名なデータセットに基づいて実施した経験的評価は、提案する設計の長所と適応性を検証する。
関連論文リスト
- MSG-BART: Multi-granularity Scene Graph-Enhanced Encoder-Decoder
Language Model for Video-grounded Dialogue Generation [25.273719615694958]
本稿では,映像情報の統合性を高めるMSG-B-ARTという新しい手法を提案する。
具体的には,グローバルなシーングラフとローカルなシーングラフをエンコーダとデコーダに統合する。
MSG-B-ARTの顕著な優位性を示す3つのビデオ地上対話ベンチマークにおいて,大規模な実験を行った。
論文 参考訳(メタデータ) (2023-09-26T04:23:23Z) - Redundancy-aware Transformer for Video Question Answering [71.98116071679065]
本稿では,ビデオQAを冗長性に認識してモデル化することを目的とした,トランスフォーマーに基づく新しいアーキテクチャを提案する。
隣接するフレームの冗長性に対処するために,隣接するフレームのオブジェクトレベルの変化を強調するビデオエンコーダ構造を導入する。
クロスモーダルな冗長性については、新たな適応サンプリングを融合モジュールに装備し、視覚と言語間の相互作用を明確に区別する。
論文 参考訳(メタデータ) (2023-08-07T03:16:24Z) - A Unified Framework for Slot based Response Generation in a Multimodal
Dialogue System [25.17100881568308]
自然言語理解(NLU)と自然言語生成(NLG)は、すべての会話システムにおいて重要な要素である。
発話から必要なスロット値を抽出できるエンドツーエンドフレームワークを提案する。
事前学習したダイアロGPTを用いたマルチモーダル階層エンコーダを用いて、両方のタスクに対してより強力なコンテキストを提供する。
論文 参考訳(メタデータ) (2023-05-27T10:06:03Z) - ReSee: Responding through Seeing Fine-grained Visual Knowledge in
Open-domain Dialogue [34.223466503256766]
視覚的知識をよりきめ細かな粒度に分割することで多モーダル対話を構築するための新しいパラダイムを提供する。
拡張視覚情報の精度と多様性を高めるため、インターネットや大規模な画像データセットからそれらを検索する。
テキストと視覚知識を活用することで、ReSeeは現実世界の視覚概念による情報応答を生成できる。
論文 参考訳(メタデータ) (2023-05-23T02:08:56Z) - Learn to Focus: Hierarchical Dynamic Copy Network for Dialogue State
Tracking [19.86620340598476]
階層型動的コピーネットワーク(HDCN)を提案する。
エンコーダ・デコーダ・フレームワークをベースとして,ワードレベルとターンレベルの2つの注意レベルを計算する階層的複写手法を採用する。
フォーカス損失項は、最も情報性の高いターンに最も高いターンレベルの注意重みを割り当てるようモデルに促すために使用される。
論文 参考訳(メタデータ) (2021-07-25T10:43:28Z) - Learning Reasoning Paths over Semantic Graphs for Video-grounded
Dialogues [73.04906599884868]
対話文脈(PDC)における推論経路の新しい枠組みを提案する。
PDCモデルは、各質問と回答の語彙成分に基づいて構築されたセマンティックグラフを通じて、対話間の情報フローを発見する。
本モデルでは,この推論経路を通じて視覚情報とテキスト情報を逐次的に処理し,提案する特徴を用いて回答を生成する。
論文 参考訳(メタデータ) (2021-03-01T07:39:26Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。