論文の概要: Uncovering Hidden Connections: Iterative Tracking and Reasoning for
Video-grounded Dialog
- arxiv url: http://arxiv.org/abs/2310.07259v1
- Date: Wed, 11 Oct 2023 07:37:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 23:55:43.756678
- Title: Uncovering Hidden Connections: Iterative Tracking and Reasoning for
Video-grounded Dialog
- Title(参考訳): 隠れたつながりを明らかにする:ビデオグラウンドダイアログの反復的追跡と推論
- Authors: Haoyu Zhang, Meng Liu, Yaowei Wang, Da Cao, Weili Guan, Liqiang Nie
- Abstract要約: 本稿では,テキストエンコーダ,ビジュアルエンコーダ,ジェネレータを併用する反復的追跡・推論手法を提案する。
2つの有名なデータセットで実施した経験的評価は、提案した設計の長所と順応性を証明するものである。
- 参考スコア(独自算出の注目度): 88.6246765178364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contrast to conventional visual question answering, video-grounded dialog
necessitates a profound understanding of both dialog history and video content
for accurate response generation. Despite commendable strides made by existing
methodologies, they often grapple with the challenges of incrementally
understanding intricate dialog histories and assimilating video information. In
response to this gap, we present an iterative tracking and reasoning strategy
that amalgamates a textual encoder, a visual encoder, and a generator. At its
core, our textual encoder is fortified with a path tracking and aggregation
mechanism, adept at gleaning nuances from dialog history that are pivotal to
deciphering the posed questions. Concurrently, our visual encoder harnesses an
iterative reasoning network, meticulously crafted to distill and emphasize
critical visual markers from videos, enhancing the depth of visual
comprehension. Culminating this enriched information, we employ the pre-trained
GPT-2 model as our response generator, stitching together coherent and
contextually apt answers. Our empirical assessments, conducted on two renowned
datasets, testify to the prowess and adaptability of our proposed design.
- Abstract(参考訳): 従来の視覚的質問応答とは対照的に、ビデオ接地ダイアログは、正確な応答生成のためにダイアログ履歴とビデオコンテンツの両方を深く理解する必要がある。
既存の手法による見事な進歩にもかかわらず、彼らは複雑なダイアログの履歴を段階的に理解し、ビデオ情報を同化するという課題にしばしば取り組んだ。
このギャップに対応するために,テキストエンコーダとビジュアルエンコーダ,ジェネレータを融合した反復追跡と推論戦略を提案する。
テキストエンコーダの中核は経路追跡と集約機構で強化され,提案した質問の解読に重要な対話履歴からニュアンスを抽出する。
同時に,映像から重要な視覚的マーカーを抽出・強調するために細心の注意を払って作られた反復的推論ネットワークを利用し,視覚理解の深さを高める。
この豊富な情報をもとに,事前学習したgpt-2モデルを応答生成器として活用し,コヒーレントと文脈的aptの回答を合成した。
2つの有名なデータセットに基づいて実施した経験的評価は、提案する設計の長所と適応性を検証する。
関連論文リスト
- SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。
推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。
質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文 参考訳(メタデータ) (2024-05-15T21:55:31Z) - MSG-BART: Multi-granularity Scene Graph-Enhanced Encoder-Decoder
Language Model for Video-grounded Dialogue Generation [25.273719615694958]
本稿では,映像情報の統合性を高めるMSG-B-ARTという新しい手法を提案する。
具体的には,グローバルなシーングラフとローカルなシーングラフをエンコーダとデコーダに統合する。
MSG-B-ARTの顕著な優位性を示す3つのビデオ地上対話ベンチマークにおいて,大規模な実験を行った。
論文 参考訳(メタデータ) (2023-09-26T04:23:23Z) - VSTAR: A Video-grounded Dialogue Dataset for Situated Semantic
Understanding with Scene and Topic Transitions [47.94531693056304]
ビデオ地上対話理解は、機械が位置するセマンティクスを知覚し、解析し、理性を必要とする難しい問題である。
395のテレビシリーズをベースとした大規模ビデオ地上対話理解データセットであるビデオ地上Scene&Topic AwaRe対話データセットを提案する。
論文 参考訳(メタデータ) (2023-05-30T05:40:37Z) - A Unified Framework for Slot based Response Generation in a Multimodal
Dialogue System [25.17100881568308]
自然言語理解(NLU)と自然言語生成(NLG)は、すべての会話システムにおいて重要な要素である。
発話から必要なスロット値を抽出できるエンドツーエンドフレームワークを提案する。
事前学習したダイアロGPTを用いたマルチモーダル階層エンコーダを用いて、両方のタスクに対してより強力なコンテキストを提供する。
論文 参考訳(メタデータ) (2023-05-27T10:06:03Z) - ReSee: Responding through Seeing Fine-grained Visual Knowledge in
Open-domain Dialogue [34.223466503256766]
視覚的知識をよりきめ細かな粒度に分割することで多モーダル対話を構築するための新しいパラダイムを提供する。
拡張視覚情報の精度と多様性を高めるため、インターネットや大規模な画像データセットからそれらを検索する。
テキストと視覚知識を活用することで、ReSeeは現実世界の視覚概念による情報応答を生成できる。
論文 参考訳(メタデータ) (2023-05-23T02:08:56Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Learning Reasoning Paths over Semantic Graphs for Video-grounded
Dialogues [73.04906599884868]
対話文脈(PDC)における推論経路の新しい枠組みを提案する。
PDCモデルは、各質問と回答の語彙成分に基づいて構築されたセマンティックグラフを通じて、対話間の情報フローを発見する。
本モデルでは,この推論経路を通じて視覚情報とテキスト情報を逐次的に処理し,提案する特徴を用いて回答を生成する。
論文 参考訳(メタデータ) (2021-03-01T07:39:26Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。